DeepSeekはProver-V2モデルを発表し、パラメータ数は6710億に達しました。

robot
概要作成中

[DeepSeek、6,710億パラメータのProver-V2モデルをリリース] DeepSeekは本日、オープンソースのAIコミュニティであるHugging Faceで、新モデル「DeepSeek-Prover-V2-671B」をリリースしました。 DeepSeek-Prover-V2-671Bは、より効率的なsafetensorsファイル形式を使用し、さまざまな計算精度をサポートしていると報告されており、6710億のパラメータ、または昨年リリースされたProver-V1.5数学モデルのアップグレードバージョンを使用して、より高速でリソースを節約するモデルのトレーニングと展開に便利です。 モデルアーキテクチャに関しては、モデルはDeepSeek-V3アーキテクチャを使用し、MoE(Hybrid Expert)モードを採用し、61のTransformer層と7168の次元隠れ層を備えています。 同時に、最大位置埋め込みが最大163,800で複雑な数学的証明を処理できる超ロングコンテキストをサポートし、FP8量子化が採用されているため、量子化技術によりモデルサイズを縮小し、推論効率を向上させることができます。 (ゴールドテン)

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)