[DeepSeek、6,710億パラメータのProver-V2モデルをリリース] DeepSeekは本日、オープンソースのAIコミュニティであるHugging Faceで、新モデル「DeepSeek-Prover-V2-671B」をリリースしました。 DeepSeek-Prover-V2-671Bは、より効率的なsafetensorsファイル形式を使用し、さまざまな計算精度をサポートしていると報告されており、6710億のパラメータ、または昨年リリースされたProver-V1.5数学モデルのアップグレードバージョンを使用して、より高速でリソースを節約するモデルのトレーニングと展開に便利です。 モデルアーキテクチャに関しては、モデルはDeepSeek-V3アーキテクチャを使用し、MoE(Hybrid Expert)モードを採用し、61のTransformer層と7168の次元隠れ層を備えています。 同時に、最大位置埋め込みが最大163,800で複雑な数学的証明を処理できる超ロングコンテキストをサポートし、FP8量子化が採用されているため、量子化技術によりモデルサイズを縮小し、推論効率を向上させることができます。 (ゴールドテン)
DeepSeekはProver-V2モデルを発表し、パラメータ数は6710億に達しました。
[DeepSeek、6,710億パラメータのProver-V2モデルをリリース] DeepSeekは本日、オープンソースのAIコミュニティであるHugging Faceで、新モデル「DeepSeek-Prover-V2-671B」をリリースしました。 DeepSeek-Prover-V2-671Bは、より効率的なsafetensorsファイル形式を使用し、さまざまな計算精度をサポートしていると報告されており、6710億のパラメータ、または昨年リリースされたProver-V1.5数学モデルのアップグレードバージョンを使用して、より高速でリソースを節約するモデルのトレーニングと展開に便利です。 モデルアーキテクチャに関しては、モデルはDeepSeek-V3アーキテクチャを使用し、MoE(Hybrid Expert)モードを採用し、61のTransformer層と7168の次元隠れ層を備えています。 同時に、最大位置埋め込みが最大163,800で複雑な数学的証明を処理できる超ロングコンテキストをサポートし、FP8量子化が採用されているため、量子化技術によりモデルサイズを縮小し、推論効率を向上させることができます。 (ゴールドテン)