[DeepSeek выпускает модель Prover-V2 с 671 миллиардом параметров] Компания DeepSeek сегодня выпустила новую модель под названием DeepSeek-Prover-V2-671B в Hugging Face, сообществе искусственного интеллекта с открытым исходным кодом. Сообщается, что DeepSeek-Prover-V2-671B использует более эффективный формат файлов safetensors и поддерживает различные точности вычислений, что удобно для более быстрого и ресурсосберегающего обучения и развертывания модели с 671 миллиардом параметров, или обновленную версию математической модели Prover-V1.5, выпущенную в прошлом году. С точки зрения архитектуры модели, модель использует архитектуру DeepSeek-V3, принимает режим MoE (Hybrid Expert) и имеет 61 трансформаторный слой и 7168 размерных скрытых слоев. В то же время он поддерживает сверхдлинные контексты с максимальным вложением позиций до 163 800, что позволяет ему обрабатывать сложные математические доказательства, и используется квантование FP8, которое может уменьшить размер модели и повысить эффективность вывода с помощью технологии квантования. ( золота десять )
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
DeepSeek выпустила модель Prover-V2 с количеством параметров 671 миллиард.
[DeepSeek выпускает модель Prover-V2 с 671 миллиардом параметров] Компания DeepSeek сегодня выпустила новую модель под названием DeepSeek-Prover-V2-671B в Hugging Face, сообществе искусственного интеллекта с открытым исходным кодом. Сообщается, что DeepSeek-Prover-V2-671B использует более эффективный формат файлов safetensors и поддерживает различные точности вычислений, что удобно для более быстрого и ресурсосберегающего обучения и развертывания модели с 671 миллиардом параметров, или обновленную версию математической модели Prover-V1.5, выпущенную в прошлом году. С точки зрения архитектуры модели, модель использует архитектуру DeepSeek-V3, принимает режим MoE (Hybrid Expert) и имеет 61 трансформаторный слой и 7168 размерных скрытых слоев. В то же время он поддерживает сверхдлинные контексты с максимальным вложением позиций до 163 800, что позволяет ему обрабатывать сложные математические доказательства, и используется квантование FP8, которое может уменьшить размер модели и повысить эффективность вывода с помощью технологии квантования. ( золота десять )