[DeepSeek publie le modèle Prover-V2 avec 671 milliards de paramètres] DeepSeek a publié aujourd’hui un nouveau modèle appelé DeepSeek-Prover-V2-671B sur Hugging Face, une communauté d’IA open source. Il est rapporté que DeepSeek-Prover-V2-671B utilise un format de fichier de protection plus efficace et prend en charge une variété de précisions de calcul, ce qui est pratique pour une formation et un déploiement de modèles plus rapides et plus économes en ressources, avec 671 milliards de paramètres, ou une version améliorée du modèle mathématique Prover-V1.5 publiée l’année dernière. En termes d’architecture de modèle, le modèle utilise l’architecture DeepSeek-V3, adopte le mode MoE (Hybrid Expert) et comporte 61 couches de transformateur et 7168 couches cachées dimensionnelles. Dans le même temps, il prend en charge les contextes ultra-longs, avec une intégration de position maximale allant jusqu’à 163 800, ce qui lui permet de traiter des preuves mathématiques complexes, et la quantification FP8 est adoptée, ce qui peut réduire la taille du modèle et améliorer l’efficacité de l’inférence grâce à la technologie de quantification. ( dix ) d’or
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
DeepSeek a lancé le modèle Prover-V2, avec un nombre de paramètres atteignant 671 milliards.
[DeepSeek publie le modèle Prover-V2 avec 671 milliards de paramètres] DeepSeek a publié aujourd’hui un nouveau modèle appelé DeepSeek-Prover-V2-671B sur Hugging Face, une communauté d’IA open source. Il est rapporté que DeepSeek-Prover-V2-671B utilise un format de fichier de protection plus efficace et prend en charge une variété de précisions de calcul, ce qui est pratique pour une formation et un déploiement de modèles plus rapides et plus économes en ressources, avec 671 milliards de paramètres, ou une version améliorée du modèle mathématique Prover-V1.5 publiée l’année dernière. En termes d’architecture de modèle, le modèle utilise l’architecture DeepSeek-V3, adopte le mode MoE (Hybrid Expert) et comporte 61 couches de transformateur et 7168 couches cachées dimensionnelles. Dans le même temps, il prend en charge les contextes ultra-longs, avec une intégration de position maximale allant jusqu’à 163 800, ce qui lui permet de traiter des preuves mathématiques complexes, et la quantification FP8 est adoptée, ce qui peut réduire la taille du modèle et améliorer l’efficacité de l’inférence grâce à la technologie de quantification. ( dix ) d’or