[DeepSeek تطلق نموذج Prover-V2 مع 671 مليار معلمة] أصدرت DeepSeek اليوم نموذجا جديدا يسمى DeepSeek-Prover-V2-671B على Hugging Face ، وهو مجتمع الذكاء الاصطناعي مفتوح المصدر. يذكر أن DeepSeek-Prover-V2-671B يستخدم تنسيق ملف Safetensors أكثر كفاءة ويدعم مجموعة متنوعة من دقة الحساب ، وهو مناسب للتدريب والنشر على النموذج بشكل أسرع وأكثر توفيرا للموارد ، مع 671 مليار معلمة ، أو نسخة مطورة من النموذج الرياضي Prover-V1.5 الذي تم إصداره العام الماضي. فيما يتعلق بهندسة النموذج ، يستخدم النموذج بنية DeepSeek-V3 ، ويعتمد وضع MoE (Hybrid Expert) ، ويحتوي على 61 طبقة محول و 7168 طبقة مخفية أبعاد. في الوقت نفسه ، يدعم السياقات الطويلة للغاية ، مع تضمين أقصى موضع يصل إلى 163,800 ، مما يمكنه من معالجة البراهين الرياضية المعقدة ، ويتم اعتماد تكميم FP8 ، والذي يمكن أن يقلل من حجم النموذج ويحسن كفاءة الاستدلال من خلال تقنية التكميم. ( ذهب عشرة )
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
أصدرت DeepSeek نموذج Prover-V2، ويبلغ عدد المعلمات 6710 مليار.
[DeepSeek تطلق نموذج Prover-V2 مع 671 مليار معلمة] أصدرت DeepSeek اليوم نموذجا جديدا يسمى DeepSeek-Prover-V2-671B على Hugging Face ، وهو مجتمع الذكاء الاصطناعي مفتوح المصدر. يذكر أن DeepSeek-Prover-V2-671B يستخدم تنسيق ملف Safetensors أكثر كفاءة ويدعم مجموعة متنوعة من دقة الحساب ، وهو مناسب للتدريب والنشر على النموذج بشكل أسرع وأكثر توفيرا للموارد ، مع 671 مليار معلمة ، أو نسخة مطورة من النموذج الرياضي Prover-V1.5 الذي تم إصداره العام الماضي. فيما يتعلق بهندسة النموذج ، يستخدم النموذج بنية DeepSeek-V3 ، ويعتمد وضع MoE (Hybrid Expert) ، ويحتوي على 61 طبقة محول و 7168 طبقة مخفية أبعاد. في الوقت نفسه ، يدعم السياقات الطويلة للغاية ، مع تضمين أقصى موضع يصل إلى 163,800 ، مما يمكنه من معالجة البراهين الرياضية المعقدة ، ويتم اعتماد تكميم FP8 ، والذي يمكن أن يقلل من حجم النموذج ويحسن كفاءة الاستدلال من خلال تقنية التكميم. ( ذهب عشرة )