[DeepSeek Merilis Model Prover-V2 dengan 671 Miliar Parameter] DeepSeek hari ini merilis model baru yang disebut DeepSeek-Prover-V2-671B di Hugging Face, komunitas AI sumber terbuka. Dilaporkan bahwa DeepSeek-Prover-V2-671B menggunakan format file safetensors yang lebih efisien dan mendukung berbagai presisi perhitungan, yang nyaman untuk pelatihan dan penerapan model yang lebih cepat dan lebih hemat sumber daya, dengan 671 miliar parameter, atau versi upgrade dari model matematika Prover-V1.5 yang dirilis tahun lalu. Dari segi arsitektur model, model ini menggunakan arsitektur DeepSeek-V3, mengadopsi mode MoE (Hybrid Expert), dan memiliki 61 lapisan Transformer dan 7168 lapisan tersembunyi dimensi. Pada saat yang sama, ini mendukung konteks ultra-panjang, dengan penyematan posisi maksimum hingga 163.800, yang memungkinkannya memproses bukti matematika yang kompleks, dan kuantisasi FP8 diadopsi, yang dapat mengurangi ukuran model dan meningkatkan efisiensi inferensi melalui teknologi kuantisasi. ( emas sepuluh )
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
DeepSeek meluncurkan model Prover-V2 dengan jumlah parameter mencapai 6710 miliar
[DeepSeek Merilis Model Prover-V2 dengan 671 Miliar Parameter] DeepSeek hari ini merilis model baru yang disebut DeepSeek-Prover-V2-671B di Hugging Face, komunitas AI sumber terbuka. Dilaporkan bahwa DeepSeek-Prover-V2-671B menggunakan format file safetensors yang lebih efisien dan mendukung berbagai presisi perhitungan, yang nyaman untuk pelatihan dan penerapan model yang lebih cepat dan lebih hemat sumber daya, dengan 671 miliar parameter, atau versi upgrade dari model matematika Prover-V1.5 yang dirilis tahun lalu. Dari segi arsitektur model, model ini menggunakan arsitektur DeepSeek-V3, mengadopsi mode MoE (Hybrid Expert), dan memiliki 61 lapisan Transformer dan 7168 lapisan tersembunyi dimensi. Pada saat yang sama, ini mendukung konteks ultra-panjang, dengan penyematan posisi maksimum hingga 163.800, yang memungkinkannya memproses bukti matematika yang kompleks, dan kuantisasi FP8 diadopsi, yang dapat mengurangi ukuran model dan meningkatkan efisiensi inferensi melalui teknologi kuantisasi. ( emas sepuluh )