DeepSeek meluncurkan model Prover-V2 dengan jumlah parameter mencapai 6710 miliar

robot
Pembuatan abstrak sedang berlangsung

[DeepSeek Merilis Model Prover-V2 dengan 671 Miliar Parameter] DeepSeek hari ini merilis model baru yang disebut DeepSeek-Prover-V2-671B di Hugging Face, komunitas AI sumber terbuka. Dilaporkan bahwa DeepSeek-Prover-V2-671B menggunakan format file safetensors yang lebih efisien dan mendukung berbagai presisi perhitungan, yang nyaman untuk pelatihan dan penerapan model yang lebih cepat dan lebih hemat sumber daya, dengan 671 miliar parameter, atau versi upgrade dari model matematika Prover-V1.5 yang dirilis tahun lalu. Dari segi arsitektur model, model ini menggunakan arsitektur DeepSeek-V3, mengadopsi mode MoE (Hybrid Expert), dan memiliki 61 lapisan Transformer dan 7168 lapisan tersembunyi dimensi. Pada saat yang sama, ini mendukung konteks ultra-panjang, dengan penyematan posisi maksimum hingga 163.800, yang memungkinkannya memproses bukti matematika yang kompleks, dan kuantisasi FP8 diadopsi, yang dapat mengurangi ukuran model dan meningkatkan efisiensi inferensi melalui teknologi kuantisasi. ( emas sepuluh )

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)