- DeepSeek dan Peking University rilis DSpark, framework speculative decoding yang tingkatkan kecepatan AI hingga 85% tanpa hardware baru
- Satu GPU yang dulu layani 100 pengguna kini bisa proses 185 pengguna, menurut penguji Huang Yong dari Beijing
- Kode sumber dibuka di GitHub dan HuggingFace dengan lisensi MIT, bisa dipakai untuk model Google Gemma dan Alibaba Qwen
DeepSeek Rilis DSpark, AI 85% Lebih Cepat Tanpa GPU Tambahan
Bayangkan satu GPU yang dulu melayani 100 pengguna kini bisa proses 185. Itulah yang dilakukan DSpark — framework anyar dari DeepSeek dan Peking University yang bikin AI 85% lebih cepat tanpa tambahan chip.
Cara DSpark Bikin AI Lebih Cepat
Masalah utama AI model besar adalah cara mereka memproses data: satu token demi satu token secara berurutan. Akibatnya, GPU banyak menganggur. Menurut Ben Jiang dari South China Morning Post, DSpark mengubahnya lewat tiga terobosan:
Pertama, semi-autoregressive generation. Draft model bikin potongan kecil token sekaligus, bukan kata per kata. Kedua, confidence scheduling. Setiap token dikasih skor keyakinan — kalau tinggi, langsung diverifikasi; kalau rendah, dibuang sebelum buang-buang komputasi. Ketiga, open source di GitHub dan HuggingFace dengan lisensi MIT.
Hasilnya? Per-user generation speed naik 60-85% untuk DeepSeek V4 Flash. Aggregate throughput di server melonjak 51% sampai 400% tergantung beban.
Satu GPU Layani 2x Lebih Banyak Pengguna
Huang Yong, programmer di Beijing yang ikut menguji DSpark, bilang: "Dengan efisiensi sampai 85%, satu GPU yang sebelumnya menangani 100 query pengguna kini bisa memproses sekitar 185 query."
Artinya biaya per API call bisa turun drastis tanpa investasi hardware baru. Di tengah booming AI yang bikin harga GPU dan memory chip meroket, ini keunggulan kompetitif.
Perlombaan Optimalisasi Inference
DSpark bukan satu-satunya. Tencent sudah bikin optimasi di attention mechanisms dan memory caching. Xiaomi bahkan capai kecepatan output lebih dari 1.000 token per detik dengan MiMo-V2.5-Pro-UltraSpeed.
Pesan utamanya: perlombaan AI nggak lagi soal parameter. Sekarang soal biaya per token dan efisiensi inference. Di China, tekanan US export restrictions pada chip canggih bikin inovasi software jadi senjata utama.
Kesimpulan
DSpark bukan sekadar update performa. Ini sinyal bahwa pertarungan AI masa depan bukan di jumlah parameter, tapi di siapa yang paling efisien secara biaya. 28 Juni 2026 — Sumber: South China Morning Post/Ben Jiang
Pertanyaan yang sering muncul
Apa itu DSpark?
DSpark adalah framework speculative decoding buatan DeepSeek dan Peking University yang bikin AI model besar berjalan 85% lebih cepat tanpa tambahan hardware.
Apakah DSpark bisa dipakai untuk model AI lain?
Bisa. DSpark sudah diuji pada Google DeepMind Gemma dan Alibaba Qwen. Kode sumbernya terbuka di GitHub dan HuggingFace dengan lisensi MIT.
Apa bedanya DSpark dengan optimasi AI biasa?
DSpark bukan model baru, tapi sistem inference yang lebih pintar. Ia mengurangi komputasi sia-sia melalui confidence scheduling.
