SULUH.ID, SEMARANG – Industri teknologi kecerdasan buatan (AI) terus berkembang pesat dengan munculnya model-model inovatif yang semakin canggih. Di tengah persaingan ketat antara model AI komersial tertutup, seperti GPT-4o dari OpenAI dan Claude dari Anthropic, perusahaan teknologi asal China, DeepSeek, membuat gebrakan dengan merilis DeepSeek v3, model AI open source terbesar yang pernah ada.
Dirilis pada Desember 2024, DeepSeek v3 hadir dengan spesifikasi yang mengesankan, terutama dari segi jumlah parameter dan performa, menjadikannya penantang serius bagi dominasi model-model AI komersial yang ada.
DeepSeek v3 didesain dengan total 671 miliar parameter, membuatnya 1,6 kali lebih besar dari Llama 3.1 yang memiliki 405 miliar parameter. Berdasarkan berbagai pengujian, model ini terbukti unggul di berbagai bidang, termasuk:
Kemampuan Multitasking DeepSeek v3 dapat menangani beragam tugas berbasis teks, seperti:
Penulisan konten kreatif dan teknis
Pemrograman
Penerjemahan multibahasa
Pembuatan email otomatis
Performa model ini bahkan mampu menyaingi GPT-4o dalam banyak pengujian, terutama pada tugas-tugas yang melibatkan pemahaman konteks panjang hingga 128 ribu token (setara dengan 100 ribu kata). Ini memungkinkan DeepSeek v3 memahami dokumen atau kode program yang sangat panjang dengan akurasi tinggi.
Dalam uji kemampuan matematika Math-500, DeepSeek v3 mencetak skor 90,2—jauh lebih tinggi dibandingkan model pesaing, Qwen 2.5 72B, yang hanya meraih skor 80. Tak hanya itu, model ini juga tampil impresif dalam uji pemrograman kompetitif di platform Codeforces, menjadikannya solusi ideal untuk pengembang perangkat lunak.
Salah satu keunggulan terbesar DeepSeek v3 adalah keterbukaannya. Berbeda dengan model tertutup seperti GPT-4o, DeepSeek v3 dapat diakses secara gratis di platform GitHub dengan lisensi MIT, sehingga memudahkan komunitas pengembang AI global untuk memanfaatkan teknologi ini.
Inovasi Teknologi di Balik DeepSeek v3
DeepSeek v3 dibangun dengan arsitektur canggih berbasis Mixture-of-Experts (MoE). Sistem ini bekerja seperti tim ahli, di mana hanya sebagian parameter yang aktif setiap kali model memproses token. Pendekatan ini membuat DeepSeek v3 jauh lebih efisien dibandingkan model-model konvensional yang mengaktifkan semua parameter secara bersamaan.
Inovasi lainnya adalah penggunaan teknologi auxiliary loss-free load balancing, yang memastikan distribusi beban kerja antar parameter tetap seimbang tanpa mengurangi performa. Proses pelatihan model ini juga mengadopsi teknik FP8 mixed precision training, yang memungkinkan pelatihan lebih cepat dan hemat daya komputasi.
DeepSeek menggunakan 14,8 triliun token data berkualitas tinggi untuk melatih model ini. Data tersebut mencakup berbagai jenis konten, mulai dari artikel berita, buku, hingga kode program, yang dirancang untuk mengoptimalkan kemampuan model dalam berbagai tugas.
Biaya Efisien dan Proses Pengembangan Cepat
Terlepas dari ukurannya yang masif, pengembangan DeepSeek v3 tergolong sangat efisien. Tim DeepSeek hanya membutuhkan waktu dua bulan untuk melatih model ini, dengan total biaya sekitar 5,57 juta dolar AS (sekitar Rp90 miliar). Biaya ini jauh lebih rendah dibandingkan model besar lainnya, seperti Llama 3.1, yang diperkirakan menelan biaya lebih dari 500 juta dolar AS.
Keberhasilan ini semakin mengesankan mengingat adanya pembatasan akses China terhadap GPU Nvidia H800 akibat kebijakan ekspor teknologi dari Amerika Serikat. Meski menghadapi tantangan tersebut, tim DeepSeek berhasil mengoptimalkan penggunaan pusat data yang ada untuk menyelesaikan proyek tepat waktu.
Aksesibilitas dan Rencana Pengembangan Selanjutnya
DeepSeek v3 kini tersedia di berbagai platform:
GitHub untuk kode sumber
Hugging Face untuk model pra-latih
DeepSeek Chat sebagai layanan berbasis antarmuka pengguna, mirip dengan ChatGPT
Bagi pengguna komersial, DeepSeek menyediakan API dengan harga bersaing, yaitu:
0,27 dolar AS per satu juta token input (sekitar Rp4.300)
1,10 dolar AS per satu juta token output (sekitar Rp17.800)
Diskon khusus hingga 0,07 dolar AS per satu juta token saat menggunakan fitur cache hits
Selain itu, DeepSeek dilaporkan tengah mengembangkan fitur baru bernama Deep Roles, yang memungkinkan pengguna membuat “peran” kustom untuk skenario tertentu. Fitur ini diprediksi akan menjadi pesaing langsung dari Custom GPTs milik OpenAI.
DeepSeek v3, Masa Depan AI Open Source
Dengan spesifikasi tinggi, inovasi teknologi mutakhir, dan keterbukaan akses, DeepSeek v3 menjadi simbol kemajuan pesat AI open source. Kehadirannya tidak hanya memperketat persaingan dengan model komersial besar, tetapi juga membuka peluang baru bagi komunitas global untuk mengembangkan solusi berbasis AI dengan biaya yang lebih rendah.
Ke depan, model-model seperti DeepSeek v3 akan semakin menyempitkan jurang antara model terbuka dan tertutup, menciptakan ekosistem AI yang lebih inklusif dan inovatif. Bagi pengembang, peneliti, dan perusahaan, DeepSeek v3 adalah alat yang patut diperhitungkan untuk menghadapi era baru teknologi kecerdasan buatan.
HENDRA/SLH