Walau bagaimanapun, ia masih lebih murah daripada pesaingnya.
Chatbot baru dari DeepSeek memperkenalkan dirinya kepada saya dengan penerangan yang menarik ini:
Hai, saya dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda.
Hari ini, kecerdasan buatan Deepseek telah muncul sebagai pesaing yang hebat di pasaran, terutamanya menyumbang kepada salah satu penurunan harga saham terbesar Nvidia.
Imej: ensigame.com
Apa yang membezakan model ini adalah kaedah seni bina dan latihan yang inovatif. Ia menggunakan beberapa teknologi canggih:
Ramalan Multi-Token (MTP): Pendekatan ini membolehkan model meramalkan pelbagai perkataan sekaligus dengan menganalisis bahagian-bahagian yang berlainan dari ayat, meningkatkan kedua-dua ketepatan dan kecekapan.
Campuran Pakar (MOE): Model DeepSeek menggunakan pelbagai rangkaian saraf untuk memproses data input. Senibina ini mempercepat latihan AI dan meningkatkan prestasi. Dalam DeepSeek V3, 256 rangkaian saraf digunakan, dengan lapan diaktifkan untuk setiap tugas pemprosesan token.
Perhatian Laten Multi-Head (MLA): Mekanisme ini membantu fokus AI pada bahagian-bahagian yang paling penting dalam ayat. Dengan berulang kali mengekstrak butiran utama dari serpihan teks, MLA mengurangkan risiko maklumat penting yang hilang, membolehkan AI untuk menangkap nuansa penting dalam data input.
Permulaan Cina yang terkemuka Deepseek mempunyai bahawa mereka mencipta model AI yang sangat kompetitif dengan kos yang minimum, mendakwa hanya menghabiskan $ 6 juta untuk latihan DeepSeek V3 menggunakan hanya 2048 pemproses grafik.
Imej: ensigame.com
Walau bagaimanapun, penganalisis dari semianalisis mendedahkan bahawa DeepSeek mengendalikan infrastruktur pengiraan yang besar, yang terdiri daripada sekitar 50,000 GPU NVIDIA Hopper. Ini termasuk 10,000 unit H800, 10,000 H100s maju, dan GPU tambahan H20. Sumber -sumber ini tersebar di pelbagai pusat data dan digunakan untuk latihan AI, penyelidikan, dan pemodelan kewangan.
Jumlah pelaburan syarikat dalam pelayan adalah kira -kira $ 1.6 bilion, dengan perbelanjaan operasi dianggarkan $ 944 juta.
DeepSeek adalah anak syarikat dana lindung nilai Cina yang tinggi, yang memancarkan permulaan sebagai bahagian AI yang berasingan pada tahun 2023. Tidak seperti kebanyakan pemula yang bergantung kepada penyedia awan, DeepSeek memiliki pusat datanya, memberikan kawalan penuh ke atas pengoptimuman model AI dan membolehkan inovasi pesat. Syarikat itu tetap dibiayai sendiri, meningkatkan kelajuan fleksibiliti dan membuat keputusan.
Imej: ensigame.com
Lebih -lebih lagi, beberapa penyelidik di DeepSeek memperoleh lebih dari $ 1.3 juta setiap tahun, menarik bakat teratas dari universiti -universiti China yang terkemuka (syarikat itu tidak mengupah pakar asing).
Memandangkan fakta -fakta ini, tuntutan DeepSeek untuk melatih model terbarunya untuk hanya $ 6 juta kelihatan tidak realistik. Angka ini hanya meliputi kos penggunaan GPU semasa pra-latihan dan tidak termasuk perbelanjaan penyelidikan, penghalusan model, pemprosesan data, atau kos infrastruktur keseluruhan.
Sejak penubuhannya, DeepSeek telah melabur lebih daripada $ 500 juta dalam pembangunan AI. Walau bagaimanapun, struktur kurus membolehkannya melaksanakan inovasi AI dengan lebih aktif dan berkesan daripada syarikat birokrasi yang lebih besar.
Imej: ensigame.com
Contoh DeepSeek menggambarkan bahawa syarikat AI yang dibiayai dengan baik dan bebas dapat bersaing dengan gergasi industri. Namun, para pakar perhatikan bahawa kejayaan syarikat didorong oleh berbilion -bilion dalam pelaburan, penemuan teknikal, dan pasukan yang kuat, sementara tuntutan tentang "anggaran revolusioner" untuk pembangunan model AI agak dibesar -besarkan.
Walau bagaimanapun, kos DeepSeek kekal lebih rendah daripada pesaingnya. Sebagai contoh, DeepSeek membelanjakan $ 5 juta pada R1, manakala ChatGPT4O berharga $ 100 juta untuk melatih.