Tuttavia, è ancora più economico dei suoi concorrenti.
Il nuovo chatbot di Deepseek si è presentato a me con questa descrizione coinvolgente:
Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti.
Oggi, l'intelligenza artificiale di Deepseek è emersa come un formidabile concorrente sul mercato, contribuendo in particolare a uno dei maggiori calo dei prezzi delle azioni di Nvidia.
Immagine: Ensigame.com
Ciò che distingue questo modello sono la sua architettura innovativa e metodi di formazione. Utilizza diverse tecnologie all'avanguardia:
Multi-Token Prediction (MTP): questo approccio consente al modello di prevedere più parole contemporaneamente analizzando diverse parti di una frase, migliorando sia l'accuratezza che l'efficienza.
Miscela di esperti (MOE): il modello di DeepSeek impiega una vasta gamma di reti neurali per elaborare i dati di input. Questa architettura accelera l'allenamento di intelligenza artificiale e aumenta le prestazioni. In DeepSeek V3, vengono utilizzate 256 reti neurali, con otto attivate per ciascuna attività di elaborazione dei token.
Attenzione latente multi-testa (MLA): questo meccanismo aiuta l'IA a concentrarsi sulle parti più significative di una frase. Estrando ripetutamente i dettagli chiave dai frammenti di testo, MLA riduce il rischio di perdere informazioni importanti, consentendo all'IA di acquisire meglio sfumature cruciali nei dati di input.
La principale startup cinese Deepseek si vanta di aver creato un modello di intelligenza artificiale altamente competitivo a un costo minimo, sostenendo di aver speso solo $ 6 milioni per la formazione di Deepseek V3 utilizzando solo 2048 processori grafici.
Immagine: Ensigame.com
Tuttavia, gli analisti della seminalisi hanno rivelato che DeepSeek gestisce una sostanziale infrastruttura computazionale, che comprende circa 50.000 GPU della tramoggia Nvidia. Ciò include 10.000 unità H800, 10.000 H100 avanzati e GPU H20 aggiuntive. Queste risorse sono distribuite su più data center e utilizzati per la formazione, la ricerca e la modellazione finanziaria dell'IA.
L'investimento totale della società nei server è di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni.
DeepSeek è una consociata dell'Hedge Fund cinese High-Flyer, che ha lasciato la startup come una divisione separata focalizzata sull'intelligenza artificiale nel 2023. A differenza della maggior parte delle startup che si basano sui fornitori di cloud, Deepseek possiede i suoi data center, fornendo il pieno controllo sull'ottimizzazione dei modelli di AI e consentendo una rapida innovazione. L'azienda rimane autofinanziata, migliorando la sua flessibilità e la velocità decisionale.
Immagine: Ensigame.com
Inoltre, alcuni ricercatori di DeepSeek guadagnano oltre $ 1,3 milioni all'anno, attirando i migliori talenti dalle principali università cinesi (la società non assume specialisti stranieri).
Dati questi fatti, l'affermazione di Deepseek di addestrare il suo ultimo modello per soli $ 6 milioni sembra irrealistica. Questa cifra copre solo il costo dell'utilizzo della GPU durante il pre-allenamento e non include spese di ricerca, perfezionamento del modello, elaborazione dei dati o costi complessivi di infrastruttura.
Fin dalla sua istituzione, DeepSeek ha investito oltre $ 500 milioni nello sviluppo dell'IA. Tuttavia, la sua struttura snella gli consente di implementare innovazioni di intelligenza artificiale in modo più attiva ed efficace delle aziende più grandi e burocratiche.
Immagine: Ensigame.com
L'esempio di DeepSeek illustra che un'azienda di intelligenza artificiale indipendente ben finanziata può effettivamente competere con i giganti del settore. Tuttavia, gli esperti notano che il successo dell'azienda è guidato da miliardi di investimenti, scoperte tecniche e un team forte, mentre le affermazioni su un "budget rivoluzionario" per lo sviluppo del modello di intelligenza artificiale sono in qualche modo esagerate.
Tuttavia, i costi di Deepseek rimangono inferiori a quelli dei suoi concorrenti. Ad esempio, DeepSeek ha speso $ 5 milioni in R1, mentre GATGPT4O costa $ 100 milioni per allenarsi.