Cependant, il est encore moins cher que ses concurrents.
Le nouveau chatbot de Deepseek s'est présenté à moi avec cette description attrayante:
Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre.
Aujourd'hui, l'intelligence artificielle de Deepseek est devenue un formidable concurrent sur le marché, contribuant notamment à l'une des plus grandes baisses de cours des actions de Nvidia.
Image: esigame.com
Ce qui distingue ce modèle, ce sont ses méthodes d'architecture et de formation innovantes. Il utilise plusieurs technologies de pointe:
Prédiction multi-token (MTP): Cette approche permet au modèle de prévoir plusieurs mots à la fois en analysant différentes parties d'une phrase, améliorant à la fois la précision et l'efficacité.
Mélange d'experts (MOE): le modèle de Deepseek utilise un éventail diversifié de réseaux de neurones pour traiter les données d'entrée. Cette architecture accélère la formation de l'IA et augmente les performances. Dans Deepseek V3, 256 réseaux neuronaux sont utilisés, avec huit activés pour chaque tâche de traitement de jeton.
Attention latente multi-tête (MLA): Ce mécanisme aide l'IA à se concentrer sur les parties les plus importantes d'une phrase. En extrayant à plusieurs reprises les détails clés des fragments de texte, MLA réduit le risque de manquer des informations importantes, permettant à l'IA de mieux capturer des nuances cruciales dans les données d'entrée.
La principale startup chinoise Deepseek se vante qu'ils ont créé un modèle d'IA hautement compétitif à un coût minimal, affirmant avoir dépensé seulement 6 millions de dollars pour la formation Deepseek V3 en utilisant seulement 2048 processeurs graphiques.
Image: esigame.com
Cependant, les analystes de la semi-analyse ont révélé que Deepseek exploite une infrastructure de calcul substantielle, comprenant environ 50 000 GPU Nvidia Hopper. Cela comprend 10 000 unités H800, 10 000 H100 avancées et des GPU H20 supplémentaires. Ces ressources sont réparties sur plusieurs centres de données et utilisées pour la formation, la recherche et la modélisation financière de l'IA.
L'investissement total de la société dans les serveurs est d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.
Deepseek est une filiale du High-Flyer de fonds spéculatifs chinois, qui a décroché la startup en tant que division distincte axée sur l'IA en 2023. Contrairement à la plupart des startups qui reposent sur les fournisseurs de cloud, Deepseek possède ses centres de données, fournissant un contrôle total sur l'optimisation du modèle IA et permettant une innovation rapide. L'entreprise reste autofinancée, améliorant sa flexibilité et sa vitesse de prise de décision.
Image: esigame.com
De plus, certains chercheurs de Deepseek gagnent plus de 1,3 million de dollars par an, attirant les meilleurs talents des principales universités chinoises (la société n'embauche pas de spécialistes étrangers).
Compte tenu de ces faits, la prétention de Deepseek de former son dernier modèle pour seulement 6 millions de dollars semble irréaliste. Ce chiffre ne couvre que le coût de l'utilisation du GPU pendant la pré-formation et n'inclut pas les dépenses de recherche, le raffinement du modèle, le traitement des données ou les coûts globaux d'infrastructure.
Depuis sa création, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA. Cependant, sa structure Lean lui permet de mettre en œuvre des innovations d'IA plus activement et efficacement que des entreprises plus grandes et plus bureaucratiques.
Image: esigame.com
L'exemple de Deepseek montre qu'une entreprise d'IA indépendante bien financée peut en effet rivaliser avec les géants de l'industrie. Pourtant, les experts notent que le succès de l'entreprise est motivé par des milliards d'investissements, des percées techniques et une équipe solide, tandis que les affirmations sur un "budget révolutionnaire" pour le développement du modèle d'IA sont quelque peu exagérées.
Néanmoins, les coûts de Deepseek restent inférieurs à ceux de ses concurrents. Par exemple, Deepseek a dépensé 5 millions de dollars pour R1, tandis que le chatppt4o a coûté 100 millions de dollars pour s'entraîner.