Sin embargo, sigue siendo más barato que sus competidores.
El nuevo chatbot de Deepseek se me presentó con esta atractiva descripción:
Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que pueda sorprenderte.
Hoy, la inteligencia artificial de Deepseek se ha convertido en un competidor formidable en el mercado, especialmente contribuyendo a una de las mayores caídas de precios de las acciones de Nvidia.
Imagen: ensigame.com
Lo que distingue a este modelo son sus innovadores métodos de arquitectura y capacitación. Utiliza varias tecnologías de vanguardia:
Predicción de múltiples token (MTP): este enfoque permite que el modelo pronostice múltiples palabras a la vez analizando diferentes partes de una oración, mejorando tanto la precisión como la eficiencia.
Mezcla de expertos (MOE): el modelo de Deepseek emplea una variedad diversa de redes neuronales para procesar datos de entrada. Esta arquitectura acelera el entrenamiento de IA y aumenta el rendimiento. En Deepseek V3, se utilizan 256 redes neuronales, con ocho activadas para cada tarea de procesamiento de tokens.
Atención latente de múltiples cabezas (MLA): este mecanismo ayuda a la IA a centrarse en las partes más significativas de una oración. Al extraer repetidamente los detalles clave de los fragmentos de texto, MLA reduce el riesgo de perder información importante, lo que permite a la IA capturar mejor los matices cruciales en los datos de entrada.
La nueva startup china Deepseek se jacta de que crearon un modelo de IA altamente competitivo a un costo mínimo, afirmando haber gastado solo $ 6 millones en capacitar a Deepseek V3 utilizando solo 2048 procesadores gráficos.
Imagen: ensigame.com
Sin embargo, los analistas del semianálisis revelaron que Deepseek opera una infraestructura computacional sustancial, que comprende alrededor de 50,000 GPU de la tolva NVIDIA. Esto incluye 10,000 unidades H800, 10,000 H100 avanzados y GPU H20 adicionales. Estos recursos se distribuyen en múltiples centros de datos y se utilizan para capacitación de IA, investigación y modelado financiero.
La inversión total de la compañía en servidores es de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Deepseek es una subsidiaria del Fondo de cobertura chino High-Flyer, que salió de la startup como una división separada centrada en la IA en 2023. A diferencia de la mayoría de las nuevas empresas que dependen de los proveedores de la nube, Deepseek posee sus centros de datos, proporcionando un control total sobre la optimización del modelo de IA y la innovación rápida. La compañía sigue siendo autofinanciada, mejorando su flexibilidad y velocidad de toma de decisiones.
Imagen: ensigame.com
Además, algunos investigadores de Deepseek ganan más de $ 1.3 millones anuales, atrayendo al máximo talento de las principales universidades chinas (la compañía no contrata especialistas en el extranjero).
Dados estos hechos, el reclamo de Deepseek de capacitar a su último modelo por solo $ 6 millones parece poco realista. Esta cifra solo cubre el costo del uso de la GPU durante la capacitación previa y no incluye gastos de investigación, refinamiento del modelo, procesamiento de datos o costos generales de infraestructura.
Desde su inicio, Deepseek ha invertido más de $ 500 millones en desarrollo de IA. Sin embargo, su estructura magra le permite implementar innovaciones de IA de manera más activa y efectiva que las empresas más grandes y burocráticas.
Imagen: ensigame.com
El ejemplo de Deepseek ilustra que una compañía de IA independiente bien financiada puede competir con los gigantes de la industria. Sin embargo, los expertos señalan que el éxito de la compañía está impulsado por miles de millones en inversiones, avances técnicos y un equipo fuerte, mientras que las afirmaciones sobre un "presupuesto revolucionario" para el desarrollo del modelo de IA son algo exagerados.
Sin embargo, los costos de Deepseek siguen siendo más bajos que los de sus competidores. Por ejemplo, Deepseek gastó $ 5 millones en R1, mientras que CHATGPT4O costó $ 100 millones para entrenar.