Ancak, hala rakiplerinden daha ucuz.
Deepseek'in yeni sohbet botu bu ilgi çekici açıklamayla kendisini bana tanıttı:
Merhaba, yaratıldım, böylece herhangi bir şey sorabilir ve sizi şaşırtabilecek bir cevap alabilirsiniz.
Bugün, Deepseek'in yapay zekası, piyasada zorlu bir rakip olarak ortaya çıktı ve özellikle Nvidia'nın en büyük hisse senedi fiyat düşüşlerinden birine katkıda bulundu.
Resim: ensigame.com
Bu modeli ayıran şey, yenilikçi mimarisi ve eğitim yöntemleridir. Birkaç son teknolojiyi kullanır:
Çoklu Tahmini Tahmin (MTP): Bu yaklaşım, bir cümlenin farklı bölümlerini analiz ederek, hem doğruluğu hem de verimliliği artırarak modelin aynı anda birden fazla kelimeyi tahmin etmesini sağlar.
Uzmanların Karışımı (MOE): Deepseek'in modeli, girdi verilerini işlemek için çok çeşitli sinir ağları kullanır. Bu mimari AI eğitimini hızlandırır ve performansı artırır. Deepseek V3'te 256 sinir ağı kullanılır, her jeton işleme görevi için sekiz etkinleştirilir.
Çok Baş Gizli Dikkat (MLA): Bu mekanizma, AI'nın bir cümlenin en önemli kısımlarına odaklanmasına yardımcı olur. Metin parçalarından tekrar tekrar temel ayrıntıları çıkararak MLA, önemli bilgilerin eksik olma riskini azaltır ve AI'nın giriş verilerindeki önemli nüansları daha iyi yakalamasını sağlar.
Önde gelen Çinli girişim Deepseek, minimum maliyetle oldukça rekabetçi bir AI modeli oluşturduklarını ve sadece 2048 grafik işlemcileri kullanarak Deepseek V3'ü eğitmek için sadece 6 milyon dolar harcadıklarını iddia ediyor.
Resim: ensigame.com
Bununla birlikte, Semianaliz'den analistler, Deepseek'in yaklaşık 50.000 NVIDIA Hopper GPU'ları içeren önemli bir hesaplama altyapısı işlettiğini ortaya koydu. Buna 10.000 H800 birim, 10.000 gelişmiş H100 ve ek H20 GPU'lar dahildir. Bu kaynaklar birden fazla veri merkezine yayılmıştır ve AI eğitimi, araştırma ve finansal modelleme için kullanılmaktadır.
Şirketin sunuculara toplam yatırımı yaklaşık 1,6 milyar $ 'dır ve operasyonel giderlerin 944 milyon $ olduğu tahmin edilmektedir.
Deepseek, 2023'te başlangıçta ayrı bir AI odaklı bölünme olarak başlayan Çin Hedge Fonu High-Flyer'in bir yan kuruluşudur. Bulut sağlayıcılarına dayanan çoğu girişimin aksine, Deepseek veri merkezlerinin sahibidir, AI modeli optimizasyonu üzerinde tam kontrol sağlar ve hızlı inovasyon sağlar. Şirket, esnekliğini ve karar verme hızını artırarak kendi kendini finanse ediyor.
Resim: ensigame.com
Dahası, Deepseek'teki bazı araştırmacılar yılda 1.3 milyon doların üzerinde para kazanıyor ve önde gelen Çin üniversitelerinden en iyi yetenekleri çekiyor (şirket yabancı uzmanları işe almıyor).
Bu gerçekler göz önüne alındığında, Deepseek'in son modelini sadece 6 milyon dolarlık eğitme iddiası gerçekçi görünmüyor. Bu şekil yalnızca eğitim öncesi GPU kullanım maliyetini kapsar ve araştırma giderleri, model arıtma, veri işleme veya genel altyapı maliyetlerini içermez.
Deepseek, kuruluşundan bu yana AI gelişimine 500 milyon doların üzerinde yatırım yaptı. Bununla birlikte, yalın yapısı, AI yeniliklerini daha büyük, daha bürokratik şirketlerden daha aktif ve etkili bir şekilde uygulamasını sağlar.
Resim: ensigame.com
Deepseek örneği, iyi finanse edilen, bağımsız bir AI şirketinin gerçekten endüstri devleriyle rekabet edebileceğini göstermektedir. Ancak uzmanlar, şirketin başarısının milyarlarca yatırım, teknik atılımlar ve güçlü bir ekip tarafından yönlendirildiğini, yapay zeka modeli geliştirme için "devrimci bir bütçe" iddialarının biraz abartılı olduğunu belirtiyor.
Bununla birlikte, Deepseek'in maliyetleri rakiplerinden daha düşüktür. Örneğin, Deepseek R1'e 5 milyon dolar harcadı, oysa ChatGpt4o'nun eğitilmesi 100 milyon dolara mal oldu.