Jest jednak nadal tańszy niż jego konkurenci.
Nowy chatbot z Deepseek przedstawił mi ten angażujący opis:
Cześć, zostałem stworzony, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć.
Dzisiaj sztuczna inteligencja Deepseek stała się potężnym konkurentem na rynku, w szczególności przyczyniając się do jednego z największych spadków cen akcji w NVIDIA.
Zdjęcie: engame.com
Tym, co wyróżnia ten model, to jego innowacyjna architektura i metody szkolenia. Wykorzystuje kilka najnowocześniejszych technologii:
Prognozowanie wielu tokenów (MTP): To podejście pozwala modelowi prognozować wiele słów jednocześnie poprzez analizę różnych części zdania, zwiększając zarówno dokładność, jak i wydajność.
Mieszanka ekspertów (MOE): Model Deepseek wykorzystuje różnorodną gamę sieci neuronowych do przetwarzania danych wejściowych. Ta architektura przyspiesza szkolenie AI i zwiększa wydajność. W Deepseek V3 stosuje się 256 sieci neuronowych, z ośmioma aktywowanymi dla każdego zadania przetwarzania tokenu.
Utrzymująca uwaga wielowłócona (MLA): Ten mechanizm pomaga AI skupić się na najważniejszych częściach zdania. Wielokrotnie wyodrębniając kluczowe szczegóły z fragmentów tekstu, MLA zmniejsza ryzyko braku ważnych informacji, umożliwiając AI lepsze przechwytywanie kluczowych niuansów w danych wejściowych.
Wiodący chiński startup Deepseek szczyci się tym, że stworzyli wysoce konkurencyjny model AI przy minimalnych kosztach, twierdząc, że wydali tylko 6 milionów dolarów na szkolenie Deepseek V3 przy użyciu zaledwie 2048 procesorów graficznych.
Zdjęcie: engame.com
Jednak analitycy z semianalizy ujawnili, że Deepseek prowadzi znaczną infrastrukturę obliczeniową, obejmującą około 50 000 GPU Nvidia Hopper. Obejmuje to 10 000 jednostek H800, 10 000 zaawansowanych H100 i dodatkowe GPU H20. Zasoby te są rozpowszechniane na wiele centrów danych i wykorzystywane do szkolenia AI, badań i modelowania finansowego.
Całkowita inwestycja Spółki w serwerach wynosi około 1,6 mld USD, a wydatki operacyjne szacowane są na 944 mln USD.
Deepseek jest spółką zależną chińskiego funduszu hedgingowego High-Flyer, która odrzuciła start-upa jako oddzielny dział skupiony na sztucznej inteligencji w 2023 r. W przeciwieństwie do większości startupów, które opierają się na dostawcach chmur, DeepSeek jest właścicielem centrów danych, zapewniając pełną kontrolę nad optymalizacją modelu AI i umożliwiając szybkie innowacje. Firma pozostaje finansowana, zwiększając swoją elastyczność i szybkość podejmowania decyzji.
Zdjęcie: engame.com
Ponadto niektórzy badacze Deepseek zarabiają ponad 1,3 miliona dolarów rocznie, przyciągając najlepsze talenty wiodących chińskich uniwersytetów (firma nie zatrudniał zagranicznych specjalistów).
Biorąc pod uwagę te fakty, roszczenie Deepseek o szkolenie najnowszego modelu za jedyne 6 milionów dolarów wydaje się nierealne. Liczba ta obejmuje jedynie koszt wykorzystania GPU podczas wstępnego treningu i nie obejmuje wydatków badawczych, udoskonalania modelu, przetwarzania danych ani ogólnych kosztów infrastruktury.
Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jednak jego szczupła struktura pozwala mu wdrażać innowacje AI bardziej aktywnie i skutecznie niż większe, bardziej biurokratyczne firmy.
Zdjęcie: engame.com
Przykład Deepseek ilustruje, że dobrze finansowana, niezależna firma AI może rzeczywiście konkurować z gigantami branżowymi. Jednak eksperci zauważają, że sukces firmy wynika z miliardów inwestycji, przełomów technicznych i silnego zespołu, podczas gdy twierdzenia o „budżecie rewolucyjnym” dla opracowywania modelu AI są nieco przesadzone.
Niemniej jednak koszty Deepseek pozostają niższe niż koszty jego konkurentów. Na przykład Deepseek wydał 5 milionów dolarów na R1, podczas gdy szkolak Chatgpt4O kosztował 100 milionów dolarów.