Het is echter nog steeds goedkoper dan zijn concurrenten.
De nieuwe chatbot van Deepseek stelde me aan met deze boeiende beschrijving:
Hallo, ik ben gemaakt, zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zou kunnen verrassen.
Tegenwoordig is de kunstmatige intelligentie van Deepseek naar voren gekomen als een formidabele concurrent in de markt, met name die bijdraagt aan een van de grootste aandelenkoersdaling van Nvidia.
Afbeelding: ensigame.com
Wat dit model onderscheidt, zijn de innovatieve architectuur- en trainingsmethoden. Het maakt gebruik van verschillende geavanceerde technologieën:
Multi-Token Prediction (MTP): deze benadering stelt het model in staat om meerdere woorden tegelijk te voorspellen door verschillende delen van een zin te analyseren, zowel nauwkeurigheid als efficiëntie te verbeteren.
Mengsel van experts (MOE): het model van DeepSeek maakt gebruik van een divers scala aan neurale netwerken om invoergegevens te verwerken. Deze architectuur versnelt AI -training en stimuleert de prestaties. In Deepseek V3 worden 256 neurale netwerken gebruikt, met acht geactiveerd voor elke tokenverwerkingstaak.
Multi-head latente aandacht (MLA): dit mechanisme helpt de AI te focussen op de belangrijkste delen van een zin. Door herhaaldelijk belangrijke details uit tekstfragmenten te extraheren, vermindert MLA het risico op het missen van belangrijke informatie, waardoor de AI beter cruciale nuances in de invoergegevens kan vastleggen.
De toonaangevende Chinese startup Deepseek beweert dat ze een zeer competitief AI -model tegen een minimale kosten hebben gecreëerd en beweerden slechts $ 6 miljoen te hebben uitgegeven aan Training Deepseek V3 met behulp van slechts 2048 grafische processors.
Afbeelding: ensigame.com
Uit analisten uit de semianalyse bleek echter dat Deepseek een substantiële computationele infrastructuur heeft, bestaande uit ongeveer 50.000 Nvidia Hopper GPU's. Dit omvat 10.000 H800 -eenheden, 10.000 geavanceerde H100's en extra H20 GPU's. Deze bronnen zijn verspreid over meerdere datacenters en worden gebruikt voor AI -training, onderzoek en financiële modellering.
De totale investering van het bedrijf in servers is ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen.
Deepseek is een dochteronderneming van het Chinese hedgefonds High-Flyer, dat de startup afspoont als een afzonderlijke AI-gerichte divisie in 2023. In tegenstelling tot de meeste startups die afhankelijk zijn van cloudproviders, bezit Deepseek zijn datacenters, en biedt volledige controle over AI-modeloptimalisatie en het mogelijk maken van snelle innovatie. Het bedrijf blijft zelf gefinancierd en verbetert zijn flexibiliteit en besluitvormingssnelheid.
Afbeelding: ensigame.com
Bovendien verdienen sommige onderzoekers van Deepseek per jaar meer dan $ 1,3 miljoen en trekken ze toptalent aan van toonaangevende Chinese universiteiten (het bedrijf huurt geen buitenlandse specialisten in).
Gezien deze feiten lijkt de claim van Deepseek om zijn nieuwste model te trainen voor slechts $ 6 miljoen onrealistisch. Dit cijfer dekt alleen de kosten van GPU-gebruik tijdens pre-training en omvat geen onderzoekskosten, modelverfijning, gegevensverwerking of algemene infrastructuurkosten.
Sinds de oprichting heeft Deepseek meer dan $ 500 miljoen geïnvesteerd in AI -ontwikkeling. De mager structuur maakt het echter in staat om AI -innovaties actiever en effectiever te implementeren dan grotere, meer bureaucratische bedrijven.
Afbeelding: ensigame.com
Het voorbeeld van Deepseek illustreert dat een goed gefinancierd, onafhankelijk AI-bedrijf inderdaad kan concurreren met industriële reuzen. Toch merken experts op dat het succes van het bedrijf wordt gedreven door miljarden in investeringen, technische doorbraken en een sterk team, terwijl claims over een "revolutionair budget" voor AI -modelontwikkeling enigszins overdreven zijn.
Desalniettemin blijven de kosten van Deepseek lager dan die van zijn concurrenten. Deepseek besteedde bijvoorbeeld $ 5 miljoen aan R1, terwijl Chatgpt4o $ 100 miljoen kostte om te trainen.