Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.
Ang bagong chatbot mula sa Deepseek ay nagpakilala sa akin sa nakakaakit na paglalarawan:
Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.
Ngayon, ang artipisyal na katalinuhan ng Deepseek ay lumitaw bilang isang kakila -kilabot na katunggali sa merkado, lalo na na nag -aambag sa isa sa mga pinakamalaking pagbagsak ng presyo ng stock ng Nvidia.
Larawan: ensigame.com
Ang nakikilala sa modelong ito ay ang makabagong mga pamamaraan ng arkitektura at pagsasanay. Gumagamit ito ng maraming mga teknolohiyang paggupit:
Multi-Token Prediction (MTP): Pinapayagan ng pamamaraang ito ang modelo na matantya ang maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang bahagi ng isang pangungusap, pagpapahusay ng parehong kawastuhan at kahusayan.
Paghahalo ng mga eksperto (MOE): Ang modelo ng Deepseek ay gumagamit ng magkakaibang hanay ng mga neural network upang maproseso ang data ng pag -input. Ang arkitektura na ito ay nagpapabilis sa pagsasanay sa AI at pinalalaki ang pagganap. Sa Deepseek V3, 256 Neural Networks ang ginagamit, na may walong isinaaktibo para sa bawat gawain sa pagproseso ng token.
Multi-head latent pansin (MLA): Ang mekanismong ito ay tumutulong sa AI na nakatuon sa pinakamahalagang bahagi ng isang pangungusap. Sa pamamagitan ng paulit -ulit na pagkuha ng mga pangunahing detalye mula sa mga fragment ng teksto, binabawasan ng MLA ang panganib ng nawawalang mahalagang impormasyon, na nagpapagana sa AI upang mas mahusay na makuha ang mga mahahalagang nuances sa data ng pag -input.
Ipinagmamalaki ng nangungunang pagsisimula ng China na Deepseek na nilikha nila ang isang lubos na mapagkumpitensyang modelo ng AI sa isang minimal na gastos, na sinasabing gumugol lamang ng $ 6 milyon sa pagsasanay sa Deepseek V3 gamit lamang ang 2048 na mga processors ng graphics.
Larawan: ensigame.com
Gayunpaman, ang mga analyst mula sa semianalysis ay nagsiwalat na ang Deepseek ay nagpapatakbo ng isang malaking computational infrastructure, na binubuo ng halos 50,000 nvidia hopper GPU. Kasama dito ang 10,000 H800 unit, 10,000 advanced H100s, at karagdagang mga H20 GPU. Ang mga mapagkukunang ito ay kumakalat sa maraming mga sentro ng data at ginamit para sa pagsasanay, pananaliksik, at pagmomolde ng pananalapi.
Ang kabuuang pamumuhunan ng kumpanya sa mga server ay humigit -kumulang $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.
Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na nag-iwas sa pagsisimula bilang isang hiwalay na dibisyon na nakatuon sa AI noong 2023. Hindi tulad ng karamihan sa mga startup na umaasa sa mga nagbibigay ng ulap, ang Deepseek ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng buong kontrol sa pag-optimize ng modelo ng AI at pagpapagana ng mabilis na pagbabago. Ang kumpanya ay nananatiling pondo sa sarili, pagpapahusay ng kakayahang umangkop at bilis ng paggawa ng desisyon.
Larawan: ensigame.com
Bukod dito, ang ilang mga mananaliksik sa Deepseek ay kumita ng higit sa $ 1.3 milyon taun -taon, na umaakit sa nangungunang talento mula sa nangungunang unibersidad ng Tsino (ang kumpanya ay hindi umarkila ng mga dayuhang espesyalista).
Dahil sa mga katotohanang ito, ang pag -angkin ng Deepseek ng pagsasanay sa pinakabagong modelo nito para sa $ 6 milyon lamang ay lilitaw na hindi makatotohanang. Sinasaklaw lamang ng figure na ito ang gastos ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, o pangkalahatang mga gastos sa imprastraktura.
Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Gayunpaman, ang istraktura ng sandalan nito ay nagbibigay -daan upang maipatupad ang mga makabagong AI na mas aktibo at epektibo kaysa sa mas malaki, mas maraming mga kumpanya ng burukrasya.
Larawan: ensigame.com
Ang halimbawa ng Deepseek ay naglalarawan na ang isang mahusay na pinondohan, independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga higanteng industriya. Gayunpaman, tandaan ng mga eksperto na ang tagumpay ng kumpanya ay hinihimok ng bilyun -bilyong pamumuhunan, mga teknikal na tagumpay, at isang malakas na koponan, habang ang pag -angkin tungkol sa isang "rebolusyonaryong badyet" para sa pag -unlad ng modelo ng AI ay medyo pinalaki.
Gayunpaman, ang mga gastos sa Deepseek ay mananatiling mas mababa kaysa sa mga katunggali nito. Halimbawa, ang Deepseek ay gumugol ng $ 5 milyon sa R1, samantalang ang Chatgpt4o ay nagkakahalaga ng $ 100 milyon upang sanayin.