但是,它仍然比競爭對手便宜。
DeepSeek的新聊天機器人以這種引人入勝的描述向我介紹了自己:
嗨,我是被創建的,所以您可以問任何問題,並得到一個甚至可能讓您感到驚訝的答案。
如今,DeepSeek的人工智能已成為市場上強大的競爭對手,尤其是NVIDIA最大的股票價格下跌之一。
圖片:ensigame.com
該模型的區別是其創新的架構和培訓方法。它利用了幾種尖端技術:
多語預測(MTP):這種方法允許模型通過分析句子的不同部分立即預測多個單詞,從而提高準確性和效率。
專家的混合物(MOE):DeepSeek的模型採用各種神經網絡來處理輸入數據。這種體系結構加快了AI訓練並提高性能。在DeepSeek V3中,使用了256個神經網絡,每個令牌處理任務都激活了八個神經網絡。
多頭潛在註意力(MLA):這種機制有助於AI專注於句子的最重要部分。通過反復從文本片段中提取關鍵細節,MLA降低了丟失重要信息的風險,從而使AI可以更好地捕獲輸入數據中的重要細微差別。
中國領先的初創公司DeepSeek誇口說,他們以最低的成本創建了一個高度競爭的AI模型,聲稱僅使用2048個圖形處理器花費了600萬美元在培訓DeepSeek V3上。
圖片:ensigame.com
但是,半分析的分析師表明,DeepSeek運營著大量的計算基礎設施,其中約為50,000個NVIDIA HOPPER GPU。其中包括10,000個H800單元,10,000個高級H100和其他H20 GPU。這些資源分佈在多個數據中心,並用於AI培訓,研究和財務建模。
該公司對服務器的總投資約為16億美元,運營費用估計為9.44億美元。
DeepSeek是中國對沖基金高飛行員的子公司,該基金在2023年以獨立的AI為重點的部門脫離了初創公司。與大多數依靠雲提供商的初創公司不同,DeepSeek擁有其數據中心,為AI模型優化提供了完全控制,並提供了快速創新。該公司保持自籌資金,提高其靈活性和決策速度。
圖片:ensigame.com
此外,DeepSeek的一些研究人員每年收入超過130萬美元,吸引了中國領先的大學的頂尖人才(該公司不僱用外國專家)。
鑑於這些事實,DeepSeek對僅600萬美元培訓其最新模式的主張似乎是不現實的。該數字僅涵蓋預培訓期間的GPU使用成本,不包括研究費用,改進,數據處理或整體基礎設施成本。
自成立以來,DeepSeek已在AI開發方面投資了超過5億美元。但是,它的精益結構使其能夠比更大,更官僚的公司更積極,有效地實施AI創新。
圖片:ensigame.com
DeepSeek的例子說明,一家資金充足的獨立AI公司確實可以與行業巨頭競爭。但是,專家指出,該公司的成功是由數十億美元的投資,技術突破和強大的團隊驅動的,而對AI模型開發的“革命性預算”的主張被誇大了。
然而,DeepSeek的成本仍然低於其競爭對手的成本。例如,DeepSeek在R1上花費了500萬美元,而Chatgpt4o的培訓花費了1億美元。