但是,它仍然比竞争对手便宜。
DeepSeek的新聊天机器人以这种引人入胜的描述向我介绍了自己:
嗨,我是被创建的,所以您可以问任何问题,并得到一个甚至可能让您感到惊讶的答案。
如今,DeepSeek的人工智能已成为市场上强大的竞争对手,尤其是NVIDIA最大的股票价格下跌之一。
图片:ensigame.com
该模型的区别是其创新的架构和培训方法。它利用了几种尖端技术:
多语预测(MTP):这种方法允许模型通过分析句子的不同部分立即预测多个单词,从而提高准确性和效率。
专家的混合物(MOE):DeepSeek的模型采用各种神经网络来处理输入数据。这种体系结构加快了AI训练并提高性能。在DeepSeek V3中,使用了256个神经网络,每个令牌处理任务都激活了八个神经网络。
多头潜在注意力(MLA):这种机制有助于AI专注于句子的最重要部分。通过反复从文本片段中提取关键细节,MLA降低了丢失重要信息的风险,从而使AI可以更好地捕获输入数据中的重要细微差别。
中国领先的初创公司DeepSeek夸口说,他们以最低的成本创建了一个高度竞争的AI模型,声称仅使用2048个图形处理器花费了600万美元在培训DeepSeek V3上。
图片:ensigame.com
但是,半分析的分析师表明,DeepSeek运营着大量的计算基础设施,其中约为50,000个NVIDIA HOPPER GPU。其中包括10,000个H800单元,10,000个高级H100和其他H20 GPU。这些资源分布在多个数据中心,并用于AI培训,研究和财务建模。
该公司对服务器的总投资约为16亿美元,运营费用估计为9.44亿美元。
DeepSeek是中国对冲基金高飞行员的子公司,该基金在2023年以独立的AI为重点的部门脱离了初创公司。与大多数依靠云提供商的初创公司不同,DeepSeek拥有其数据中心,为AI模型优化提供了完全控制,并提供了快速创新。该公司保持自筹资金,提高其灵活性和决策速度。
图片:ensigame.com
此外,DeepSeek的一些研究人员每年收入超过130万美元,吸引了中国领先的大学的顶尖人才(该公司不雇用外国专家)。
鉴于这些事实,DeepSeek对仅600万美元培训其最新模式的主张似乎是不现实的。该数字仅涵盖预培训期间的GPU使用成本,不包括研究费用,改进,数据处理或整体基础设施成本。
自成立以来,DeepSeek已在AI开发方面投资了超过5亿美元。但是,它的精益结构使其能够比更大,更官僚的公司更积极,有效地实施AI创新。
图片:ensigame.com
DeepSeek的例子说明,一家资金充足的独立AI公司确实可以与行业巨头竞争。但是,专家指出,该公司的成功是由数十亿美元的投资,技术突破和强大的团队驱动的,而对AI模型开发的“革命性预算”的主张被夸大了。
然而,DeepSeek的成本仍然低于其竞争对手的成本。例如,DeepSeek在R1上花费了500万美元,而Chatgpt4o的培训花费了1亿美元。