อย่างไรก็ตามมันยังคงถูกกว่าคู่แข่ง
Chatbot ใหม่จาก Deepseek แนะนำตัวเองให้ฉันด้วยคำอธิบายที่น่าสนใจนี้:
สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ
วันนี้ปัญญาประดิษฐ์ของ Deepseek ได้กลายเป็นคู่แข่งที่น่าเกรงขามในตลาดโดยเฉพาะอย่างยิ่งมีส่วนทำให้ราคาหุ้นที่ใหญ่ที่สุดของ Nvidia ลดลง
รูปภาพ: Ensigame.com
สิ่งที่แตกต่างโมเดลนี้คือสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรม มันใช้เทคโนโลยีที่ทันสมัยหลายอย่าง:
Multi-Token Prediction (MTP): วิธีการนี้ช่วยให้แบบจำลองสามารถคาดการณ์ได้หลายคำในครั้งเดียวโดยการวิเคราะห์ส่วนต่าง ๆ ของประโยคเพิ่มความแม่นยำและประสิทธิภาพ
ส่วนผสมของผู้เชี่ยวชาญ (MOE): โมเดลของ Deepseek ใช้เครือข่ายประสาทที่หลากหลายเพื่อประมวลผลข้อมูลอินพุต สถาปัตยกรรมนี้เพิ่มความเร็วในการฝึกอบรม AI และเพิ่มประสิทธิภาพ ใน Deepseek V3 มีการใช้เครือข่ายประสาท 256 เครือข่ายโดยมีการเปิดใช้งานแปดรายการสำหรับงานการประมวลผลโทเค็นแต่ละครั้ง
ความสนใจแฝงหลายหัว (MLA): กลไกนี้ช่วยให้ AI มุ่งเน้นไปที่ส่วนที่สำคัญที่สุดของประโยค ด้วยการแยกรายละเอียดที่สำคัญซ้ำ ๆ จากชิ้นส่วนข้อความ MLA จะลดความเสี่ยงของข้อมูลที่สำคัญที่ขาดหายไปทำให้ AI สามารถจับภาพความแตกต่างที่สำคัญได้ดีขึ้นในข้อมูลอินพุต
การเริ่มต้นของจีนชั้นนำ Deepseek ภูมิใจนำเสนอว่าพวกเขาสร้างโมเดล AI ที่มีการแข่งขันสูงในราคาที่น้อยที่สุดโดยอ้างว่าใช้จ่ายเพียง $ 6 ล้านในการฝึกอบรม Deepseek V3 โดยใช้โปรเซสเซอร์กราฟิกเพียง 2048
รูปภาพ: Ensigame.com
อย่างไรก็ตามนักวิเคราะห์จาก Semianalysis เปิดเผยว่า Deepseek ดำเนินการโครงสร้างพื้นฐานการคำนวณที่สำคัญซึ่งประกอบด้วย GPU Nvidia Hopper ประมาณ 50,000 Nvidia ซึ่งรวมถึง 10,000 H800 หน่วย, 10,000 H100s ขั้นสูงและ H20 GPU เพิ่มเติม ทรัพยากรเหล่านี้กระจายไปทั่วศูนย์ข้อมูลหลายแห่งและใช้สำหรับการฝึกอบรม AI การวิจัยและการสร้างแบบจำลองทางการเงิน
การลงทุนทั้งหมดของ บริษัท ในเซิร์ฟเวอร์อยู่ที่ประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานประมาณ 944 ล้านดอลลาร์
Deepseek เป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนซึ่งหมุนตัวออกจากการเริ่มต้นเป็นแผนก AI ที่เน้นการแยกต่างหากในปี 2566 ซึ่งแตกต่างจากผู้เริ่มต้นส่วนใหญ่ที่พึ่งพาผู้ให้บริการคลาวด์ Deepseek เป็นเจ้าของศูนย์ข้อมูล บริษัท ยังคงได้รับเงินสนับสนุนตนเองเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ
รูปภาพ: Ensigame.com
นอกจากนี้นักวิจัยบางคนที่ Deepseek ได้รับมากกว่า $ 1.3 ล้านต่อปีดึงดูดความสามารถระดับสูงจากมหาวิทยาลัยจีนชั้นนำ (บริษัท ไม่ได้จ้างผู้เชี่ยวชาญต่างประเทศ)
จากข้อเท็จจริงเหล่านี้การเรียกร้องของ Deepseek ในการฝึกอบรมรูปแบบล่าสุดในราคาเพียง $ 6 ล้านนั้นไม่สมจริง ตัวเลขนี้ครอบคลุมค่าใช้จ่ายของการใช้ GPU ในระหว่างการฝึกอบรมก่อนและไม่รวมค่าใช้จ่ายในการวิจัยการปรับแต่งแบบจำลองการประมวลผลข้อมูลหรือต้นทุนโครงสร้างพื้นฐานโดยรวม
นับตั้งแต่ก่อตั้งขึ้น Deepseek ได้ลงทุนกว่า 500 ล้านดอลลาร์ในการพัฒนา AI อย่างไรก็ตามโครงสร้างแบบลีนช่วยให้สามารถใช้นวัตกรรม AI ได้อย่างแข็งขันและมีประสิทธิภาพมากกว่า บริษัท ที่มีระบบราชการที่ใหญ่กว่า
รูปภาพ: Ensigame.com
ตัวอย่างของ Deepseek แสดงให้เห็นว่า บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีสามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรมได้ แต่ผู้เชี่ยวชาญทราบว่าความสำเร็จของ บริษัท นั้นได้รับแรงผลักดันจากการลงทุนหลายพันล้านครั้งการพัฒนาทางเทคนิคและทีมที่แข็งแกร่งในขณะที่อ้างว่า "งบประมาณปฏิวัติ" สำหรับการพัฒนาโมเดล AI ค่อนข้างเกินความจริง
อย่างไรก็ตามค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าของคู่แข่ง ตัวอย่างเช่น Deepseek ใช้จ่าย $ 5 ล้านใน R1 ในขณะที่ CHATGPT4O มีค่าใช้จ่าย $ 100 ล้านในการฝึกอบรม