Es ist jedoch immer noch billiger als seine Konkurrenten.
Der neue Chatbot von Deepseek stellte sich mir mit dieser ansprechenden Beschreibung vor:
Hallo, ich wurde erstellt, damit Sie alles fragen und eine Antwort erhalten können, die Sie sogar überraschen könnte.
Heute hat sich die künstliche Intelligenz von Deepseek als beeindruckende Konkurrentin auf dem Markt entwickelt, insbesondere zu einem der größten Aktienkurs von NVIDIA beizutragen.
Bild: Ensigame.com
Was dieses Modell unterscheidet, sind seine innovativen Architektur- und Trainingsmethoden. Es verwendet mehrere hochmoderne Technologien:
Multi-Token Prediction (MTP): Dieser Ansatz ermöglicht es dem Modell, mehrere Wörter gleichzeitig zu prognostizieren, indem verschiedene Teile eines Satzes analysiert werden, wodurch sowohl die Genauigkeit als auch die Effizienz verbessert wird.
Mischung von Experten (MOE): Das Deepseek -Modell verwendet eine Vielzahl von neuronalen Netzwerken, um Eingabedaten zu verarbeiten. Diese Architektur beschleunigt das KI -Training und erhöht die Leistung. In Deepseek V3 werden 256 neuronale Netze verwendet, wobei acht für jede Token -Verarbeitungsaufgabe aktiviert werden.
Multi-Head Latent Achtung (MLA): Dieser Mechanismus hilft der KI, sich auf die wichtigsten Teile eines Satzes zu konzentrieren. Durch wiederholtes Extrahieren von Schlüsseldetails aus Textfragmenten reduziert MLA das Risiko, wichtige Informationen zu fehlen, sodass die KI die entscheidenden Nuancen in den Eingabedaten besser erfassen kann.
Das führende chinesische Startup Deepseek hat es aus, dass sie ein hochwettbewerbsfähiges KI -Modell zu minimalen Kosten erstellt haben und behaupteten, nur 6 Millionen US -Dollar für die Schulung von Deepseek V3 mit nur 2048 Grafikprozessoren ausgegeben zu haben.
Bild: Ensigame.com
Analysten aus der semianalysis zeigten jedoch, dass Deepseek eine umfangreiche rechnerische Infrastruktur betreibt, die rund 50.000 Nvidia Hopper -GPUs umfasst. Dies umfasst 10.000 H800 -Einheiten, 10.000 fortgeschrittene H100 und zusätzliche H20 -GPUs. Diese Ressourcen werden über mehrere Rechenzentren verbreitet und für KI -Schulungen, Forschung und Finanzmodellierung verwendet.
Die Gesamtinvestition des Unternehmens in Server beträgt ungefähr 1,6 Milliarden US -Dollar, wobei die operativen Ausgaben auf 944 Mio. USD geschätzt werden.
Deepseek ist eine Tochtergesellschaft des chinesischen Hedgefonds-High-Flyer, das 2023 als separate KI-fokussierte Abteilung ausgab. Im Gegensatz zu den meisten Startups, die sich auf Cloud-Anbieter verlassen, besitzt Deepseek seine Rechenzentren und bietet eine vollständige Kontrolle über die AI-Modelloptimierung und die Vernichtung der schnellen Innovation. Das Unternehmen bleibt selbst finanziert und verbessert seine Flexibilität und Entscheidungsgeschwindigkeit.
Bild: Ensigame.com
Darüber hinaus verdienen einige Forscher von Deepseek jährlich über 1,3 Millionen US -Dollar und ziehen Top -Talente von führenden chinesischen Universitäten an (das Unternehmen stellt keine ausländischen Spezialisten ein).
Angesichts dieser Tatsachen erscheint Deepseeks Behauptung, sein jüngstes Modell für nur 6 Millionen US -Dollar auszubilden, unrealistisch. Diese Zahl deckt nur die Kosten für die GPU-Verwendung während der Vorinformation ab und umfasst keine Forschungskosten, die Verfeinerung der Modellverarbeitung, die Datenverarbeitung oder die Gesamtkosten der gesamten Infrastruktur.
Seit seiner Gründung hat Deepseek über 500 Millionen US -Dollar in die KI -Entwicklung investiert. Die magere Struktur ermöglicht es ihm jedoch, KI -Innovationen aktiver und effektiv umzusetzen als größere, bürokratischere Unternehmen.
Bild: Ensigame.com
Das Beispiel von Deepseek zeigt, dass ein gut finanziertes, unabhängiges KI-Unternehmen tatsächlich mit Branchenriesen konkurrieren kann. Experten stellen jedoch fest, dass der Erfolg des Unternehmens von Milliarden in Investitionen, technischen Durchbrüchen und einem starken Team zurückzuführen ist, während die Behauptungen über ein "revolutionäres Budget" für die Entwicklung von KI -Modell etwas übertrieben sind.
Trotzdem bleiben Deepseeks Kosten niedriger als die seiner Konkurrenten. Zum Beispiel gab Deepseek 5 Millionen US -Dollar für R1 aus, während Chatgpt4O 100 Millionen US -Dollar kostete, um zu trainieren.