Huawei und DeepSeek: KI-Training auf Ascend 910C

Die Meldung ist knapp, technisch aber nicht klein: Ein von Huawei geführtes Team will das Post-Training eines DeepSeek-Modells mit 1,6 Billionen Parametern abgeschlossen haben. Genannt wird DeepSeek V4-Pro. Die Rechenbasis soll aus mindestens 1.000 Huawei Ascend 910C bestanden haben.

Das ist keine einfache Produktmeldung. Es ist auch kein Beweis dafür, dass Chinas KI-Hardware bereits in jeder Disziplin mit den etablierten Beschleuniger-Clustern mithält. Aber die Behauptung markiert einen Punkt, an dem man genauer hinsehen muss: nicht auf die Parameterzahl allein, sondern auf den gesamten Ablauf zwischen Modell, Chip, Speicher, Netzwerk und Trainingssoftware.

Post-Training ist nicht Vortraining

Der wichtigste technische Unterschied steckt im Begriff. Post-Training ist nicht das vollständige Vortraining eines großen Sprachmodells von null an. Beim Vortraining wird ein Modell über riesige Datenmengen auf Grundfähigkeiten getrimmt: Sprache, Muster, Code, Schlussfolgern, statistische Zusammenhänge. Das ist der teuerste Teil.

Post-Training setzt später an. Es umfasst Verfahren, mit denen ein vorhandenes Modell angepasst, stabilisiert und auf gewünschtes Verhalten ausgerichtet wird. Dazu können überwachte Feinabstimmung, Präferenzoptimierung, Evaluationsschleifen und weitere Trainingsläufe gehören. Der Rechenbedarf ist niedriger als beim vollen Vortraining, aber bei einem Modell mit 1,6 Billionen Parametern bleibt er erheblich. Vor allem dann, wenn das Training über viele Beschleuniger verteilt werden muss.

Deshalb ist die Zahl von 1.000 Ascend-910C-Chips nicht nur eine Mengenangabe. Sie verweist auf die Frage, ob ein Cluster dieser Größe mit einem großen Modell über längere Läufe hinweg stabil umgehen kann. Bei KI-Training scheitert Skalierung selten an einem einzelnen Chip. Sie scheitert an Datenbewegung, Synchronisation, Speichergrenzen, Fehlertoleranz und Softwarepfaden, die unter Last anders aussehen als in einer Präsentation.

Der Chip ist nur ein Teil der Maschine

Die Ascend-910C-Beschleuniger sind Huaweis zentrale Antwort auf die Abhängigkeit von ausländischer KI-Hardware. Doch ein einzelner Beschleuniger sagt wenig über die Leistungsfähigkeit eines Trainingssystems aus. Entscheidend ist, wie viele Operationen tatsächlich auf dem Modell landen und wie viel Zeit mit Warten, Kopieren, Synchronisieren oder Neustarten verloren geht.

In den Berichten zur aktuellen Meldung wird eine Verbesserung der Rechenauslastung um mehr als 30 Prozent genannt. Diese Zahl ist interessant, aber sie ist ohne Ausgangswert nicht vollständig zu bewerten. Eine relative Verbesserung kann bedeuten, dass ein vorher schwacher Trainingslauf weniger schwach wurde. Sie kann aber auch auf ernsthafte Optimierungen bei Parallelisierung, Kommunikation oder Scheduling hindeuten. Genau diese Details fehlen bislang.

Bei einem Modell dieser Größe muss der Trainingslauf aufgeteilt werden. Parameter, Aktivierungen, Gradienten und Optimiererzustände passen nicht einfach auf einen Chip. Das System muss entscheiden, welche Teile des Modells wo liegen, welche Daten wann bewegt werden und wie die Chips nach jedem Schritt konsistent bleiben. Je größer der Cluster, desto stärker schlagen kleine Ineffizienzen durch. Ein Prozent Verlust auf einem einzelnen Gerät ist unspektakulär. Auf 1.000 Geräten wird daraus ein strukturelles Problem.

Warum die DeepSeek-Verbindung zählt

DeepSeek ist in der KI-Debatte bereits deshalb ein besonderer Name, weil das Unternehmen als chinesischer Anbieter Modelle veröffentlicht hat, die international verglichen wurden und die Kostenfrage im KI-Training neu auf die Tagesordnung gesetzt haben. Die aktuelle Meldung verknüpft diesen Namen nun mit Huawei-Hardware. Das ist politisch und industriell relevanter als eine isolierte Laborleistung.

Denn die zentrale Frage für Chinas KI-Sektor lautet nicht nur, ob einzelne Modelle gebaut werden können. Sie lautet, ob ein eigener Hardware- und Softwarepfad tragfähig ist. Exportbeschränkungen haben den Zugang zu bestimmten westlichen KI-Beschleunigern erschwert. Daraus entsteht Druck, nicht nur Chips zu fertigen, sondern komplette Trainingsumgebungen zu beherrschen: Compiler, Laufzeitumgebung, Netzwerk, Bibliotheken, Fehleranalyse, Modellpartitionierung.

Wenn ein Huawei-geführtes Team tatsächlich ein 1,6-Billionen-Parameter-Modell auf einem Ascend-910C-Cluster post-trainiert hat, ist das vor allem ein Hinweis auf operative Reife. Nicht im Sinne eines endgültigen Vergleichs mit Nvidia-Clustern, sondern als Nachweis, dass ein großer Trainingsjob über die eigene Infrastruktur zumindest ausführbar gemacht wurde.

Was die Meldung nicht beweist

Die Einschränkungen sind wichtig. Die Parameterzahl allein erlaubt keine Aussage über Modellqualität. Sie sagt nichts über Trainingsdaten, aktive Parameter, Laufzeit, Kosten, Energieverbrauch, Ausfallraten oder die Qualität der Endergebnisse. Auch Benchmarks sind aus der knappen Meldung nicht belastbar ableitbar. Ein großes Modell kann ineffizient sein. Ein kleineres Modell kann besser dienen. Ein erfolgreich abgeschlossener Post-Training-Lauf ist kein automatischer Beleg für breite Produktionsreife.

Auch der Begriff Training muss sauber gelesen werden. Viele Schlagzeilen werfen Vortraining, Fine-Tuning und Post-Training zusammen. Technisch sind das unterschiedliche Lastprofile. Wer ein vorhandenes Modell nachtrainiert, muss immer noch hohe Speicher- und Kommunikationsprobleme lösen. Aber der Aufwand ist nicht identisch mit einem vollständigen Training von Grund auf.

Deshalb wäre die entscheidende technische Information nicht die bloße Zahl der Chips, sondern die Architektur des Laufs: Welche Parallelisierungsstrategie wurde genutzt? Wie stabil war der Cluster? Wie hoch war die absolute Auslastung? Wie wurden Ausfälle behandelt? Welche Teile des Modells lagen auf welchem Speicher? Wie viel Zeit entfiel auf Kommunikation? Ohne diese Angaben bleibt die Meldung ein Signal, kein vollständiger technischer Befund.

Der Testfall liegt im Betrieb

Für Huawei ist die Meldung dennoch wertvoll. Sie verschiebt die Diskussion weg von einzelnen Chipdaten hin zur Systemfrage. Ein KI-Beschleuniger wird im Markt nicht daran gemessen, ob er auf dem Papier Rechenleistung liefert, sondern ob Entwickler große Modelle wiederholbar, bezahlbar und planbar darauf betreiben können. Das ist ein anderes Niveau von Komplexität.

Der Unterschied zeigt sich im Alltag: Training bricht ab, wenn Netzwerkpfade instabil sind. Jobs verlieren Effizienz, wenn Speicherbewegungen schlecht geplant werden. Modelle lassen sich nur schwer portieren, wenn Softwarewerkzeuge unreif sind. Ein Cluster mit 1.000 Chips ist keine Ansammlung von Bauteilen, sondern ein eng gekoppeltes Produktionssystem. Jede Schwäche wird verstärkt.

Genau deshalb ist der angebliche DeepSeek-Lauf auf Ascend 910C bemerkenswert, aber nicht abschließend. Er zeigt, worauf die nächste Phase hinausläuft: weniger auf spektakuläre Modellnamen, mehr auf robuste Infrastruktur. Wer KI-Modelle in dieser Größenordnung trainieren oder nachtrainieren will, braucht keine isolierten Rekorde. Er braucht eine Maschine, die unter Last nicht auseinanderfällt.

Huawei, DeepSeek und die Frage nach dem eigenen KI-Stack

Post-Training ist nicht Vortraining

Der Chip ist nur ein Teil der Maschine

Warum die DeepSeek-Verbindung zählt

Was die Meldung nicht beweist

Der Testfall liegt im Betrieb

Weitere Artikel in „Tech"

Nvidia bindet den KI-Speicher an die eigene Roadmap

Heliumkrise: Der Rohstoff, der die Chipmacht bremst

Apple bremst Vision: Der leise Eingriff von John Ternus