Für Pinterest ist KI keine Laborfrage. Die Plattform verarbeitet visuelle Signale in einer Größenordnung, bei der jede zusätzliche Modellabfrage sofort zur Kostenposition wird. Rund 620 Millionen monatlich aktive Nutzer bedeuten: Was in einem Prototypen vertretbar wirkt, kann im Produktbetrieb schnell unbrauchbar teuer werden. Genau an diesem Punkt setzt der Eingriff an, über den Pinterest-CTO Matt Madrigal gesprochen hat.
Das Unternehmen hat bei seinem auf Qwen3-VL aufbauenden System nicht nur feinjustiert, sondern einen zentralen Teil des Modells ersetzt. Die ursprüngliche Vision-Schicht wurde entfernt und durch proprietäre multimodale Embeddings ersetzt. Laut Madrigal sank der Aufwand dadurch um 90 Prozent, während die Genauigkeit um 30 Prozent stieg. Die Zahlen sind bemerkenswert, aber interessanter ist die technische Logik dahinter. Pinterest behandelt ein großes multimodales Modell nicht als fertiges Produkt, sondern als austauschbaren Baustein innerhalb einer eigenen Infrastruktur.
Skalierung als Kostenproblem
Bei visueller Suche, Empfehlungen und Shopping-Funktionen reicht es nicht, ein Modell mit hoher Qualität zu haben. Es muss in einer Umgebung funktionieren, in der sehr viele Bilder, Metadaten und Nutzersignale zusammengeführt werden. Wenn für jede Bildempfehlung ein Frontier-Modell zur Laufzeit aufgerufen wird, entsteht nicht nur Rechenlast. Es entstehen Latenz, operative Komplexität und eine Kostenstruktur, die schwer kontrollierbar ist.
Madrigal formuliert das Problem aus der Perspektive eines Betreibers: Wenn eine Funktion für Nutzer kritisch ist, Engagement erzeugt und auf mehr als 600 Millionen monatlich aktive Nutzer skaliert werden muss, wird Pinterest sie entweder selbst bauen oder Open-Source-Modelle sehr weitgehend anpassen. Das ist keine Grundsatzrede gegen große Modelle. Es ist eine nüchterne Feststellung über Produktionssysteme.
Die meisten Diskussionen über KI-Modelle konzentrieren sich auf Modellgröße, Benchmarks oder allgemeine Fähigkeiten. In Plattformen wie Pinterest zählen andere Fragen stärker: Welche Teile der Berechnung lassen sich vorab erledigen? Welche Signale gehören in eine eigene Repräsentation? Wo entsteht Inference-Latenz? Und welcher Modellteil liefert tatsächlich den Mehrwert, der den laufenden Aufwand rechtfertigt?
Der Eingriff in Qwen3-VL
Pinterest nutzte Qwen3-VL als Grundlage für Navigator 1, einen konversationellen Shopping-Assistenten. Das Modell wurde nach Angaben des Unternehmens deutlich angepasst. Der entscheidende Schritt bestand darin, den Vision Encoder des Modells herauszunehmen und durch eigene Embeddings zu ersetzen. Diese Embeddings bilden Bilder, Pins und Metadaten so ab, dass sie besser zur Pinterest-Datenbasis passen.
Der Begriff Embedding klingt abstrakt, beschreibt aber einen praktischen Vorgang: Inhalte werden in eine maschinenlesbare Repräsentation übersetzt, die Ähnlichkeiten, Kontexte und Beziehungen zwischen Objekten erfassbar macht. Für Pinterest sind das nicht nur Pixelinformationen. Relevant sind auch Informationen darüber, wie Nutzer mit Pins umgehen, welche Bilder in welchen Kontexten gespeichert werden und welche Metadaten mit visuellen Objekten verbunden sind.
Der Vorteil eigener Embeddings liegt darin, dass Pinterest einen Teil der Arbeit offline erledigen kann. Bilder und zugehörige Daten müssen nicht jedes Mal zur Laufzeit neu durch den Vision-Teil eines großen Modells geschickt werden. Stattdessen können Repräsentationen vorab berechnet und regelmäßig mit neuen Informationen neu trainiert werden. Für ein Empfehlungssystem ist das zentral. Es verschiebt Rechenaufwand aus der teuren, zeitkritischen Inference in besser planbare Vorverarbeitung.
Warum die Vision-Schicht teuer wird
Ohne diese vorberechneten Embeddings müssten Entwickler jedes zurückgegebene Bild zur Laufzeit einzeln kodieren lassen. Madrigal spricht davon, dass die Latenz aus Inference-Sicht dann um den Faktor 20 schlechter wäre. Das ist nicht nur ein technischer Messwert. In einem Produkt, das Empfehlungen, visuelle Suche und Shopping-Dialoge miteinander verbindet, wirkt sich Latenz direkt auf die Nutzbarkeit aus.
Bei multimodalen Modellen ist der Vision-Teil häufig einer der rechenintensiven Abschnitte. Das Modell muss Bildinformationen erfassen, sie in einen internen Raum übersetzen und anschließend mit Sprache, Kontext und Anfrageabsicht verbinden. Für allgemeine Systeme ist das sinnvoll. Für eine Plattform mit einer eigenen, sehr spezifischen Bild- und Metadatenbasis kann es aber ineffizient sein, jedes Bild immer wieder auf dieselbe Weise durch einen generischen Encoder zu schicken.
Pinterest ersetzt diese generische Verarbeitung durch eine auf die eigene Plattform zugeschnittene Repräsentation. Das erklärt, warum Kosten sinken und Genauigkeit steigen können. Das Modell bekommt nicht weniger Kontext, sondern passenderen Kontext. Es arbeitet mit Signalen, die im offenen Basismodell nicht enthalten sind: pinbezogene Metadaten, visuelle Beziehungen innerhalb der Plattform und wahrscheinlich auch Strukturinformationen, die aus langjähriger Nutzung visueller Entdeckung stammen. Entscheidend ist: Nur die im Unternehmen vorhandenen Daten machen diesen Ansatz möglich.
Open Source als industrieller Rohbau
Pinterest arbeitet nach eigenen Angaben schon länger mit offenen Modellen für visuelle Suche und Entdeckung. Genannt werden frühere Arbeiten mit Googles BERT und OpenAIs CLIP. Auf Basis von CLIP wurde ein eigenes Pin CLIP feinjustiert, ergänzt um proprietäre visuelle Embeddings und Bildmetadaten. Qwen3-VL steht damit nicht isoliert, sondern in einer Entwicklungslinie: Offene Modelle dienen als Ausgangspunkt, die produktrelevante Differenz entsteht im eigenen Datensatz und in der eigenen Systemarchitektur.
Madrigal betont besonders offene Apache-Lizenzen, weil sie tiefere Eingriffe in Modellgewichte und Architektur erlauben. Für große Plattformen ist das ein ökonomischer Punkt. Wer ein Modell nur über eine externe Schnittstelle nutzt, zahlt pro Nutzung und bleibt bei Struktur und Optimierung abhängig. Wer offene Gewichte in die eigene Infrastruktur integriert, kann Teile entfernen, ersetzen, vorrechnen und neu trainieren. Das ist aufwendig, aber bei hoher Nutzung oft der einzige Weg zu tragbaren Stückkosten.
Die Aussage des Pinterest-CTO ist dabei eindeutig: Wenn die Datenqualität hoch und spezifisch genug ist, kann sie Modellgröße übertreffen oder zumindest kompensieren. Das widerspricht nicht der Bedeutung großer Modelle. Es relativiert aber die Annahme, dass größere Modelle im Betrieb automatisch die bessere Wahl sind. In vertikalen Anwendungsfeldern mit einzigartigen Datenbeständen kann ein angepasstes offenes Modell wirtschaftlicher und genauer sein als ein allgemeines System, das bei jeder Anfrage voll aktiviert werden muss.
Was der Fall zeigt
Der Umbau bei Pinterest ist vor allem ein Beispiel dafür, wie sich KI-Produktion von KI-Demonstration unterscheidet. Im Produktbetrieb zählt nicht nur, ob ein Modell eine Aufgabe lösen kann. Entscheidend ist, ob es sie mit ausreichender Qualität, niedriger Latenz und kontrollierbaren Kosten millionenfach lösen kann. Das verschiebt den Fokus weg vom Modellnamen und hin zu Datenpipelines, Embeddings, Caching, Vorberechnung und Inference-Architektur.
Für andere Unternehmen ist der Fall nicht eins zu eins übertragbar. Pinterest verfügt über eine große visuelle Datenbasis, gewachsene Metadatenstrukturen und den technischen Apparat, um offene Modelle tief zu verändern. Genau das ist die Voraussetzung. Wer diese Daten nicht hat, kann die Vision-Schicht eines Frontier-Modells nicht einfach entfernen und denselben Effekt erwarten.
Trotzdem ist die Richtung klar: Je teurer multimodale KI im Alltag wird, desto stärker werden Betreiber versuchen, generische Modellkomponenten durch eigene Repräsentationen zu ersetzen. Nicht aus Prinzip, sondern aus Kostenrechnung. Pinterest zeigt hier keinen Trick, sondern eine industrielle Anpassung: Das Basismodell liefert die Grundlage, die Plattformdaten liefern den Hebel.