Wenn Sie die lokale KI-Szene verfolgt haben, kennen Sie wahrscheinlich Qwopus – das Open-Source-Modell, das versuchte, das Reasoning von Claude Opus 4.6 in Alibabas Qwen zu destillieren, damit Sie etwas Ähnliches wie Opus kostenlos auf Ihrer eigenen Hardware ausführen können. Es funktionierte überraschend gut. Der offensichtliche Haken: Qwen ist ein chinesisches Modell, und nicht jeder fühlt sich damit wohl.
Jackrong, der gleiche pseudonyme Entwickler hinter diesem Projekt, hat das Feedback gehört. Seine Antwort ist Gemopus – eine neue Familie von Claude Opus-Stil-Feinabstimmungen, die vollständig auf Googles Open-Source Gemma 4 aufbauen. Rein amerikanische DNA, gleiche Idee: Reasoning auf Spitzenniveau, lokal auf Hardware ausgeführt, die Sie bereits besitzen.
Die Familie gibt es in zwei Varianten. Gemopus-4-26B-A4B ist die schwerere Option – ein Mixture of Experts-Modell, das insgesamt 26 Milliarden Parameter hat, aber während der Inferenz nur etwa 4 Milliarden aktiviert, was bedeutet, dass es auf eingeschränkter Hardware weit über seinem Gewicht schlägt.
Parameter bestimmen die Fähigkeit einer KI zu lernen, zu denken und Informationen zu speichern. Mit insgesamt 26 Milliarden Parametern verfügt das Modell über eine enorme Wissensbreite. Aber indem es nur die 4 Milliarden Parameter „aufweckt", die für Ihre spezifische Eingabe relevant sind, liefert es die qualitativ hochwertigen Ergebnisse einer massiven KI und bleibt gleichzeitig leicht genug, um reibungslos auf alltäglicher Hardware zu laufen.
Das andere ist Gemopus-4-E4B, ein Edge-Modell mit 4 Milliarden Parametern, das so konzipiert ist, dass es bequem auf einem modernen iPhone oder einem dünnen und leichten MacBook läuft – keine GPU erforderlich.
Die Wahl des Basismodells ist hier wichtig. Googles Gemma 4, veröffentlicht am 02.04., basiert direkt auf der gleichen Forschung und Technologie wie Gemini 3 – das sagte das Unternehmen beim Launch ausdrücklich. Das bedeutet, dass Gemopus etwas trägt, was keine auf Qwen basierende Feinabstimmung beanspruchen kann: Die DNA von Googles eigenem hochmodernem geschlossenem Modell unter der Haube, umhüllt mit Anthropics Denkstil obendrauf. Das Beste aus beiden Welten, mehr oder weniger.
Was Gemopus von der Welle anderer Gemma-Feinabstimmungen unterscheidet, die derzeit Hugging Face überschwemmen, ist die dahinterstehende Philosophie. Jackrong entschied sich bewusst dagegen, Claudes Chain-of-Thought-Reasoning-Spuren in Gemmas Gewichte zu zwingen – eine Abkürzung, die die meisten konkurrierenden Versionen nehmen.
Sein Argument, unterstützt durch aktuelle Forschung, ist, dass das Vollstopfen eines Schülermodells mit dem oberflächlichen Reasoning-Text eines Lehrers nicht wirklich echte Reasoning-Fähigkeit überträgt. Es lehrt Nachahmung, nicht Logik. „Es besteht keine Notwendigkeit für übermäßige Vorstellungskraft oder abergläubische Replikation der Claude-Stil Chain of Thought", heißt es auf der Modellkarte. Stattdessen konzentrierte er sich auf Antwortqualität, strukturelle Klarheit und konversationelle Natürlichkeit – und beseitigte Gemmas steife Wikipedia-Tonalität und seine Tendenz, Sie über Dinge zu belehren, die Sie nicht gefragt haben.
KI-Infrastrukturingenieur Kyle Hessling führte unabhängige Benchmarks durch und veröffentlichte die Ergebnisse direkt auf der Modellkarte. Sein Urteil über die 26B-Variante war ziemlich positiv. „Freue mich, dieses ziemlich hart getestet zu haben, und es ist eine hervorragende Feinabstimmung eines bereits außergewöhnlichen Modells", schrieb er auf X. „Es rockt bei One-Shot-Anfragen über lange Kontexte und läuft dank der MOE (Mixture of Experts)-Architektur unglaublich schnell."
Die kleinere E4B-Variante bestand alle 14 Kernkompetenztests – Befolgung von Anweisungen, Codierung, Mathematik, mehrstufiges Reasoning, Übersetzung, Sicherheit, Caching – und bestand alle 12 Langkontext-Tests bei 30K und 60K Token. Beim Needle-in-Haystack-Retrieval bestand es 13 von 13 Tests, einschließlich eines Belastungstests bei einer Million Token mit YaRN 8× RoPE-Skalierung.
Das 26B erweitert sich nativ auf 131K Kontext und mit YaRN bis zu 524K, was Hessling ebenfalls einem Stresstest unterzog: „Es hat auch meine einfachen Needle-in-Haystack-Tests bis zu einem erweiterten Kontext von 524k gemeistert!"
Auf Edge-Hardware ist das E4B wirklich schnell. Jackrong berichtet von 45–60 Token pro Sekunde auf iPhone 17 Pro Max und 90–120 Token pro Sekunde auf MacBook Air M3/M4 über MLX. Die 26B-MoE-Architektur bedeutet, dass es sich elegant auf Unified-Memory-Systeme oder GPUs mit weniger als 10GB VRAM auslagern lässt. Hessling nannte es seine Daily-Driver-Empfehlung für VRAM-arme Setups.
Beide Modelle sind im GGUF-Format verfügbar, was bedeutet, dass Sie sie direkt ohne Konfiguration in LM Studio oder llama.cpp einbinden können. Der vollständige Trainingscode und eine schrittweise Feinabstimmungsanleitung befinden sich auf Jackrongs GitHub – gleiche Pipeline, die er für Qwopus verwendete, gleiches Unsloth- und LoRA-Setup, reproduzierbar auf Colab.
Gemopus ist nicht ohne Ecken und Kanten. Tool Calling bleibt in der gesamten Gemma 4-Serie in llama.cpp und LM Studio defekt – Aufruffehler, Formatfehler, Schleifen – wenn Ihr Workflow also von Agenten abhängt, die externe Tools verwenden, ist dies noch nicht Ihr Modell. Jackrong selbst bezeichnet es als „eine technische Erkundungsreferenz und nicht als vollständig produktionsreife Lösung" und empfiehlt seine eigene Qwopus 3.5-Serie für alle, die etwas Stabileres für echte Workloads benötigen.
Und weil Jackrong bewusst auf aggressive Claude-Stil-Chain-of-Thought-Destillation verzichtete, erwarten Sie nicht, dass es sich so tief Opus-mäßig anfühlt wie Qwopus – das war ein bewusster Kompromiss für Stabilität, kein Versehen.
Für diejenigen, die tiefer in die Gemma-Feinabstimmung speziell für Reasoning eintauchen möchten, gibt es auch ein separates Community-Projekt, das es wert ist, beobachtet zu werden: Ornstein vom pseudonymen Entwickler DJLougen, der die gleiche 26B Gemma 4-Basis nimmt und sich speziell auf die Verbesserung seiner Reasoning-Ketten konzentriert, ohne sich auf die Logik oder den Stil eines bestimmten Drittanbietermodells zu verlassen.
Ein ehrlicher Vorbehalt: Gemmas Trainingsdynamik ist für Feinabstimmer chaotischer als Qwens – breitere Verlustfluktuationen, mehr Hyperparameter-Sensitivität. Jackrong sagt es selbst. Wenn Sie ein kampferprobtes lokales Modell für Produktions-Workflows benötigen, bleibt seine Qwopus 3.5-Serie robuster validiert. Aber wenn Sie ein amerikanisches Modell mit Opus-Stil-Politur wollen, ist Gemopus derzeit Ihre beste verfügbare Option. Eine dichtere 31B Gemopus-Variante ist ebenfalls in der Pipeline, wobei Hessling sie als „sicher ein Knaller" ankündigt.
Wenn Sie versuchen möchten, lokale Modelle auf Ihrer eigenen Hardware auszuführen, lesen Sie unseren Leitfaden, wie Sie mit lokaler KI beginnen können.
Daily Debrief Newsletter
Beginnen Sie jeden Tag mit den wichtigsten Nachrichten im Moment, plus Originalfeatures, einem Podcast, Videos und mehr.
Quelle: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai







