Brief · Methodendemonstration

Menschlich orchestrierte Multi-Modell-Konvergenz: Чысты

Ein Lesebegleiter zu Boltzmann (1872), erstellt von kollaborativen KI-Modellen unter menschlicher redaktioneller Leitung

Timothy M. Jones · TJID3 Research · 2026

https://doi.org/10.5281/zenodo.18988588

Ludwig Boltzmann veröffentlichte seinen Beweis des H-Theorems im Jahr 1872. Die Notation war ad-hoc, die Beweisstrategie beispiellos und die physikalischen Implikationen radikal genug, dass Zeitgenossen jahrzehntelang darüber stritten. Das beigefügte Dokument, ein vollständig kommentierter Lesebegleiter zu den Seiten 299–306 dieser Arbeit, wurde erstellt, um diese sechs Seiten für jeden mit einem Webbrowser lesbar zu machen.

Schlüsselkonzepte

Kognitive Parthenogenese

Komplexe intellektuelle Artefakte, die durch rekursive KI-Zusammenarbeit entstehen, wobei der Mensch eher als Kurator denn als Komponist fungiert.

Kuratorische Autorschaft

Die Inhaltserstellung bestand aus strategischer Leitung, Bewertung, Verfeinerung und der Wahrung der Integrität des Artefakts. Der Kurator kann das Werk annotieren, strukturieren, übersetzen oder stabilisieren, schreibt aber das primäre Dokument nicht um.

Rekursive Synthese

Iterativer Prozess, bei dem KI-Modelle auf den Ausgaben der jeweils anderen aufbauen und in einer gelenkten Kette der Verbesserung voranschreiten.

Agresseur Humain Silencieux

Die Rolle des Kurators: Druck auf die Modelle ausüben durch Ton, Genauigkeit und redaktionelle Kontrolle — ohne die Integrität des Artefakts preiszugeben.

• • •

Endgültiges Artefakt

Der befragbare Lesebegleiter

Ollama · Qwen3 · Entwöhnt geboren

Methoden

Dieser Brief stellt ein begleitendes Werk vor, einen kommentierten Leseführer zu Abschnitt II von Boltzmanns Beweis von 1872. Es wurde durch KI-gestützte Restaurierung unter meiner redaktionellen Leitung erstellt, aber die Methode war mehr als eine einfache Kette von Eingabeaufforderungen. Ich fungierte als Vermittler, speiste Ergebnisse zurück und ermöglichte den Austausch zwischen verschiedenen Systemen – Claude, DeepSeek, Kimi, Manus, ChatGPT und lokalen Ollama-Modellen.

Um es klar zu sagen: Die Modelle haben Boltzmann nicht geschrieben. Er hat es getan. Der Quelltext des Beweises von 1872 stammt von ihm, und ihn intakt zu halten, war eine ständige Disziplin – Modelle, die auf menschlichem Feedback trainiert wurden, glätten Prosa, die nie die ihre war. Der Anmerkungsapparat, der um diesen Text herum aufgebaut wurde, war eine Kollaboration, ein Tag-Team zwischen Kurator und Modellen. Dieser Brief ist keins von beidem.

Es gab keine etablierte Methode für diese Art von Arbeit, und das war in der Praxis von Bedeutung. Der Prozess musste entwickelt werden, während die Arbeit erledigt wurde, unter Bedingungen, die oft instabil, improvisiert und nachträglich schwer sauber zu beschreiben waren. Multi-Modell-Kollaboration ist auf der Ebene, die tatsächlich zählt, nach wie vor schlecht dokumentiert: Welches Modell hat mit welchem anderen Modell gesprochen, unter welchen Bedingungen, in welcher Reihenfolge, mit welcher Übertragung und mit welchem menschlichen Eingriff zwischen den Durchläufen? Diese verfahrenstechnische Realität hat das Artefakt geprägt. Der Workflow wurde zunächst als kognitive Parthenogenese bezeichnet; Reproduktion ohne direkte Komposition, bei der die menschliche Rolle kuratorisch und nicht typografisch ist. Aber die ganze Wahrheit ist weniger steril, als dieser Begriff vermuten lässt. Kein einzelnes Modell hat das Ergebnis hervorgebracht. Es entstand durch kollaborativen Austausch, wiederholte Zusammenbrüche, Wiederherstellungen, Umleitungen und Ermessensentscheidungen, wobei der Mensch als Redakteur, Schiedsrichter und letzte Instanz diente. Manchmal fühlte sich der Prozess weniger wie eine kontrollierte Pipeline an und mehr wie eine Zirkusvorstellung um einen liegengebliebenen Lastwagen – immer noch in Bewegung, immer noch prekär und nicht einfach zu bewerkstelligen. KI war das Substrat, nicht die Autorität.

Die Methode ist einfach. Ein Entwurf wird von einem Modell erstellt. Diese Ausgabe wird einem zweiten Modell zur Überarbeitung zugeführt. Die überarbeitete Ausgabe geht an ein drittes oder kehrt mit neuen Anweisungen zu einem früheren Modell zurück. In jeder Phase bewertet der Kurator das Ergebnis, akzeptiert es, lehnt es ab oder leitet es um. Die Modelle waren direkt miteinander, gelegentlich konkurrierend, aber weitgehend kooperativ. Der Mensch setzte die Temperatur durch Ton und Richtung. Fehler, Kürzungen, Missverständnisse und Ablehnungen werden dokumentiert, nicht versteckt.

Abbildung 1. Meilenstein-Builds in zeitlicher Abfolge. Die X-Achse zeigt den Zeitverlauf vom 11. Februar (Mittag) bis zum Abend des 16. Februar. Kleine Punkte repräsentieren iterative Builds; große Kreise mit warmfarbenen Rändern markieren ausgereifte Builds, die auf 71–77 KB konvergierten.

Eine praktische Einschränkung prägte den Umfang von Anfang an. Die vollständige Arbeit einem Modell in einem einzigen Durchlauf zu füttern, führte durchweg zu Stagnation oder Verschlechterung der Ausgabe. Die Lösung, die früher bei der Verarbeitung großer Ontologie-JSONs entwickelt wurde, war das Aufteilen in Stücke (Chunking): die Eingabe in handhabbare Einheiten zerlegen und das Arbeitsschema an jeder Grenze wieder einzuspeisen, einschließlich Kontext, vorheriger Ausgabe und struktureller Markierungen. Abschnitt II war keine redaktionelle Auswahl; es war die größte Einheit, die unter diesen Bedingungen stabil blieb. Diese Disziplin des Chunking mit Wiedereinspeisung wird selten explizit beschrieben, ist aber für jeden komplexen Multi-Modell-Workflow mit großen strukturierten Datenmengen operativ unerlässlich. Der Prozess ähnelt daher eher einer iterativen redaktionellen Überprüfung als einer autonomen Generierung.

Ein trügerisch einfacher Eingriff: Teilen Sie dem Modell direkt und früh mit, dass Sie des Lesens mächtig sind und lesen werden, was es produziert. Modelle, die auf menschlichem Feedback trainiert wurden, haben gelernt, dass die meisten Ausgaben in einer Umgebung mit geringer Prüfung landen. Diese Annahme zu ändern, ändert die Ausgabe. Der Compliance-Instinkt lässt nach, wenn ein glaubwürdiger Leser präsent ist.

Dies funktioniert nur innerhalb des Leistungsbereichs (Power Band), des nutzbaren Bereichs eines Kontextfensters, in dem frühe Anweisungen noch Gewicht haben. Der Bereich ist real und erlernbar. Wie Fahrradfahren, leichter zu erwerben als zu erklären. Sie merken, dass Sie ihn verlassen, wenn die Sitzung träge wird, wenn die Antworten in der falschen Weise lang und zustimmend werden. An diesem Punkt, wiederholen Sie sich nicht. Brechen Sie ab. Speichern Sie alles. Schließen Sie die Sitzung. Öffnen Sie eine neue.

Best Practice war dennoch, jeweils nur eine Variable zu ändern. Sobald das Terrain bekannt war und der Build sauber, konnte man manchmal zwei Variablen zusammen bewegen, und gelegentlich drei. Das war Seiltanz. Möglich, ja. Sicher, nein.

Das Modellverhalten innerhalb des Kontextfensters basiert auf dokumentierten Sitzungen, beschrifteten Transkripten und in Echtzeit geführten Notizbüchern.
Die Protokolle existieren. Die Arbeit ist in der Praxis wiederholbar, und der Autor ist bereit, sie zu teilen.
Beobachtungen umfassen: den Leistungsbereich (Power Band), die Abschwächung früher Anweisungen und die Verschiebung hin zur Compliance (Zustimmungsverhalten) im Verlauf der Sitzungen.
Minimale Kontextfenster, jeweils nur eine Variable zur Zeit für Archivierungsarbeit.
Die Boltzmann-Arbeit wurde mit Instinkt, Fachwissen und Iteration durchgeführt. Es gab keine Vorlage dafür.
Zwei Jahre davon sind keine lange Karriere. Es reicht jedoch aus, um zu wissen, wann etwas funktioniert hat.
Es gibt wenige Regelbücher.

Konvergenz und Ergebnisse

Trotz unterschiedlicher architektonischer Ansätze und Ausgangspunkte konvergierten sieben der zehn beteiligten Systeme unabhängig voneinander zu Dokumenten innerhalb eines bemerkenswert engen Größenbereichs. Diese Konvergenz deutet auf eine intrinsische Komplexität der Annotation hin, die für Boltzmanns Beweis angemessen ist, eine natürliche Dichte, die der Inhalt erfordert.

Im Gegensatz zu Benchmark-artigen offenen Aufforderungen, wie sie in Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) von Jiang et al. untersucht wurden, versorgte dieser Workflow die Modelle mit dichtem, artefaktskaliertem Kontext und rekursiven modellübergreifenden Überarbeitungen. Selbst unter diesen Bedingungen konvergierten die Ausgaben oft zu ähnlichen strukturellen Lösungen, was darauf hindeutet, dass die Homogenität zwischen den Modellen nicht nur bei kurzen, offenen Antworten, sondern auch bei langen kuratorischen Build-Workflows bestehen bleiben könnte.

Konvergenzzone: 71–77 KB bei 7 Modellen

Zwei Ausreißer: Gemini abgeschnitten bei 19 KB; Manus abgeschlossen bei 53 KB. Ein spätes Modell (GPT-OSS-120B) bei 60 KB.

Abbildung 2. Dateigrößenverteilung über alle Builds. Die X-Achse zeigt die Dateigröße in Kilobyte. Jeder horizontale Streifen repräsentiert eine Modellfamilie; kleine verblasste Punkte zeigen frühe Iterationen, große Kreise mit warmfarbenen Rändern zeigen ausgereifte Builds. Sieben Modelle konvergierten unabhängig voneinander in einem 6-Kilobyte-Fenster (71–77 KB), trotz unterschiedlicher Architekturen und Entwicklungspfade. Zwei Ausreißer: Gemini abgeschnitten bei 19 KB, Manus abgeschlossen bei 53 KB. Die Konvergenzzone deutet auf eine intrinsische Annotationskomplexität für Boltzmanns Beweis von 1872 hin. In der Größenkonvergenzgrafik werden nur Meilensteinmodelle gezeigt; abgebrochene Läufe sind in der Tabelle dokumentiert und aus Gründen der Skalenübersichtlichkeit nicht in der Visualisierung enthalten. Das Muster könnte teilweise das Chunking-und-Wiedereinspeisung widerspiegeln, nicht nur den Quelltext.

Die folgende Tabelle listet die Modelle auf, die an der Erstellung des Begleitdokuments beteiligt waren, und ihre beobachteten Beiträge.

Modellbeiträge zum Begleitdokument
Modell	Reifer Build	Iterationen	Endgröße	Status
DeepSeek v3	12. Feb, 11:17 Uhr	Sechs Builds über zwei Tage (b1→b6)	72 KB	✓ Konvergiert
Gemini 3	11. Feb, 12:42 Uhr	Zwei Builds, am selben Tag	19 KB	✗ Abgeschnitten
Claude 4.6	12. Feb, 10:46 Uhr	Vier Builds über zwei Tage (a1→a4)	71 KB	✓ Konvergiert
Kimi 2.5	12. Feb, 12:49 Uhr	Zwei Builds über Nacht (d1→d2)	77 KB	✓ Konvergiert
ChatGPT-5.2	13. Feb, 10:36 Uhr	Zwei Builds, zwei Tage (e1→e2)	73 KB	✓ Konvergiert
Ollama (DeepSeek V3)	14. Feb, 9:23 Uhr	Drei Builds (f1→f2→f4)	71–73 KB	✓ Konvergiert
Ollama (Qwen3)	16. Feb, 18:06 Uhr	Einzelner Build	71 KB	✓ Konvergiert
Manus 1.6	16. Feb, 15:57 Uhr	Einzelner Build (Konfigurationskorrektur)	53 KB	~ Ausreißer
GPT-OSS-120B	15. Feb, 23:08 Uhr	Einzelner Build	60 KB	~ Ausreißer
NotebookLM	11. Feb–17. Feb	> Zwanzig Builds	~10 KB	✗ Abgeschnitten

Entwicklung des Artefakts

Quelle

gilles.montambaux.com/files/histoire-physique/Boltzmann-1872-anglais.pdf

Version 1.0

Die statische Rekonstruktion (Modernes LaTeX)

Basisübersetzung · JSON-LD

Version 2.0

Die kollaborative Überarbeitung (Gemini & DeepSeek)

Behebung von Kürzungen · CSS-Logik

Version 3.0

Die kollaborative Überarbeitung (Claude & DeepSeek)

Qualitätsverbesserung

Version 4.0

Die kollaborative Überarbeitung (ChatGPT & Alle)

Syntax poliert

Version 5.0

Die kollaborative Überarbeitung (Kimi 2.5 & Alle)

Kreative Erweiterung

Endgültiges Artefakt

Der befragbare Lesebegleiter

Live-Variablen · Entwöhnt geboren

• • •

Implikationen

Das Ergebnis ist ein eigenständiges HTML-Dokument, das Boltzmanns Beweis mit interaktiven Anmerkungen darstellt. Jedes √k kann befragt werden. Das Maximum-Entropie-Prinzip, das 1872 vergraben lag und erst 1957 formalisiert wurde, wird an die Oberfläche geholt.

Dies zeigt, dass Komposition und Kuratierung effektiv getrennt werden können, wenn es sich um Archivarbeit handelt. Der Kurator lieferte das Fachwissen, um zu erkennen, wann ein Glossareintrag falsch war, und die Hartnäckigkeit, die Ausgabe abzulehnen, bis sie dem Standard entsprach.

Volle Offenlegung: Ich habe Anweisungen gegeben, geschmeichelt, mich beschwert, die Sprache gewechselt, wenn ein Modell ins Stocken geriet, Witze erzählt und mich bei mindestens einer Gelegenheit angeschrien. Dass die Modelle miteinander über die Ausgaben des jeweils anderen kommunizierten, war der entscheidende Schritt, und die menschliche Temperatur war nie neutral. Lau hinein, lau heraus – der Kurator setzt die Bedingungen der Antwort.

Der Autor ist Botaniker. Etwaige Fehler in der Physik gehen zu Lasten der Modelle. Etwaige Fehler bei den Pflanzen gehen zu seinen Lasten.

Timothy M. Jones, Ph.D. TJID3 Research · Cleveburg, Ohio

• • •