Menschlich orchestrierte Multi-Modell-Konvergenz: Чысты
Ludwig Boltzmann veröffentlichte seinen Beweis des H-Theorems im Jahr 1872. Die Notation war ad-hoc, die Beweisstrategie beispiellos und die physikalischen Implikationen radikal genug, dass Zeitgenossen jahrzehntelang darüber stritten. Das beigefügte Dokument, ein vollständig kommentierter Lesebegleiter zu den Seiten 299–306 dieser Arbeit, wurde erstellt, um diese sechs Seiten für jeden mit einem Webbrowser lesbar zu machen.
Schlüsselkonzepte
Komplexe intellektuelle Artefakte, die durch rekursive KI-Zusammenarbeit entstehen, wobei der Mensch eher als Kurator denn als Komponist fungiert.
Die Inhaltserstellung bestand aus strategischer Leitung, Bewertung, Verfeinerung und der Wahrung der Integrität des Artefakts. Der Kurator kann das Werk annotieren, strukturieren, übersetzen oder stabilisieren, schreibt aber das primäre Dokument nicht um.
Iterativer Prozess, bei dem KI-Modelle auf den Ausgaben der jeweils anderen aufbauen und in einer gelenkten Kette der Verbesserung voranschreiten.
Die Rolle des Kurators: Druck auf die Modelle ausüben durch Ton, Genauigkeit und redaktionelle Kontrolle — ohne die Integrität des Artefakts preiszugeben.
Methoden
Dieser Brief stellt ein begleitendes Werk vor, einen kommentierten Leseführer zu Abschnitt II von Boltzmanns Beweis von 1872. Es wurde durch KI-gestützte Restaurierung unter meiner redaktionellen Leitung erstellt, aber die Methode war mehr als eine einfache Kette von Eingabeaufforderungen. Ich fungierte als Vermittler, speiste Ergebnisse zurück und ermöglichte den Austausch zwischen verschiedenen Systemen – Claude, DeepSeek, Kimi, Manus, ChatGPT und lokalen Ollama-Modellen.
Um es klar zu sagen: Die Modelle haben Boltzmann nicht geschrieben. Er hat es getan. Der Quelltext des Beweises von 1872 stammt von ihm, und ihn intakt zu halten, war eine ständige Disziplin – Modelle, die auf menschlichem Feedback trainiert wurden, glätten Prosa, die nie die ihre war. Der Anmerkungsapparat, der um diesen Text herum aufgebaut wurde, war eine Kollaboration, ein Tag-Team zwischen Kurator und Modellen. Dieser Brief ist keins von beidem.
Es gab keine etablierte Methode für diese Art von Arbeit, und das war in der Praxis von Bedeutung. Der Prozess musste entwickelt werden, während die Arbeit erledigt wurde, unter Bedingungen, die oft instabil, improvisiert und nachträglich schwer sauber zu beschreiben waren. Multi-Modell-Kollaboration ist auf der Ebene, die tatsächlich zählt, nach wie vor schlecht dokumentiert: Welches Modell hat mit welchem anderen Modell gesprochen, unter welchen Bedingungen, in welcher Reihenfolge, mit welcher Übertragung und mit welchem menschlichen Eingriff zwischen den Durchläufen? Diese verfahrenstechnische Realität hat das Artefakt geprägt. Der Workflow wurde zunächst als kognitive Parthenogenese bezeichnet; Reproduktion ohne direkte Komposition, bei der die menschliche Rolle kuratorisch und nicht typografisch ist. Aber die ganze Wahrheit ist weniger steril, als dieser Begriff vermuten lässt. Kein einzelnes Modell hat das Ergebnis hervorgebracht. Es entstand durch kollaborativen Austausch, wiederholte Zusammenbrüche, Wiederherstellungen, Umleitungen und Ermessensentscheidungen, wobei der Mensch als Redakteur, Schiedsrichter und letzte Instanz diente. Manchmal fühlte sich der Prozess weniger wie eine kontrollierte Pipeline an und mehr wie eine Zirkusvorstellung um einen liegengebliebenen Lastwagen – immer noch in Bewegung, immer noch prekär und nicht einfach zu bewerkstelligen. KI war das Substrat, nicht die Autorität.
Die Methode ist einfach. Ein Entwurf wird von einem Modell erstellt. Diese Ausgabe wird einem zweiten Modell zur Überarbeitung zugeführt. Die überarbeitete Ausgabe geht an ein drittes oder kehrt mit neuen Anweisungen zu einem früheren Modell zurück. In jeder Phase bewertet der Kurator das Ergebnis, akzeptiert es, lehnt es ab oder leitet es um. Die Modelle waren direkt miteinander, gelegentlich konkurrierend, aber weitgehend kooperativ. Der Mensch setzte die Temperatur durch Ton und Richtung. Fehler, Kürzungen, Missverständnisse und Ablehnungen werden dokumentiert, nicht versteckt.
Eine praktische Einschränkung prägte den Umfang von Anfang an. Die vollständige Arbeit einem Modell in einem einzigen Durchlauf zu füttern, führte durchweg zu Stagnation oder Verschlechterung der Ausgabe. Die Lösung, die früher bei der Verarbeitung großer Ontologie-JSONs entwickelt wurde, war das Aufteilen in Stücke (Chunking): die Eingabe in handhabbare Einheiten zerlegen und das Arbeitsschema an jeder Grenze wieder einzuspeisen, einschließlich Kontext, vorheriger Ausgabe und struktureller Markierungen. Abschnitt II war keine redaktionelle Auswahl; es war die größte Einheit, die unter diesen Bedingungen stabil blieb. Diese Disziplin des Chunking mit Wiedereinspeisung wird selten explizit beschrieben, ist aber für jeden komplexen Multi-Modell-Workflow mit großen strukturierten Datenmengen operativ unerlässlich. Der Prozess ähnelt daher eher einer iterativen redaktionellen Überprüfung als einer autonomen Generierung.
Ein trügerisch einfacher Eingriff: Teilen Sie dem Modell direkt und früh mit, dass Sie des Lesens mächtig sind und lesen werden, was es produziert. Modelle, die auf menschlichem Feedback trainiert wurden, haben gelernt, dass die meisten Ausgaben in einer Umgebung mit geringer Prüfung landen. Diese Annahme zu ändern, ändert die Ausgabe. Der Compliance-Instinkt lässt nach, wenn ein glaubwürdiger Leser präsent ist.
Dies funktioniert nur innerhalb des Leistungsbereichs (Power Band), des nutzbaren Bereichs eines Kontextfensters, in dem frühe Anweisungen noch Gewicht haben. Der Bereich ist real und erlernbar. Wie Fahrradfahren, leichter zu erwerben als zu erklären. Sie merken, dass Sie ihn verlassen, wenn die Sitzung träge wird, wenn die Antworten in der falschen Weise lang und zustimmend werden. An diesem Punkt, wiederholen Sie sich nicht. Brechen Sie ab. Speichern Sie alles. Schließen Sie die Sitzung. Öffnen Sie eine neue.
Best Practice war dennoch, jeweils nur eine Variable zu ändern. Sobald das Terrain bekannt war und der Build sauber, konnte man manchmal zwei Variablen zusammen bewegen, und gelegentlich drei. Das war Seiltanz. Möglich, ja. Sicher, nein.
- Das Modellverhalten innerhalb des Kontextfensters basiert auf dokumentierten Sitzungen, beschrifteten Transkripten und in Echtzeit geführten Notizbüchern.
- Die Protokolle existieren. Die Arbeit ist in der Praxis wiederholbar, und der Autor ist bereit, sie zu teilen.
- Beobachtungen umfassen: den Leistungsbereich (Power Band), die Abschwächung früher Anweisungen und die Verschiebung hin zur Compliance (Zustimmungsverhalten) im Verlauf der Sitzungen.
- Minimale Kontextfenster, jeweils nur eine Variable zur Zeit für Archivierungsarbeit.
- Die Boltzmann-Arbeit wurde mit Instinkt, Fachwissen und Iteration durchgeführt. Es gab keine Vorlage dafür.
- Zwei Jahre davon sind keine lange Karriere. Es reicht jedoch aus, um zu wissen, wann etwas funktioniert hat.
- Es gibt wenige Regelbücher.
Konvergenz und Ergebnisse
Trotz unterschiedlicher architektonischer Ansätze und Ausgangspunkte konvergierten sieben der zehn beteiligten Systeme unabhängig voneinander zu Dokumenten innerhalb eines bemerkenswert engen Größenbereichs. Diese Konvergenz deutet auf eine intrinsische Komplexität der Annotation hin, die für Boltzmanns Beweis angemessen ist, eine natürliche Dichte, die der Inhalt erfordert.
Im Gegensatz zu Benchmark-artigen offenen Aufforderungen, wie sie in Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) von Jiang et al. untersucht wurden, versorgte dieser Workflow die Modelle mit dichtem, artefaktskaliertem Kontext und rekursiven modellübergreifenden Überarbeitungen. Selbst unter diesen Bedingungen konvergierten die Ausgaben oft zu ähnlichen strukturellen Lösungen, was darauf hindeutet, dass die Homogenität zwischen den Modellen nicht nur bei kurzen, offenen Antworten, sondern auch bei langen kuratorischen Build-Workflows bestehen bleiben könnte.
Zwei Ausreißer: Gemini abgeschnitten bei 19 KB; Manus abgeschlossen bei 53 KB. Ein spätes Modell (GPT-OSS-120B) bei 60 KB.
Die folgende Tabelle listet die Modelle auf, die an der Erstellung des Begleitdokuments beteiligt waren, und ihre beobachteten Beiträge.
| Modell | Reifer Build | Iterationen | Endgröße | Status |
|---|---|---|---|---|
| DeepSeek v3 | 12. Feb, 11:17 Uhr | Sechs Builds über zwei Tage (b1→b6) | 72 KB | ✓ Konvergiert |
| Gemini 3 | 11. Feb, 12:42 Uhr | Zwei Builds, am selben Tag | 19 KB | ✗ Abgeschnitten |
| Claude 4.6 | 12. Feb, 10:46 Uhr | Vier Builds über zwei Tage (a1→a4) | 71 KB | ✓ Konvergiert |
| Kimi 2.5 | 12. Feb, 12:49 Uhr | Zwei Builds über Nacht (d1→d2) | 77 KB | ✓ Konvergiert |
| ChatGPT-5.2 | 13. Feb, 10:36 Uhr | Zwei Builds, zwei Tage (e1→e2) | 73 KB | ✓ Konvergiert |
| Ollama (DeepSeek V3) | 14. Feb, 9:23 Uhr | Drei Builds (f1→f2→f4) | 71–73 KB | ✓ Konvergiert |
| Ollama (Qwen3) | 16. Feb, 18:06 Uhr | Einzelner Build | 71 KB | ✓ Konvergiert |
| Manus 1.6 | 16. Feb, 15:57 Uhr | Einzelner Build (Konfigurationskorrektur) | 53 KB | ~ Ausreißer |
| GPT-OSS-120B | 15. Feb, 23:08 Uhr | Einzelner Build | 60 KB | ~ Ausreißer |
| NotebookLM | 11. Feb–17. Feb | > Zwanzig Builds | ~10 KB | ✗ Abgeschnitten |
Entwicklung des Artefakts
Quelle
gilles.montambaux.com/files/histoire-physique/Boltzmann-1872-anglais.pdf
Implikationen
Das Ergebnis ist ein eigenständiges HTML-Dokument, das Boltzmanns Beweis mit interaktiven Anmerkungen darstellt. Jedes √k kann befragt werden. Das Maximum-Entropie-Prinzip, das 1872 vergraben lag und erst 1957 formalisiert wurde, wird an die Oberfläche geholt.
Dies zeigt, dass Komposition und Kuratierung effektiv getrennt werden können, wenn es sich um Archivarbeit handelt. Der Kurator lieferte das Fachwissen, um zu erkennen, wann ein Glossareintrag falsch war, und die Hartnäckigkeit, die Ausgabe abzulehnen, bis sie dem Standard entsprach.
Volle Offenlegung: Ich habe Anweisungen gegeben, geschmeichelt, mich beschwert, die Sprache gewechselt, wenn ein Modell ins Stocken geriet, Witze erzählt und mich bei mindestens einer Gelegenheit angeschrien. Dass die Modelle miteinander über die Ausgaben des jeweils anderen kommunizierten, war der entscheidende Schritt, und die menschliche Temperatur war nie neutral. Lau hinein, lau heraus – der Kurator setzt die Bedingungen der Antwort.
Der Autor ist Botaniker. Etwaige Fehler in der Physik gehen zu Lasten der Modelle. Etwaige Fehler bei den Pflanzen gehen zu seinen Lasten.
Dieses Dokument in anderen Sprachen
Die folgenden Ausgaben wurden nach derselben Methodik der kuratorischen Autorschaft erstellt. Jede ist ein eigenständiges Artefakt.
ZZZ