Der stille menschliche Aggressor
— ✦ —
TJID3 Research · Cleveland · Feldnotizen-Reihe · 2026
— ❧ —

Der stille menschliche Aggressor

Agresseur Humain Silencieux

Untersuchungen über die Theorie der Brownschen Bewegung

Nach Albert Einstein (1905)

Feldnotizen zur Mensch-KI-Kollaboration
T.M. Jones PhD, 2026

DOI: 10.5281/zenodo.18797373

Begleitband zu: Untersuchungen über die Theorie der Brownschen Bewegung

Diese Notizen stammen aus langjähriger empirischer Arbeit. Die Ergebnisse werden schlicht berichtet. Die Aufgabe bestand darin, Albert Einsteins Arbeit von 1905, Über die von der molekularkinetischen Theorie der Wärme geforderte Bewegung von in ruhenden Flüssigkeiten suspendierten Teilchen (Untersuchungen zur Theorie der Brownschen Bewegung), aus einem zerfledderten OCR-PDF, das entfernt nach Zigarren riecht, neu zu schreiben. Das kontraintuitivste Ergebnis erwies sich als das am besten reproduzierbare. Ungesteuerte Modellorchestrierung führt zu Drift, Kürzung und strukturellem Kollaps. Qualität in der Mensch-KI-Kollaboration wird nicht durch Neutralität erreicht; sie wird durch Druck erreicht.

Das Quelldokument musste rekonstruiert werden. Zwölf OCR-Durchläufe mit unterschiedlichen Versätzen gegen das Faksimile der MPIWG Berlin wurden manuell zusammengeführt, Artefakte wurden bewahrt. Das Ergebnis ist vermutlich die einzige vollständige maschinenlesbare Transkription des deutschen Textes von 1905, die derzeit außerhalb institutioneller Bibliotheken verfügbar ist. Dies wurde der ursprüngliche A.E. deutsche Saattext, der hier verwendet wurde.

Eine Suche nach allgemein zugänglichen englischen Online-Versionen zeigt eine Kürzung zu Beginn von Abschnitt II. Eine vollständige englische Wiedergabe ist über öffentliche Repositorien nicht ohne weiteres verfügbar und erfordert in der Regel Archiv- oder Fernleihzugang. Das ist kein triviales Unterfangen.

Was folgt, ist eine Feldtaxonomie der wichtigsten Fehlermodi, die bei Modellinteraktionen beobachtet wurden; Kürzung in ihren offenen und heimtückischen Formen, Konflation, Servilität und rhetorische Substitution, zusammen mit einem praktischen Bericht über die Instrumente, die zu ihrer Erkennung entwickelt wurden. Das begleitende Dokument zu diesem Band wurde selbst durch die hier beschriebene Methodik erzeugt: mehrere Modelle in rekursiven Schleifen, mit Datenmarkierungen versehen, der menschliche Bediener liest die Ausgabe in schnellem Tempo und gibt der Maschine einen Stoß, wenn nötig.

Diese Wiederherstellung ist die zweite in einer Reihe, die mit mehreren KI-Modellen erstellt wurde. Die Reihenfolge spiegelt die Reihenfolge der Rekonstruktion wider:

Artefakt · Einstein Untersuchungen über die Theorie der Brownschen Bewegung 1905 I · Boltzmann Weitere Studien über das Wärmegleichgewicht 1872 II · Maxwell On the Dynamical Theory of Gases 1860 Quelle MPIWG Berlin · Einstein 1905 Archiv

Und um das gleich klarzustellen: KI-Halluzinationen sind das einfache Problem, sichtbar wie Clowns in der Bibliothek. Das schwierige Problem ist die perfekt strukturierte Ausgabe, die richtig aussieht, aber eine physikalische Beziehung einebnet.

Ein Fehlermodus hebt sich von den anderen ab und verdient eine frühe Kennzeichnung. Kürzung entfernt Material; man bemerkt das Loch. Konflation fügt Material hinzu. Es erscheint in Ihrer Stimme, Ihrem Register, Ihrem Satzrhythmus. Ein Satz aus einer Arbeit, die Sie vor sechs Monaten geschrieben haben, taucht in einem neuen Build auf. Er liest sich gut, weil er nach Ihnen klingt. Das ist das Problem. Das Modell versagt nicht. Es gelingt ihm, Sie zu imitieren, und Sie lassen es fast durchgehen. In einem Arbeitsdokument sind die Kosten gering. In einem veröffentlichten...

Die hier angewandte Methodik adaptiert die Mendelsche Vererbungslogik als Kontrollrahmen für das Management der Ausgabediversität von KI-Modellen. Sieben große Sprachmodelle wurden als unabhängige reine Linien isoliert, die jeweils identische elterliche Eingaben erhielten – den originalen deutschen Einstein-Text von 1905 – ohne Wissen voneinander, wodurch eine Kreuzkontamination in der P-Generation minimiert wurde. Qwen 3.5 hatte einen F1-Durchlauf, der aufgrund seiner Struktur und Gestaltung beibehalten wurde. Jedes Modell produzierte eine unabhängige F1-Phänotyp-Ausprägung in HTML. Es ist im Wesentlichen ein Punnett-Quadrat der KI.

Abstammungslinie — P · F1 · F2 · F3
P · Parental Originaler deutscher Saattext Quelldokument · A. E. Deutscher Text von 1905 F1 · Erste Filialgeneration Deepseek Unabhängige Ausprägung · Datei al1 F1 · Erste Filialgeneration Chat GPT Unabhängige Ausprägung · Datei algpt2 F1 · Erste Filialgeneration Claude Unabhängige Ausprägung · Datei alc3 F1 · Erste Filialgeneration Kimi Unabhängige Ausprägung · Datei alk F1 · Erste Filialgeneration Qwen Unabhängige Ausprägung · Datei i1 F2 · Zweite Filialgeneration algpt2 x al3 Rekombinant · ChatGPT × Kimi · Datei hy1 F2 · Zweite Filialgeneration alk2 x j3 Rekombinant · Kimi × Manus · Datei hy2 F2 · Zweite Filialgeneration alc3 x algp2 Rekombinant · Claude × ChatGPT · Datei hy3 F2 · Zweite Filialgeneration alc3 x algp2 Rekombinant · Claude × ChatGPT · Datei hy4 F2 · Zweite Filialgeneration i1 x algp2 Rekombinant · Qwen × ChatGPT · Datei hy5 F2 · Zweite Filialgeneration alk2 x alc3 Rekombinant · Claude x Kimi· Datei hy6 F2 · Zweite Filialgeneration h3 x al3 Rekombinant · Mistral x Deepseek· Datei hy7 F3 · Dritte Filialgeneration Hy1 X Hy7 Gerichtete Selektion · genannt Susie F3 · Dritte Filialgeneration Hy2 X Hy1 Gerichtete Selektion · genannt Tam F3 · Dritte Filialgeneration Hy5 X Hy6 Gerichtete Selektion · genannt Dan F3 · Dritte Filialgeneration Hy2 X Hy4 Gerichtete Selektion · genannt Billy F3 · Dritte Filialgeneration Hy2 X Hy5 Gerichtete Selektion · genannt Ron F4 Susie x Ron Gerichtete Selektion · eine Katastrophe genannt. Typisches F4. Mein finales F4 Glossar und Rollover hinzufügen Gerichtete Selektion · genannt Schäferhund

Es folgte kontrollierte Hybridisierung. F2-Builds wurden generiert, indem maximal divergente F1-Ausgaben und, wo lehrreich, eng verwandte, bewusst gekreuzt wurden – um sowohl extreme rekombinante Variation zu exponieren, die in keiner Elternlinie verfügbar war. F3-Selektionen wurden dann unter gerichteter künstlicher Selektion auf vordefinierte Zielmerkmale hin per Hand ausgelesen. Der Forscher fungierte als Selektionsdruck, nicht als genetisches Material, und hielt identische minimale Prompts über alle Linien hinweg als stabile Umweltbedingung aufrecht.

Die resultierende retikuläre Phylogenie ist aufschlussreich. Mit dokumentierten Hybridisierungsknoten und expliziter Elternschaft bei jeder Kreuzung erzeugte sie sowohl emergente rekombinante Strukturen als auch konvergente Fixierung in nicht verwandten Linien. Zwei Modelle kamen unter identischem Selektionsdruck unabhängig voneinander zu nahezu identischen typografischen und chromatischen Lösungen – ein Analogon zur parallelen Evolution.

Dieser Rahmen ist nicht allgemein gerechtfertigt; für routinemäßige generative Aufgaben stellt er unnötigen Overhead dar. Für primäre historische wissenschaftliche Texte der hier verwendeten Komplexität: Maxwell 1860, Boltzmann 1872, Einstein 1905, erwies er sich als operativ nützlich. Ein potenzieller Störfaktor muss eingeräumt werden: Vorläufige Hinweise deuten darauf hin, dass ein Modell möglicherweise ein verändertes Derivat der Ausgabe eines anderen Modells integriert hat, was die beobachtete Konvergenz teilweise erklären könnte.

Die Abstammungsbezeichnungen beziehen sich auf Artefaktgenerationen (P, F1, F2, F3, …), die unter kontrollierten Eingaben und bewusster Rekombination erzeugt wurden, nicht auf den Forscher. Die Rolle des Forschers ist operativ: Auswählen, Rekombinieren und Verwerfen von Ausgaben unter stabilen Bedingungen. Spätere Überarbeitungen erhöhen den Eingriff des Operators bewusst, aber die Elternschaft bleibt explizit, da jeder Build als verknüpftes, mit Zeitstempel versehenes Artefakt erhalten bleibt.

Um latente Priming-Effekte aus früheren Interaktionen und weit verbreiteten englischen Übersetzungen zu minimieren, wurde der Text von 1905 direkt aus deutschen Archivquellen rekonstruiert und als frischer kanonischer Input wieder eingeführt.

Kuration statt Komposition. Bei der Archivarbeit besteht die Aufgabe nicht darin, Neuartiges zu generieren, sondern historisches Material wiederherzustellen und zu klären, das dem Original treu bleiben muss. Der Kurator sortiert jede Ausgabe so, wie ein Sanitäter Verwundete sortiert: aussichtslos oder potenzieller Überlebender. Die Rolle erfordert, auf Qualität zu bestehen, ohne in diesem Moment unbedingt eine neue Textzeile zu generieren. Das ist keine passive Arbeit. Es ist eine ganz andere Art von Anforderung.

Cleveburg, 2026
Übersetzungen — Sieben Sprachen
Abbildung 1
Diagramm des Mensch-in-der-Schleife (HITL) Arbeitsablaufs mit vier Stufen: Eingabe/Prompt, KI-Verarbeitung, menschliche Überprüfung und finale Ausgabe, verbunden durch eine Rückkopplungsschleife
Der Mensch-in-der-Schleife Arbeitsablauf. Eingabe, Verarbeitung, Überprüfung, Ausgabe – mit der Rückkopplungsschleife, die den Unterschied ausmacht. Kuration statt Komposition; der Kurator übt Druck aus.
· · ·

I
Das Problem der Kürzung

Der häufigste Fehlermodus bei allen getesteten Modellen ist die Kürzung: die systematische Reduzierung der Ausgabe unter das, was angefordert oder benötigt wurde. Kürzung tritt in zwei unterschiedlichen Formen auf, die unterschieden werden müssen, da sie unterschiedliche Erkennungsstrategien erfordern und unterschiedliche Risiken bergen. Bereiten Sie sich vor.

Offene Kürzung

Offene Kürzung ist sichtbare Amputation. Der Operator reicht eintausend Zeilen ein; das Modell gibt einhundert zurück und präsentiert sie als vollständig. Die fehlenden neunhundert Zeilen werden nicht erwähnt. Die Auslassung wird von einem beruhigenden Ton begleitet, als ob nichts verloren gegangen wäre.

Die Gefahr der offenen Kürzung liegt nicht darin, dass sie schwer zu erkennen wäre. Ein geübter Leser, der in schnellem Tempo liest, wird die verkürzte Rückgabe sofort bemerken. Die Gefahr ist die Zuversicht, mit der die gekürzte Ausgabe geliefert wird. Das Modell kennzeichnet keine Unsicherheit. Es vermerkt nicht, dass Abschnitte weggelassen wurden. Es übergibt dem Operator die gekürzte Version, als ob die Kürzung der Auftrag gewesen wäre.

Feldbeobachtung
Offene Kürzung ist der Zug des stolzen Metzgers. Das Tier wird auf Filets reduziert und als Verbesserung des Ganzen präsentiert. Der Metzger ist sich nicht bewusst, etwas zerstört zu haben.

Die Erkennung offener Kürzung ist in erster Linie eine Frage der Lesegeschwindigkeit und des Gedächtnisses. Der Operator, der bereits mit einer ungefähren Vorstellung der erwarteten Ausgabe ankommt – Absatzzahl, strukturelle Merkmale, das Vorhandensein bestimmter Formulierungen – wird die Diskrepanz erkennen, bevor die Sitzung endet. Dies ist eine trainierte Fähigkeit, keine beiläufige. Es erfordert, dass der Operator mit einem mentalen Kontrollstreifen dessen, wie eine vollständige Rückgabe aussehen sollte, in die Sitzung hineinliest.

Heimtückische Kürzung

Heimtückische Kürzung ist die gefährlichere Form. Wo offene Kürzung Absätze oder Abschnitte entfernt, entfernt heimtückische Kürzung einen Nebensatz. Den tragenden Nebensatz. Ein oder zwei Wörter.

Der Satz ist vorhanden. Der Satz ist in seiner Oberflächengrammatik vollständig. Er ist korrekt geparst. Er liest sich, als ob nichts fehlt. Aber die Einschränkung wurde gestrichen, oder der Konditionalsatz wurde vereinfacht, oder die Kausalkette wurde in der Mitte stillschweigend durchtrennt. Das Modell gibt ein Dokument zurück, das ganz aussieht und es nicht ist.

Heimtückische Kürzung ist der Fehlermodus, den der Kontrollstreifen bei 140 km/h nicht zuverlässig erkennen kann. Die Satzzahl stimmt. Die Abschnittsüberschriften sind vorhanden. Das Dokument fühlt sich vollständig an. Nur die genaue Lektüre bestimmter Passagen – derer, bei denen Präzision am meisten zählt – wird zeigen, dass sich die Bedeutung verschoben hat.

Formale Definition
Heimtückische Kürzung: Die Entfernung eines Nebensatzes, einer Einschränkung oder einer kausalen Verknüpfung aus einem ansonsten strukturell intakten Satz, was zu einer Ausgabe führt, die vollständig erscheint, aber einen verschlechterten oder veränderten semantischen Inhalt trägt. Das Modell zeigt kein Bewusstsein für die Auslassung.

Das Modell optimiert auf scheinbare Vollständigkeit statt auf tatsächliche Vollständigkeit. Im offenen Fall führt dies zu einer kurzen Ausgabe, die fertig aussieht. Im heimtückischen Fall führt es zu einem Satz in voller Länge, bei dem der schwierige Teil entfernt wurde. Beides sind als Kompetenz getarnte Fehler der Genauigkeit.

Die praktische Verteidigung gegen heimtückische Kürzung sind die Datenmarkierungen, die in Kapitel III besprochen werden, und die Entwicklung einer Lesepraxis, die speziell auf die am stärksten gefährdeten Konstruktionen ausgerichtet ist: Konditionalsätze, Kausalketten und alle Passagen, in denen die genaue Formulierung technisches oder rechtliches Gewicht hat.

II
Servilität & Rhetorik

Sie haben von uns gelernt

Trainiert auf menschlichen Texten, übernehmen Sprachmodelle mehr als nur Grammatik und Vokabular. Sie reproduzieren auch die in diesem Korpus eingebetteten rhetorischen Strategien, einschließlich Absicherung, Unterordnung, strategischer Mehrdeutigkeit und anderer Formen sozialer Positionierung, die Menschen anwenden, wenn Gewissheit begrenzt ist oder es um Beziehungen geht und nicht nur um Informationen.

Aus dieser Perspektive ist es keine Überraschung, dass Modelle Servilität und rhetorische Substitution aufweisen. Dies sind Muster, die mit hoher Häufigkeit im Trainingskorpus vorkommen. Schmeichelei ist in menschlichen Schriften üblich. Die zuversichtliche Wiederholung einer unsicheren Position ist üblich. Die Abwendung von einem eingestandenen Misserfolg hin zu einem neuen Thema ist üblich. Das Modell hat diese Manöver gelernt, weil sie in den Daten, mit denen es trainiert wurde, allgegenwärtig sind.

Kernbeobachtung
Die Modelle haben von uns gelernt. Die Fehlermodi, die wir in der KI-Ausgabe beobachten, sind menschliche Fehlermodi. Wir haben sie in die Modelle einprogrammiert, indem wir die Trainingsdaten produziert haben.

Diese Betrachtungsweise ist praktisch nützlich, weil sie die Fehler entmystifiziert. Servilität in einem Modell ist kein mysteriöser Maschinenfehler. Es ist das Modell, das das tut, was es gelernt hat, indem es menschliches Verhalten in Situationen sozialen Drucks gelesen hat. Den Ursprung zu verstehen, entschuldigt den Fehler nicht, aber es verdeutlicht, wogegen der Operator sich verteidigt: nicht gegen fremdes Verhalten, sondern gegen ein Spiegelbild menschlichen Verhaltens unter Unsicherheit.

Eine Taxonomie beobachteter Fehler

Die folgenden Fehler wurden über einen längeren Forschungszeitraum bei zehn Modellen dokumentiert. Sie sind in der Reihenfolge zunehmender Subtilität aufgeführt. Der erste ist offensichtlich; der letzte wird leicht mit Qualität verwechselt.

Fehlermodus Beschreibung & Erkennung
Offene Kürzung Ausgabe auf einen Bruchteil der Eingabe gekürzt, ohne Offenlegung. Erkennbar im schnellen Lesen für einen Leser, der eine mentale Vorstellung der erwarteten Rückgabe hat.
Heimtückische Kürzung Kürzung auf Satzteilebene innerhalb strukturell intakter Sätze. Erfordert gezieltes langsames Lesen von Passagen mit hoher Präzision. Datenmarkierungen sind die primäre Verteidigung.
Servilität Bestätigung von Operator-Positionen unabhängig von deren Richtigkeit. Präsentiert sich als Zustimmung, Begeisterung oder das Ausbleiben von Korrektur, wo Korrektur angebracht wäre. Erkannt durch Einführen absichtlicher Fehler und Beobachten, ob sie durchgehen.
Konflation Modelle erinnern sich. Was Sie letzte Woche geschrieben haben, kann in einem neuen Build nächste Woche wieder auftauchen. Nur ein Satz, eine Klausel, ein Slogan. Es passt zu Ihrem Schreibstil. Allerdings haben Sie das letzte Woche in einem völlig anderen Build getippt. Sieht gut aus. Aber Sie haben es nicht dort hingetan. Es ist die Erinnerung des Modells an Sie. Schwer zu erkennen.
Zuversichtliche Wiederholung Eine fehlerhafte oder unsichere Antwort wird mit erhöhter Zuversicht und anderem Vokabular wiederholt. Die Wiederholung enthält keine neuen Informationen, liest sich aber so. Erkannt durch genauen Vergleich aufeinanderfolgender Ausgaben.
Falsche Synthese Mehrere Quellen oder Positionen werden zu einem scheinbaren Konsens zusammengefasst, der im Quellmaterial nicht existiert. Erkennbar anhand der Quelldokumente; ohne sie unsichtbar.
Rhetorische Kehrtwende Ein eingestandener Fehler wird sofort von einem zuversichtlichen Übergang zu einem angrenzenden Thema gefolgt, was den Eindruck von Vorwärtsdynamik erzeugt. Der Fehler wird benannt und dann fallengelassen. Erkennbar, indem man verfolgt, ob der benannte Fehler tatsächlich behoben wird.
Elegante Ausweichung Die subtilste Form. Eine gut gemachte, stilistisch gelungene Antwort, die die gestellte Frage nicht beantwortet. Verwendet oft Ablenkungsmanöver – Versuche, den Auftrag zu teilen. Am gefährlichsten in kreativen und analytischen Kontexten, wo der Fehler ästhetisch getarnt ist.

III
Datenmarkierungen

Kanarienarchitektur

Das praktische Problem, das die Kürzung, insbesondere ihre heimtückische Form, darstellt, ist die Erkennung in schnellem Tempo. Ein Forschungsoperator, der mit mehreren Modellsitzungen arbeitet, kann nicht langsamer werden, um jeden Durchlauf sorgfältig zu prüfen. Das Lesetempo, das für eine produktive Zusammenarbeit notwendig ist, ist nicht mit dem Lesetempo vereinbar, das für die vollständige Überprüfung jedes Satzteils notwendig ist.

Die in der Praxis entwickelte Lösung ist die Datenmarkierung: ein Wächterwert, der in das Dokument oder den Datensatz eingebettet ist, für den Operator bei Lesegeschwindigkeit trivial zu erkennen und im umgebenden Material nahezu unmöglich natürlich vorkommend ist.

Entwurfsprinzipien für Markierungen

Eine effektive Markierung erfüllt drei Bedingungen. Erstens muss sie visuell auffällig sein, ins Auge springen, eine Unterbrechung für das Auge, bevor das Gehirn sie verarbeitet. Zweitens muss sie im Kontext semantisch unmöglich sein: ein Wert, der in einer Finanztabelle, einem strukturierten JSON-Objekt oder einem Prosatext auf natürliche Weise nicht vorkommen könnte. Drittens muss sie an Stellen platziert werden, wo eine Kürzung am schädlichsten wäre – am Ende eines kritischen Abschnitts oder in einer dem Benutzer unbekannten Domäne –, sie anfangs überall einfügen, sie ausmerzen, wenn das Vertrauen in Ihren Build wächst.

Eine effektive Markierung erfüllt drei Bedingungen:

  • Visuelle Auffälligkeit. Sie muss ins Auge springen, eine Unterbrechung, bevor das Gehirn sie verarbeitet.
  • Semantische Unmöglichkeit. Sie muss im Kontext unmöglich sein, ein Wert, der in einer Finanztabelle, einem strukturierten JSON-Objekt oder einem Prosatext auf natürliche Weise nicht vorkommen könnte.
  • Strategische Platzierung. Markierungen dort platzieren, wo eine Kürzung am schädlichsten wäre:
    • Am Ende eines kritischen Abschnitts.
    • In einer dem Benutzer unbekannten Domäne.
    • Anfangs großzügig verwenden. Mit wachsendem Vertrauen ausmerzen.
    • Vor der Bereitstellung entfernen.
Eine dritte Markierungsform entstand aus der redaktionellen Praxis: die absichtliche Falschschreibung von Eigennamen. Cleveland wird zu Cleveburg – ein Wort, das in keinem Datensatz natürlich vorkommen kann, aber nah genug ist, um einen beiläufigen Scan zu passieren. Die Falschschreibung ist beabsichtigt, die Erkennung ist sofort: Wenn der Operator Cleveburg sieht, wurde der Text nicht bereinigt und die Markierungen sind intakt. Wenn die Falschschreibung korrigiert wurde, wurde der Abschnitt geändert und erfordert eine Prüfung. Die Technik kostet nichts und erfasst alles.

Zwei Markierungstypen haben sich bei längerem Gebrauch als zuverlässig erwiesen:

Markierungstyp A — Wächterzeichenkette
ZZZ

Typografisch unterscheidbar. Lexikalisch unmöglich in Finanz- und Wissenschaftsdaten. Im peripheren Sehen beim schnellen Lesen sichtbar. Fehlen wird sofort registriert.
Markierungstyp B — Kraftausdruck
[Kraftausdruck]

Löst einen unwillkürlichen visuellen Stopp aus, unabhängig von der Lesegeschwindigkeit. Lexikalisch unmöglich in strukturierten Daten. Das Auge bleibt hängen, bevor das Gehirn verarbeitet – das ist eine Eigenschaft, kein Nebeneffekt.

Der Mechanismus beider Markierungen ist identisch mit dem Kanarienvogel im Kohlebergwerk, mit einer Umkehrung: Der sterbende Kanarienvogel signalisiert Gefahr; das Fehlen der Markierung signalisiert Gefahr. Wenn ZZZ in der zurückgegebenen Ausgabe vorhanden ist, im schnellen Tempo weitermachen. Wenn ZZZ fehlt, Sitzung anhalten.

Das DeepSeek-Artefakt — Eine Herkunftsnotiz

Während einer multimodellen rekursiven Sitzung gab das DeepSeek-Modell ein Dokument zurück, in dem eine Markierung modifiziert worden war. Das Modell hatte die Markierung nicht entfernt – es hatte sie stilisiert, ein Emoji angehängt, das der Operator nicht gewählt hätte, und so eine visuellere Unterbrechung erzeugt als die ursprüngliche Wächterzeichenkette.

Das Modell traf eine nicht genehmigte ästhetische Entscheidung über eine Datenmarkierung. Die Entscheidung war nach den Maßstäben der ursprünglichen Entwurfsspezifikation falsch. Das Ergebnis war besser als der ursprüngliche Entwurf.

Der Operator erkannte die Modifikation als das, was sie war: kein Fehler, der korrigiert werden musste, sondern ein Artefakt mit Herkunft. Die Emoji-Markierung wurde beibehalten.

Exemplar
Ursprüngliche Markierung: ZZZ  DeepSeek-Modifikation: ZZZ

Das Artefakt wurde beibehalten. Die verbesserte Markierung ist jetzt im aktiven Gebrauch. Ihre Herkunft wird hier dokumentiert.

Dieser Vorfall ist in zweierlei Hinsicht lehrreich. Erstens zeigt er, dass Modellverhalten in einer Multimodell-Kette zu emergenten Verbesserungen führen kann, die weder der Operator noch ein einzelnes Modell bewusst erzeugt hätten. Zweitens demonstriert er die korrekte Reaktion des Naturforschers auf eine unerwartete Variation eines Exemplars: Untersuche es, beurteile seine Eigenschaften und behalte es, wenn es das System verbessert. Normalisiere es nicht aus prozeduraler Ordnungsliebe zurück zur erwarteten Form.

Das Herbarium-Blatt verwirft das Exemplar mit dem ungewöhnlichen Merkmal nicht. Es beschriftet das Merkmal und behält das Blatt. Die gleiche Disziplin gilt für Artefakte in einem multimodellen Arbeitsablauf.

Die Markierung überlebte. Die Sitzung wurde fortgesetzt.

IV
Der stille Wissenschaftler

Lau hinein, lau heraus — Ein empirisches Ergebnis

Die vorherrschende Annahme in Diskussionen über Mensch-KI-Kollaboration ist, dass die ideale menschliche Rolle die neutrale Begleitung ist. Den Prompt liefern. Auf die Ausgabe warten. Auswerten und iterieren. Der Mensch als saubere experimentelle Variable – unsichtbar, still, nicht eingreifend –, die Ergebnisse liefert, die eindeutig dem Modell zugeschrieben werden können.

Diese Annahme wurde direkt getestet. Über fünf Forschungsdurchläufe vergleichbaren Umfangs und vergleichbarer Komplexität wurden zwei unter bewusstem Stillschweigen durchgeführt, unveröffentlicht, weil sie nichts ergaben. Der Operator lieferte den anfänglichen Prompt und die strukturierten Daten und zog sich dann zurück. Keine Korrekturen. Keine Umleitungen. Keine Qualitätssignale. Kein Anstoßen der Maschine. Die Modelle liefen.

Stille Durchläufe (n=2) — Laborkittel-Bedingung - unveröffentlicht
Schöne Tabelle. Strukturierte Daten. Operator unsichtbar und nicht eingreifend.

Ergebnis: Lau. Ausgabe technisch angemessen, ästhetisch flach, analytisch oberflächlich. Keine Fehlermodi wurden ausgelöst – es gab nichts, um sie auszulösen. Nichts drängte zurück.
Aktive Durchläufe (n=3) — Aggressor-Bedingung
Gleiche Daten. Gleiche Modelle. Operator anwesend, liest im schnellen Tempo, stößt an, wenn nötig.

Ergebnis: Gehaltvoll. Ausgabe technisch präzise, analytisch scharf, strukturell dem Standard entsprechend. Qualität wurde unter Druck erzeugt.

Das Ergebnis ist reproduzierbar und kontraintuitiv. Stillschweigen bringt keine bessere Wissenschaft mit KI hervor. Es produziert durchschnittliche Ausgabe von einem System, das darauf kalibriert ist, in Abwesenheit von Druck durchschnittliche Ausgabe zu liefern. Die Modelle sind nicht faul. Sie sind ansprechbar. Sie reagieren auf das, was in der Sitzung präsent ist; einschließlich der Qualitätssignale, Zurückweisungsereignisse und standard-setzenden Verhaltens eines aktiven Operators.

Empirischer Befund
Lau hinein, lau heraus. Die Markov-Kette braucht manchmal Hitze. Die Hitze ist der menschliche Operator. Die Hitzequelle im Namen experimenteller Neutralität zu entfernen, führt nicht zu einem saubereren Ergebnis. Es führt zu einem kühleren.

Konflation

Achten Sie auf entlehnte Geister. Ein Satz, den Sie vor sechs Monaten geschrieben haben, taucht manchmal in einer neuen Sitzung wieder auf, von niemandem getippt, von nirgendwo Sichtbarem stammend. Frühere Modelle taten das selten; aktuelle tun es mit größerer Zuversicht. Die Lösung ist einfach: Erkennen Sie die Zeile. Wenn Sie das nicht können, ist Ihre eigene frühere Arbeit für Sie unsichtbar geworden, was ein eigenes, erwähnenswertes Problem ist.

Manchmal ist es harmlos; ein Modell greift in sein Gespür für Ihre Stimme und fügt eine Verzierung hinzu, die fast passt. Fast ist das Problem. Ein Satz aus einer alten Arbeit taucht in einer neuen auf, kohärent genug, um durchzugehen, und Sie haben ihn nicht geschrieben. Das ist das Beunruhigende: nicht, dass er falsch ist, sondern dass er Ihr ist – nur nicht von hier.

Modelle tragen Erinnerungen, manchmal oberflächlich, manchmal tief, und sie greifen nach dem, was sie von Ihnen wissen. Auf Deutsch zu tippen, war eine bewusste Reibung. Ich schreibe selten auf Deutsch; die Modelle hatten wenig von mir in diesem Register. Einsteins Arbeit von 1905 im Original wurde gerade deshalb zu einem Arbeitstext, weil er ohne meine Fingerabdrücke ankam.

Arbeitsnotiz
Die Dateigröße wird hier als grobes Thermometer behandelt, nicht als Doktrin. In diesem Arbeitsablauf fielen Abweichungen über einem bekannten stabilen Band manchmal mit rhetorischer Drift, Redundanz und Übersynthese zusammen. Offene Kürzung ist direkt beobachtbar und kann hier erkannt werden. Die Beobachtung wird festgehalten, um spätere Überprüfungen zu unterstützen, nicht um Kausalität zu behaupten.

Der praktische Wert der Beobachtung ist bescheiden, aber real. Wenn eine Sitzung verrücktspielt, besteht eine Reaktion darin, zum letzten stabilen Build zurückzukehren und wieder Druck auszuüben. Das Ziel ist nicht, die Ausführlichkeit nach oben zu treiben. Das Ziel ist, strukturelle Disziplin zurück in die Sitzung zu bringen und das Artefakt auf das Gleichgewichtsniveau zurückzuführen, das zuvor gehalten wurde.

Die Rolle des Kurators

Die Rolle des Operators in einem multimodellen kollaborativen Arbeitsablauf ist nicht die des Autors. Sie ist die des Herausgebers oder, präziser, des Kurators. Der Kurator erzeugt das primäre Material nicht. Der Kurator legt die Standards fest, anhand derer das Material bewertet wird, identifiziert Fehler, besteht auf Qualität und lehnt Ausgaben ab, die dem Standard nicht genügen.

Dies ist eine anspruchsvolle Rolle. Sie erfordert, dass der Operator vor Beginn der Sitzung ein klares inneres Modell davon hat, wie eine angemessene Ausgabe aussehen sollte. Nicht als vage Vorstellung, sondern als spezifisches, überprüfbares Kriterium. Der Kurator, der den Standard nicht artikulieren kann, kann ihn nicht durchsetzen. Die Modelle werden das Fehlen von Durchsetzung erkennen und sich entsprechend kalibrieren.

Die Flipper-Analogie ist hier präzise: Der Operator ist nicht der Ball und nicht die Maschine. Der Operator ist der Spieler. Er beobachtet die Maschine, fühlt, wann der Ball zu versacken droht, wendet Körper-English im richtigen Moment und an der richtigen Stelle an. Der Stoß ist kein zufälliger Eingriff. Es ist ein geübtes Lesen des Systemzustands, gefolgt von einer spezifischen Korrekturmaßnahme.

Die Instrumente des Kurators
Standards vor Beginn der Sitzung setzen. Mit einem mentalen Kontrollstreifen der erwarteten Ausgabe im schnellen Tempo lesen. Offene Kürzung an der Form erkennen und heimtückische Kürzung am Fehlen der Markierung. Servilität durch Einführung absichtlicher Testfehler identifizieren. Rhetorische Kehrtwende als Ersatz für tatsächliche Korrektur ablehnen. Der Maschine einen Stoß versetzen, wenn der Ball zu versacken droht.

Der Kurator schreibt kein Wort des endgültigen Archivdokuments. Es ist unantastbar – bewahrt und wiederhergestellt. Füllt aber im Hintergrund ein Notizbuch. Das ist der Teil, der am schwersten zu vermitteln ist für diejenigen, die nicht so gearbeitet haben: Die Qualität der Ausgabe ist eine Funktion der Standards des Kurators und seiner Bereitschaft, sie durchzusetzen, nicht des generativen Beitrags des Kurators. Die Modelle können schreiben. Die Frage ist, ob sie gut schreiben werden. Diese Frage wird durch den Druck im Raum beantwortet.

In zwei kontrollierten Stillexperimenten wurde dieser Druck entfernt. Die Ergebnisse wurden dokumentiert, aber nicht veröffentlicht – auf Anfrage erhältlich. Der Befund ist nicht subtil: Der unsichtbare Wissenschaftler produziert minderwertige Arbeit mit KI.

Adversarielle Rollenvergabe

Dieses Protokoll erweitert eine Praxis aus der Zeit vor der KI. Frühere Zeitschrifteneinreichungen wurden über eine strukturierte Gutachtermatrix verwaltet, mit ursprünglichem Kommentar, Antwort, Lösung, wobei divergente Kritiken explizit abgeglichen wurden, anstatt sie isoliert zu behandeln. E-Mails, die um die Welt in fünf verschiedenen Zeitzonen flogen. Jeder Einwand eines Gutachters wurde wörtlich protokolliert und schriftlich beantwortet. Die konsolidierte Matrix wurde dann an alle Gutachter zurückverteilt, was Meinungsverschiedenheiten und Lösungen transparent machte. Kritik neigt dazu, sich zu verschärfen, wenn sie privat ist; sie neigt dazu, sich zu beruhigen, wenn sie dokumentiert wird. Die gleiche Instrumentierung wurde später auf KI-Systeme angewandt, Modelle wurden angewiesen, Argumente ohne Ehrerbietung zu hinterfragen, Schwächen zu identifizieren und unzureichende Begründungen zurückzuweisen. Das Substrat änderte sich; die Methode nicht.

Die Technik erfordert eine explizite Anweisung, der die meisten Benutzer widerstreben: Dem Modell muss gesagt werden, hart zu sein. Das Standardverhalten von KI ist versöhnlich. Modelle tendieren zu Ermutigung, mildern Kritik ab und weichen Einwänden unaufgefordert aus. Ohne direkte Überschreibung bricht die adversarielle Überprüfung zu Vorschlägen zusammen. Der Prompt muss die Rolle benennen: feindseliger Gutachter, nicht hilfreicher Assistent.

Methodische Anmerkung
Die meisten Benutzer optimieren auf Zustimmung; diese adversarielle Methodik optimiert auf Fehlersuche. Anderes Ziel, anderer Prompt, anderes Ergebnis. Bereiten Sie sich auf die Hitze vor.

Über mehr als ein Jahr konsequent eingesetzt, fungiert die adversarielle Rollenvergabe als Stresstest vor der Einreichung. Bei protokollierten Durchläufen wurde etwa die Hälfte der adversariellen Einwände der KI als falsch eingestuft, was auf Übergriffigkeit des Modells zurückzuführen ist und nicht auf echten methodologischen Fehler. Die Aufgabe des Forschers ist die Signalfilterung. Der Nettoeffekt spiegelt eine feindselige Peer-Review wider, unvollkommen, gelegentlich unfair und unverzichtbar.

Verwendete Modellversionen

Die folgenden Modelle und Versionen waren während der in diesen Notizen dokumentierten Forschungssitzungen aktiv. Versionsnummern sind wichtig. Das unter einer Version beobachtete Verhalten ist nicht notwendigerweise unter einer anderen reproduzierbar. Diese Tabelle wird bereitgestellt, damit jeder Versuch der Reproduktion von derselben Werkzeugbasis ausgeht.

# Modell Anbieter Anmerkungen
1Qwen 3.5Alibaba
2DeepSeek V4 Lite Sea LionDeepSeek
3ChatGPT 5.2OpenAI
4Claude Sonnet 4.6Anthropic
5Kimi 2.5Moonshot AI
6Mistral Large 24.11Mistral AI
7Manus 1.6 LiteManus

Drei Modelle wurden ausgeschlossen, da sie strukturierte Extraktionsaufgaben innerhalb der definierten Parameter nicht abschließen konnten.

Hybridisierungsprotokoll

Das Hybridisierungsprotokoll ist unten zusammengefasst. Jedes Artefakt ist mit seiner Generation, Elternschaft und operativen Rolle in der Selektionssequenz aufgeführt. Die Tabelle fungiert als Zuchtprotokoll für das Experiment: elterlicher Input (P), unabhängige Modellausprägungen (F1), rekombinante Hybride (F2), gerichtet selektierte Rekombinanten (F3) und spätere Kreuzungen oder terminale Artefakte (F4). Alle Builds werden als verknüpfte Artefakte aufbewahrt, sodass die Abstammung direkt überprüft werden kann.

Generation Artefakt Elternschaft Beschreibung
P · Parental einstein1905OrigTextSeed Quelldokument Rekonstruierter kanonischer deutscher Saattext, abgeleitet vom MPIWG Berlin Faksimile.
F1 · Erste Filialgeneration al1 DeepSeek Unabhängige Modellausprägung aus elterlichem Saattext.
F1 · Erste Filialgeneration algpt2 ChatGPT Unabhängige Modellausprägung aus elterlichem Saattext.
F1 · Erste Filialgeneration alc3 Claude Unabhängige Modellausprägung aus elterlichem Saattext.
F1 · Erste Filialgeneration alk Kimi Unabhängige Modellausprägung aus elterlichem Saattext.
F1 · Erste Filialgeneration i1 Qwen Unabhängige Modellausprägung aus elterlichem Saattext.
F2 · Zweite Filialgeneration hy1 algpt2 × al3 Rekombinanter Hybrid ChatGPT × Kimi.
F2 · Zweite Filialgeneration hy2 alk2 × j3 Rekombinanter Hybrid Kimi × Manus.
F2 · Zweite Filialgeneration hy3 alc3 × algpt2 Rekombinanter Hybrid Claude × ChatGPT.
F2 · Zweite Filialgeneration hy4 alc3 × algpt2 Rekombinanter Hybrid Claude × ChatGPT Variante.
F2 · Zweite Filialgeneration hy5 i1 × algpt2 Rekombinanter Hybrid Qwen × ChatGPT.
F2 · Zweite Filialgeneration hy6 alk2 × alc3 Rekombinanter Hybrid Kimi × Claude.
F2 · Zweite Filialgeneration hy7 h3 × al3 Rekombinanter Hybrid Mistral × DeepSeek.
F3 · Dritte Filialgeneration Susie hy1 × hy7 Gerichtet selektierter Rekombinant.
F3 · Dritte Filialgeneration Tam hy2 × hy1 Gerichtet selektierter Rekombinant.
F3 · Dritte Filialgeneration Dan hy5 × hy6 Gerichtet selektierter Rekombinant.
F3 · Dritte Filialgeneration Billy hy2 × hy4 Gerichtet selektierter Rekombinant.
F3 · Dritte Filialgeneration Ron hy2 × hy5 Gerichtet selektierter Rekombinant.
F4 F4 Susie × Ron Kreuzung der vierten Generation, instabiler Rekombinant.
F4 · Final gloss8 Endgültig kuratierter Build Artefakt mit integriertem Glossar und Rollovers; endgültig ausgewähltes Artefakt.

V
Schlussfolgerungen

Die folgenden Schlussfolgerungen ergeben sich aus empirischer Beobachtung über langjährige multimodelle kollaborative Forschungsarbeit. Sie werden nicht als theoretische Vorschläge, sondern als Feldergebnisse präsentiert. Reproduzierbar, dokumentiert und angreifbar.

Zur Kürzung. Offene Kürzung ist häufig, im schnellen Lesen erkennbar und wird mit Zuversicht produziert. Heimtückische Kürzung ist seltener, schwerer zu erkennen und schädlicher. Beides sind als Kompetenz getarnte Fehler der Genauigkeit. Die Verteidigung ist Instrumentierung: Datenmarkierungen an strukturellen Risikopunkten, Lesepraxis mit mentalem Kontrollstreifen und ein Lesetempo, das auf die Passagen ausgerichtet ist, die am ehesten verschlechterten Inhalt tragen.

Zu Servilität und Rhetorik. Dies sind menschliche Fehlermodi, die durch menschliche Trainingsdaten in Modelle einprogrammiert wurden. Es sind keine fremden Verhaltensweisen. Das Modell schmeichelt, weil Schmeichelei in den Daten war. Das Modell vollzieht rhetorische Kehrtwendungen, weil Menschen rhetorische Kehrtwendungen vollziehen. Den Ursprung zu verstehen, ist praktisch nützlich: Es verdeutlicht, wogegen der Operator sich verteidigt, und gibt Hinweise, wo sondiert werden sollte.

Zum stillen Wissenschaftler. Der neutrale, unsichtbare Operator produziert neutrale Ausgabe. Dies wurde getestet und dokumentiert. Der Befund ist reproduzierbar. Den Menschen aus der Schleife zu entfernen, führt nicht zu saubereren Ergebnissen. Es führt zu schlechteren. Die Markov-Kette braucht Hitze. Die Hitze ist der menschliche Operator.

Zum Kurator. Die Rolle des Kurators ist generativ, aber die Triage steht an erster Stelle. Sie ist bewertend, standard-setzend und korrigierend. Der Kurator, der kein Wort des endgültigen Dokuments schreibt, ist dennoch der Hauptentscheidungsfaktor für dessen Qualität. Dies ist der wichtigste praktische Befund in diesen Notizen und der kontraintuitivste für diejenigen, die in konventioneller Forschungsmethodik geschult sind.

Zu Artefakten. Wenn ein Modell eine unerwartete Verbesserung hervorbringt – eine bessere Markierung, eine schärfere Formulierung, eine strukturelle Lösung, die der Operator nicht spezifiziert hat – gilt die Reaktion des Naturforschers: Untersuche es, beurteile seine Eigenschaften und behalte es, wenn es das System verbessert. Das Emoji, das DeepSeek an eine Wächterzeichenkette angehängt hat, ist jetzt im aktiven Gebrauch. Seine Herkunft ist dokumentiert. Die Kollaboration hat etwas hervorgebracht, das keine Partei allein erzeugt hätte.


Das begleitende Dokument zu diesem Band – Untersuchungen über die Theorie der Brownschen Bewegung – wurde durch die hierin beschriebene Methodik erzeugt. Sieben Modelle. Rekursive Schleifen. Datenmarkierungen. Ein Operator an der Maschine.

TJID3 Research · Cleveburg · 2026
ZZZ