信件 · 方法论演示

人类协调的多模型收敛：Чысты

玻尔兹曼（1872）著作的读者指南，由合作AI模型在人类编辑指导下制作

Timothy M. Jones · TJID3 Research · 2026

路德维希·玻尔兹曼于1872年发表了他的H定理证明。其符号体系是特设的，证明策略前所未有，物理意义之深远足以让同时代的学者争论数十年。随附的文件，一份对该论文第299至306页的完整注释性读者指南，正是为了让这六页内容对任何有网络浏览器的人变得可读而制作。

核心概念

认知孤雌生殖

通过递归式AI协作产生的复杂智力产物，人类扮演的是策展人而非创作者的角色。

策展式作者身份

内容创作包括战略指导、评估、精炼以及维护产物的完整性。策展人可以注释、构建结构、翻译或稳定作品，但不会重写原始文档。

递归综合

一个迭代过程，其中AI模型在定向改进链中，基于彼此的输出来构建。

沉默的人类攻击者

策展人通过语气、严格审查和编辑控制向模型施加压力的角色，同时不损害产物的完整性。

• • •

最终产物

可交互式读者指南

Ollama · Qwen3 · 断奶而生

方法

这封信介绍的是一项配套成果，一份关于玻尔兹曼1872年证明第二部分（Section II）的带注释读者指南。它是在我的编辑指导下，通过AI协作辅助修复完成的，但其方法远不只是简单的提示链。我充当的是总机接线员的角色，将各轮结果回送，并促成不同系统之间的相互交流，包括Claude、DeepSeek、Kimi、Manus、ChatGPT，以及本地运行的Ollama模型。

需要说明的是，模型并没有撰写玻尔兹曼的著作，那是他本人写的。1872年证明的源文本属于他自己，始终保持其完整不变，是整个过程中必须严守的原则。经过人类反馈训练的模型往往会试图把原文打磨得更平滑，但那类散文本来就不是它们应当触碰的对象。围绕这份文本建立起来的注释机制是协作性的，属于策展人与模型之间的团队工作。而这封信并不属于这种协作产物。

对于这类工作，并不存在现成的方法，而这一点在实践中非常关键。整个过程必须一边推进，一边搭建起来，而当时的条件往往并不稳定，带有很强的即兴性，事后也很难准确、利落地说明清楚。多模型协作在真正关键的层面上，至今仍缺乏充分记录：哪个模型接续了哪个模型的输出，在什么条件下，按照怎样的顺序，保留了哪些上下文信息，以及在每一次传递之间，人又施加了怎样的干预。正是这种程序上的现实，塑造了最后的成品。

这一工作流程最初被称为“认知孤雌生殖”，指的是一种并不直接执笔、却能推动产出的生成方式，其中人的角色是策展性的，而不是书写性的。但若说得更完整一些，这个标签所对应的现实，并不像它听上去那样“无菌”。没有任何一个模型单独产出了最终结果。结果是通过协作性的交换、反复的崩溃与恢复、不断的改道，以及一连串判断与取舍中逐步涌现出来的，而人始终担任编辑、仲裁者和最终裁决者。有时，这个过程与其说像一条受控的流水线，不如说更像一场围着一辆抛锚卡车勉强继续上演的马戏表演，仍在移动，仍然摇摇欲坠，也绝不容易完成。AI是其中的媒介，不是权威。

这种方法很直接。先由一个模型生成草稿，再将其交给第二个模型修订。修订后的结果会传给第三个模型，或者在附加新指令后返回先前的模型。在每一个阶段，策展人都要评估结果，决定是接受、拒绝，还是将其重新导向。模型之间彼此承接，偶尔带有竞争意味，但总体上仍是协作性的。人类通过语气和方向来设定“温度”。失败、截断、误解和拒绝都会被记录下来，而不是被掩盖。

图1. 关键构建里程碑的时间序列。X轴表示从2月11日中午到2月16日晚间的时间进程。小点表示迭代构建，带有暖色边框的大圆圈表示收敛于71–77 KB区间的成熟构建。

从一开始，一个现实限制就决定了这项工作的边界。每次试图将整篇论文一次性输入模型，结果都会陷入停滞，或明显出现质量下滑。解决办法是在处理大型本体JSON时摸索出来的, 也就是分块处理。换句话说，就是把输入拆分为模型能够承受的单元，并在每个边界处重新注入工作状态，包括上下文、前序输出和结构标记。第二部分（Section II）并不是出于编辑上的偏好而被选中，而是在这些条件下仍能稳定维持的最大单元。

这种“分块加再注入”的规程很少被明确写出来，但对于任何涉及大型结构化负载的复杂多模型流程而言，它在实际操作中都是不可缺少的。正因如此，这个过程与其说是自主生成，不如说更像是一种反复迭代的编辑审查。

还有一个看似简单的干预办法：尽早而直接地让模型知道，你是一个有判断力、会认真阅读其产出内容的人。经过人类反馈训练的模型早已学会，大多数输出最终都会落入一个审查强度很低的环境。只要改变这一假设，输出也会随之改变。一旦面对的是一个可信且真正会阅读的读者，模型那种顺从性的本能就会有所减弱。

这一点只在“功率区间”内有效，也就是早期指令在上下文窗口中仍然能够发挥作用的那一段范围。这个区间是真实存在的，而且可以靠经验学会。它有点像骑自行车时的平衡感，真正掌握它，比把它解释清楚更容易。当对话开始变钝，回应开始变长，并以一种不对劲的方式显得格外顺从时，你就知道自己正在离开这个区间。到了这一步，不要重复自己。立刻退出。保存全部内容。关闭会话。重新开启一个新会话。

关于上下文窗口内模型行为的观察，均来自有记录的会话、带标签的转录文本，以及实时记录的笔记。
日志确实存在。这项工作在实践中具有可重复性，作者也愿意分享相关材料。
观察内容包括：功率区间、早期指令的衰减，以及随着会话延长而出现的顺从性变化。
对于档案类工作，应尽量压缩上下文窗口，并且一次只改变一个变量。
玻尔兹曼这一部分的工作，是在直觉、领域知识和反复迭代中完成的，没有现成模板可循。
两年的时间算不上漫长的职业生涯，但已经足以让人知道，某种方法什么时候确实有效。
现成的规则手册并不多。

尽管架构方法和起点各不相同，但十个参与系统中有七个独立收敛，生成了文件大小相近的文档。这种收敛表明，对于玻尔兹曼的证明，存在一种内在的注释复杂性，而这种自然密度正是内容本身所要求的。

与 Jiang 等人在《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》（arXiv:2510.22954）中讨论的、以基准测试为导向的开放式提示不同，本工作流程为模型提供了密集的、产品规模的上下文，以及递归性的跨模型修订。即使在这些条件下，输出也常趋于相似的结构性解决方案，这表明模型间的同质性可能不仅存在于简短的开放式回应中，也可能延伸至长篇策展式构建流程。

收敛区间：7个模型均落在71–77 KB

两个离群值：Gemini 截断于 19 KB；Manus 完成于 53 KB。一个后期模型 (GPT-OSS-120B) 为 60 KB。

图2. 所有构建的文件大小分布。X轴表示文件大小（千字节）。每条水平带代表一个模型系列；小的淡点显示早期迭代，带有暖色边框的大圆圈显示成熟构建。尽管架构和发展路径不同，七个模型独立地收敛到一个6千字节的范围内（71-77 KB）。两个离群值：Gemini截断于19 KB，Manus完成于53 KB。这个收敛区间表明，对于玻尔兹曼1872年的证明，存在一种内在的注释复杂性。图中仅显示了大小收敛图中的里程碑模型；截断的运行已在表格中记录，为保持图表清晰而未在图中显示。这种模式可能部分反映了分块和再注入策略的影响，而不仅仅是源文本本身。

下表记录了参与制作配套文档的模型及其观察到的贡献。

各模型对配套文档的贡献
模型	成熟构建时间	迭代次数	最终大小	状态
DeepSeek v3	2月12日, 上午11:17	两天内六次构建 (b1→b6)	72 KB	✓ 已收敛
Gemini 3	2月11日, 下午12:42	同一天两次构建	19 KB	✗ 截断
Claude 4.6	2月12日, 上午10:46	两天内四次构建 (a1→a4)	71 KB	✓ 已收敛
Kimi 2.5	2月12日, 下午12:49	过夜两次构建 (d1→d2)	77 KB	✓ 已收敛
ChatGPT-5.2	2月13日, 上午10:36	两天内两次构建 (e1→e2)	73 KB	✓ 已收敛
Ollama (DeepSeek V3)	2月14日, 上午9:23	三次构建 (f1→f2→f4)	71–73 KB	✓ 已收敛
Ollama (Qwen3)	2月16日, 下午6:06	单次构建	71 KB	✓ 已收敛
Manus 1.6	2月16日, 下午3:57	单次构建 (配置修复)	53 KB	~ 离群值
GPT-OSS-120B	2月15日, 下午11:08	单次构建	60 KB	~ 离群值
NotebookLM	2月11日–2月17日	> 二十次构建	~10 KB	✗ 截断