信件 · 方法论演示

人类协调的多模型收敛:Чысты

玻尔兹曼(1872)著作的读者指南,由合作AI模型在人类编辑指导下制作

路德维希·玻尔兹曼于1872年发表了他的H定理证明。其符号体系是特设的,证明策略前所未有,物理意义之深远足以让同时代的学者争论数十年。随附的文件,一份对该论文第299至306页的完整注释性读者指南,正是为了让这六页内容对任何有网络浏览器的人变得可读而制作。

核心概念

认知孤雌生殖

通过递归式AI协作产生的复杂智力产物,人类扮演的是策展人而非创作者的角色。

策展式作者身份

内容创作包括战略指导、评估、精炼以及维护产物的完整性。策展人可以注释、构建结构、翻译或稳定作品,但不会重写原始文档。

递归综合

一个迭代过程,其中AI模型在定向改进链中,基于彼此的输出来构建。

沉默的人类攻击者

策展人通过语气、严格审查和编辑控制向模型施加压力的角色,同时不损害产物的完整性。

• • •
最终产物
可交互式读者指南
Ollama · Qwen3 · 断奶而生

方法

这封信介绍的是一项配套成果,一份关于玻尔兹曼1872年证明第二部分(Section II)的带注释读者指南。它是在我的编辑指导下,通过AI协作辅助修复完成的,但其方法远不只是简单的提示链。我充当的是总机接线员的角色,将各轮结果回送,并促成不同系统之间的相互交流,包括Claude、DeepSeek、Kimi、Manus、ChatGPT,以及本地运行的Ollama模型。

需要说明的是,模型并没有撰写玻尔兹曼的著作,那是他本人写的。1872年证明的源文本属于他自己,始终保持其完整不变,是整个过程中必须严守的原则。经过人类反馈训练的模型往往会试图把原文打磨得更平滑,但那类散文本来就不是它们应当触碰的对象。围绕这份文本建立起来的注释机制是协作性的,属于策展人与模型之间的团队工作。而这封信并不属于这种协作产物。

对于这类工作,并不存在现成的方法,而这一点在实践中非常关键。整个过程必须一边推进,一边搭建起来,而当时的条件往往并不稳定,带有很强的即兴性,事后也很难准确、利落地说明清楚。多模型协作在真正关键的层面上,至今仍缺乏充分记录:哪个模型接续了哪个模型的输出,在什么条件下,按照怎样的顺序,保留了哪些上下文信息,以及在每一次传递之间,人又施加了怎样的干预。正是这种程序上的现实,塑造了最后的成品。

这一工作流程最初被称为“认知孤雌生殖”,指的是一种并不直接执笔、却能推动产出的生成方式,其中人的角色是策展性的,而不是书写性的。但若说得更完整一些,这个标签所对应的现实,并不像它听上去那样“无菌”。没有任何一个模型单独产出了最终结果。结果是通过协作性的交换、反复的崩溃与恢复、不断的改道,以及一连串判断与取舍中逐步涌现出来的,而人始终担任编辑、仲裁者和最终裁决者。有时,这个过程与其说像一条受控的流水线,不如说更像一场围着一辆抛锚卡车勉强继续上演的马戏表演,仍在移动,仍然摇摇欲坠,也绝不容易完成。AI是其中的媒介,不是权威。

这种方法很直接。先由一个模型生成草稿,再将其交给第二个模型修订。修订后的结果会传给第三个模型,或者在附加新指令后返回先前的模型。在每一个阶段,策展人都要评估结果,决定是接受、拒绝,还是将其重新导向。模型之间彼此承接,偶尔带有竞争意味,但总体上仍是协作性的。人类通过语气和方向来设定“温度”。失败、截断、误解和拒绝都会被记录下来,而不是被掩盖。

从一开始,一个现实限制就决定了这项工作的边界。每次试图将整篇论文一次性输入模型,结果都会陷入停滞,或明显出现质量下滑。解决办法是在处理大型本体JSON时摸索出来的, 也就是分块处理。换句话说,就是把输入拆分为模型能够承受的单元,并在每个边界处重新注入工作状态,包括上下文、前序输出和结构标记。第二部分(Section II)并不是出于编辑上的偏好而被选中,而是在这些条件下仍能稳定维持的最大单元。

这种“分块加再注入”的规程很少被明确写出来,但对于任何涉及大型结构化负载的复杂多模型流程而言,它在实际操作中都是不可缺少的。正因如此,这个过程与其说是自主生成,不如说更像是一种反复迭代的编辑审查。

还有一个看似简单的干预办法:尽早而直接地让模型知道,你是一个有判断力、会认真阅读其产出内容的人。经过人类反馈训练的模型早已学会,大多数输出最终都会落入一个审查强度很低的环境。只要改变这一假设,输出也会随之改变。一旦面对的是一个可信且真正会阅读的读者,模型那种顺从性的本能就会有所减弱。

这一点只在“功率区间”内有效,也就是早期指令在上下文窗口中仍然能够发挥作用的那一段范围。这个区间是真实存在的,而且可以靠经验学会。它有点像骑自行车时的平衡感,真正掌握它,比把它解释清楚更容易。当对话开始变钝,回应开始变长,并以一种不对劲的方式显得格外顺从时,你就知道自己正在离开这个区间。到了这一步,不要重复自己。立刻退出。保存全部内容。关闭会话。重新开启一个新会话。

尽管架构方法和起点各不相同,但十个参与系统中有七个独立收敛,生成了文件大小相近的文档。这种收敛表明,对于玻尔兹曼的证明,存在一种内在的注释复杂性,而这种自然密度正是内容本身所要求的。

与 Jiang 等人在《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》(arXiv:2510.22954)中讨论的、以基准测试为导向的开放式提示不同,本工作流程为模型提供了密集的、产品规模的上下文,以及递归性的跨模型修订。即使在这些条件下,输出也常趋于相似的结构性解决方案,这表明模型间的同质性可能不仅存在于简短的开放式回应中,也可能延伸至长篇策展式构建流程。

收敛区间:7个模型均落在71–77 KB

两个离群值:Gemini 截断于 19 KB;Manus 完成于 53 KB。一个后期模型 (GPT-OSS-120B) 为 60 KB。

下表记录了参与制作配套文档的模型及其观察到的贡献。

各模型对配套文档的贡献
模型 成熟构建时间 迭代次数 最终大小 状态
DeepSeek v3 2月12日, 上午11:17 两天内六次构建 (b1→b6) 72 KB ✓ 已收敛
Gemini 3 2月11日, 下午12:42 同一天两次构建 19 KB ✗ 截断
Claude 4.6 2月12日, 上午10:46 两天内四次构建 (a1→a4) 71 KB ✓ 已收敛
Kimi 2.5 2月12日, 下午12:49 过夜两次构建 (d1→d2) 77 KB ✓ 已收敛
ChatGPT-5.2 2月13日, 上午10:36 两天内两次构建 (e1→e2) 73 KB ✓ 已收敛
Ollama (DeepSeek V3) 2月14日, 上午9:23 三次构建 (f1→f2→f4) 71–73 KB ✓ 已收敛
Ollama (Qwen3) 2月16日, 下午6:06 单次构建 71 KB ✓ 已收敛
Manus 1.6 2月16日, 下午3:57 单次构建 (配置修复) 53 KB ~ 离群值
GPT-OSS-120B 2月15日, 下午11:08 单次构建 60 KB ~ 离群值
NotebookLM 2月11日–2月17日 > 二十次构建 ~10 KB ✗ 截断

产物的演变

来源

• • •

启示

其结果是一个独立的HTML文档,以交互式注释的方式呈现玻尔兹曼的证明。每一个√k都可以被询问。埋藏在1872年、直到1957年才被形式化的最大熵原理,在这里被呈现出来。

这表明,当处理档案性工作时,创作和策展可以有效地分离开来。策展人提供领域知识,以识别术语表条目的错误,并保持固执,拒绝输出,直到其符合标准。

完全坦白:指导、奉承、抱怨、在模型卡顿时切换语言、讲笑话,并且至少有一次大喊大叫。让模型们就彼此的输出来进行对话是关键的一步,而人类的“温度”从来都不是中性的。不冷不热的输入,导致不冷不热的输出——策展人设定了回应的条件。

作者是植物学家。物理学上的任何错误都是模型造成的。植物学上的任何错误才是他的。

Timothy M. Jones, Ph.D. TJID3 Research · 克利夫堡, 俄亥俄州
• • •

本文档的其他语言版本

以下版本采用相同的策展式作者方法论制作。每个都是独立的产物。

TJID3 Research · 克利夫堡 · 2026
ZZZ
断奶而生 · 认知孤雌生殖已证明