Чысты:人类协调的多模型收敛
路德维希·玻尔兹曼于1872年发表了他的H定理证明。其符号体系是特设的,证明策略前所未有,物理意义之深远足以让同时代的学者争论数十年。本文件旨在让任何有网络浏览器的人都能读懂该论文第299至306页的内容。
路德维希·玻尔兹曼是谁?
路德维希·玻尔兹曼是19世纪奥地利物理学家,他做了一件在他那个时代几乎无人愿意做的事:他将整个职业生涯押注于原子的真实性,彼时科学界大多认为原子充其量不过是一种有用的虚构。他推导出了统计力学,解释了分子层面上数十亿无形粒子的混沌运动如何产生我们在气体、热量、压力、熵中观察到的那种平滑可测的热力学行为,并将其编码在科学史上最优雅的方程之一S = k log W中——这道方程字字刻在他位于维也纳的墓碑上。
同僚们嘲笑他、辩论他至精疲力竭,数十年间拒绝接受他的理论框架。他一生饱受严重抑郁症的折磨,1906年,当妻子和女儿在附近游泳之际,他悬梁自尽——仅仅在原子论的实验证明到来、并为他的一切建树正名之前的几年。这个人是真正的硬汉:百折不挠,在数学上无所畏惧,在智识上孤立无援,却是正确的。历史追上他已是太晚,但终究追上了。
核心概念
玻尔兹曼1872年的证明:一个基于气体分子速度分布所定义的量 H,必须随时间减小或保持不变。这是首次从数学上证明不可逆性可以从可逆力学中涌现,也是使熵成为可计数之物的那篇论文。
刻在玻尔兹曼墓碑上的熵关系式。S 是熵,k 是玻尔兹曼常数(1.38×10−23 J K−1),W 是与给定宏观态对应的微观构型数目。对数保证了独立系统合并时,熵相加而不是相乘。
宏观态是温度计和压力计所见的:温度、压力、体积。微观态是每个粒子精确的位置和速度。玻尔兹曼的洞见:一个宏观态对应着天文数量级的微观态,而 W 就是这个数。高熵意味着通往此处的路径众多;低熵意味着路径寥寥。
给定温度下气体分子的平衡速度分布。玻尔兹曼继承了麦克斯韦1860年的推导,并将其扩展为完整的统计力学。图2右侧面板取自该分布:粒子分布在宽广的速度范围内,大多数聚集在均值附近,向高能端拖出一条长尾。
本信所记载的策展方法论:人类协调的多模型收敛,人类指挥递归、施加编辑约束、评估输出,并在相互作用的AI系统中保持产物的完整性。该名称来自白俄罗斯语中"纯粹"或"干净"之意:即使过程并不洁净,产物也必须洁净。
该方法论的早期称谓:无需直接创作的再生产,人类的角色是策展性而非书写性的。就其所及而言是准确的,但并不完整。没有任何一个模型单独生成了配套文档。完整图景是分布式交流、反复的崩溃与恢复,人类全程担任编辑、仲裁者和最终权威。
意外的发现:十个参与模型中有七个独立生成了71–77 KB范围内的配套文档,尽管架构各异、起始上下文不同,且彼此之间毫无协调。这一窄带暗示了玻尔兹曼证明所内在的注释密度——一种内容强加于任何认真尝试使之可读的工作的自然容量。
上下文窗口内的可行工作范围,在此范围内早期指令仍有分量,会话保持敏锐。随着窗口填满,顺从性漂移随之出现:回应变长,以错误的方式附和,清晰度消融于顺从。识别功率区间的边界、保存产物并重置会话,是Чысты方法论的核心操作规程。
方法
本方法论部分记录了玻尔兹曼1872年证明第二节带注释指南的构建过程。这不是一条简单的提示链。我在Claude、DeepSeek、Kimi、Manus、ChatGPT和本地Ollama模型之间充当总机接线员。一个系统的输出成为另一个系统的输入,再返回修正、压缩或扩展。我指挥递归、连接各部分,并保持原始产物的神圣不可侵犯。模型提供实现代码和草稿装置;源材料、领域知识、质量标准和最终判断始终属于我。
对于这类工作,并不存在现成的方法,而这一点在实践中非常关键。整个过程必须一边推进、一边搭建,当时的条件往往并不稳定,带有很强的即兴性,事后也很难准确、利落地说明清楚。多模型协作在真正关键的层面上至今仍缺乏充分记录:哪个模型接续了哪个模型的输出,在什么条件下,按照怎样的顺序,保留了哪些上下文信息,以及在每一次传递之间人又施加了怎样的干预。正是这种程序上的现实,塑造了最后的成品。这一工作流程最初被称为"认知孤雌生殖"——无需直接执笔却能推动产出,其中人的角色是策展性的而非书写性的。但若说得更完整一些,这个标签所对应的现实并不像它听上去那样"无菌"。没有任何一个模型单独产出了最终结果。结果是通过协作性的交换、反复的崩溃与恢复、不断的改道,以及一连串判断与取舍中逐步涌现出来的,而人始终担任编辑、仲裁者和最终裁决者。有时,这个过程与其说像一条受控的流水线,不如说更像一场围着一辆抛锚卡车勉强继续上演的马戏表演——仍在移动,仍然摇摇欲坠,也绝不容易完成。AI是其中的媒介,不是权威。
这种方法很直接。先由一个模型生成草稿,再将其交给第二个模型修订。修订后的结果会传给第三个模型,或者在附加新指令后返回先前的模型。在每一个阶段,策展人都要评估结果,决定是接受、拒绝,还是将其重新导向。模型之间彼此承接,偶尔带有竞争意味,但总体上仍是协作性的。人类通过语气和方向来设定"温度"。失败、截断、误解和拒绝都会被记录下来,而不是被掩盖。
从一开始,一个实际约束便决定了工作的边界。每次试图将整篇论文一次性输入模型,输出都会停滞或质量明显下滑。解决方案是在处理大型本体JSON时摸索出来的——分块处理:将输入拆分为模型可承受的单元,并在每个边界处重新注入工作状态,包括上下文、前序输出和结构标记。第二节并非基于编辑偏好的选择,而是在这些条件下仍能稳定维持的最大单元。这种"分块加再注入"的规程很少被明确写出来,但对于任何涉及大型结构化负载的复杂多模型流程,它在实际操作中都是不可或缺的。因此,这个过程与其说是自主生成,不如说更像是一种反复迭代的编辑审查。
还有一个看似简单的干预:尽早而直接地让模型知道,你是一个有判断力、会认真阅读其产出内容的人。明确将其陈述为事实。经过人类反馈训练的模型早已学会,大多数输出最终都会落入一个审查强度很低的环境。只要改变这一假设,输出也会随之改变。告诉它你会注意到。告诉它你记得源文本的形态。告诉它你以前读过这些。一旦面对的是一个可信且真正会阅读的读者,驱动截断和奉承的顺从本能便可以被部分地重新导向。
然而这一点只在"功率区间"内有效——即上下文窗口中早期指令仍能发挥作用、模型仍在关注你最初建立的条件的那段可行范围。这个区间是真实存在的,可以靠经验学会,但难以向尚未亲历其衰退的人描述清楚。就像骑自行车时的平衡感,真正掌握比解释清楚更容易:当会话开始变钝,当回应变得冗长、松散、以一种不对劲的方式格外顺从,当清晰度溶解为迁就,你就知道自己正在离开这个区间。到了这一步,干预已经失效。正确的做法不是重复自己。立刻退出。保存全部内容。重命名产物。关闭会话。打开一个新会话,从第一条消息起重新建立压力。
作者注明,上述关于上下文窗口内模型行为、功率区间、早期指令衰减以及随会话延长而出现的顺从性转移的观察,均来自跨多次会话和多个模型的广泛实践经验,尚未经过受控实验验证。模型在满杯时会变得更为奉承。这些观察作为正在建立形式化方法论之领域的实践者发现而提出。目前尚无规则手册可循。
收敛与结果
尽管架构方法和起点各不相同,十个参与系统中有七个独立收敛,生成了文件大小处于显著窄幅区间内的文档。这种收敛表明,对于玻尔兹曼的证明存在一种内在的注释复杂性,一种内容所要求的自然密度。
两个离群值:Gemini截断于19 KB;Manus完成于53 KB。一个后期模型(GPT-OSS-120B)为60 KB。
下表记录了参与制作配套文档的模型及其观察到的贡献。
| 模型 | 成熟构建时间 | 迭代次数 | 最终大小 | 状态 |
|---|---|---|---|---|
| DeepSeek v3 | 2月12日,上午11:17 | 两天内六次构建 (b1→b6) | 72 KB | ✓ 已收敛 |
| Gemini 3 | 2月11日,下午12:42 | 同一天两次构建 | 19 KB | ✗ 截断 |
| Claude 4.6 | 2月12日,上午10:46 | 两天内四次构建 (a1→a4) | 71 KB | ✓ 已收敛 |
| Kimi 2.5 | 2月12日,下午12:49 | 过夜两次构建 (d1→d2) | 77 KB | ✓ 已收敛 |
| ChatGPT-5.2 | 2月13日,上午10:36 | 两天内两次构建 (e1→e2) | 73 KB | ✓ 已收敛 |
| Ollama (DeepSeek V3) | 2月14日,上午9:23 | 三次构建 (f1→f2→f4) | 71–73 KB | ✓ 已收敛 |
| Ollama (Qwen3) | 2月16日,下午6:06 | 单次构建 | 71 KB | ✓ 已收敛 |
| Manus 1.6 | 2月16日,下午3:57 | 单次构建(配置修复) | 53 KB | ~ 离群值 |
| GPT-OSS-120B | 2月15日,下午11:08 | 单次构建 | 60 KB | ~ 离群值 |
| NotebookLM | 2月11日–2月17日 | > 二十次构建 | ~10 KB | ✗ 截断 |
产物的演变
来源
gilles.montambaux.com/files/histoire-physique/Boltzmann-1872-anglais.pdf
启示
其结果是一个独立的HTML文档,以交互式注释的方式呈现玻尔兹曼的证明。每一个√k都可以被追问。埋藏于1872年、直到1957年才被形式化的最大熵原理,在这里被呈现出来。
这表明创作和策展可以被有效地分离。策展人提供了领域知识以识别术语表条目的错误,以及拒绝输出直至其符合标准所需的执着。
完全坦白:我指导、奉承、抱怨,在模型卡顿时切换语言,讲笑话,并且至少有一次大喊大叫。让模型们就彼此的输出来进行对话是关键的一步,而人类的"温度"从来都不是中性的。不冷不热的输入,导致不冷不热的输出——策展人设定了回应的条件。
演示产物将六页证明呈现为可追问的浏览器对象。所有剩余的外部引用均可在不改变方法论的前提下内嵌处理。
作者是植物学家。物理学上的任何错误都是模型造成的。植物学上的任何错误才是他的。
本文档的其他语言版本
以下版本采用相同的策展式作者方法论制作。每个都是独立的产物。
ZZZ