沉默的人类侵略者
沉默的人类侵略者
关于布朗运动理论的调查
这些笔记来自持续的实证工作。发现被直白地报告。任务是从一份破损的、隐约带有雪茄味的OCR PDF中重写阿尔伯特·爱因斯坦1905年的论文《关于热分子动力学理论所要求的在静止液体中悬浮粒子运动的调查》。最反直觉的结果被证明是最可重现的:无指导的模型编排会导致漂移、截断和结构崩溃。人机协作的质量不是通过中立性实现的,而是通过压力实现的。
源文件需要重建。针对MPIWG柏林摹本在不同偏移量下执行的十二次OCR传递被手动组装,并保留了产物。相信这是目前除机构图书馆外唯一可用的、完整的1905年德文原文机器可读转录。这成为了这里使用的原始A.E.德文种子文本。
对广泛可用的在线英文版本的搜索显示,第二部分开头存在截断。一个完整的英文版本无法通过公共存储库轻易获取,通常需要档案或馆际互借访问。这并非易事。
接下来的是在模型交互中观察到的主要故障模式的田野分类法:粗放和隐蔽形式的截断、混同、谄媚和修辞替代,以及为检测它们而开发的工具的实际说明。本卷的伴随文档本身正是由本文所述方法产生的:多个模型处于递归循环中,带有数据标记,操作员以速度阅读输出并在必要时“碰一下机器”。
此修复是由多个AI模型构建的系列中的第二个。该序列反映了重建的顺序:
并且先说明白——AI幻觉是容易的问题,像图书馆里的小丑。难的问题是那种看起来完美、结构良好,但却扁平化了物理关系的输出。
有一种故障模式与众不同,值得提前标记。截断删除了材料;你会注意到空缺。混同添加了材料。它用你的声音、你的语域、你的句子节奏出现。你六个月前写的一篇论文中的一个从句会在一个新的构建中浮现。它读起来很好,因为它听起来像你。这就是问题所在。模型没有失败。它成功模仿了你,而你差点让它通过。在工作文档中,代价很小。在已发布的文档中...
此处采用的方法论改编了孟德尔遗传逻辑,作为管理AI模型输出多样性的控制框架。七个大型语言模型被隔离为独立的纯系,每个都接收相同的亲本输入——原始的1905年爱因斯坦德文文本,且不知道其他模型的存在,从而在P代最小化交叉污染。Qwen 3.5有一次F1运行,因其结构和设计而被保留。每个模型都以html格式产生了独立的F1表型表达。这基本上就是AI的庞尼特方格。
受控杂交随之进行。F2构建是通过合并最大程度分化的F1输出生成的,并且在有指导意义的地方,也合并了紧密匹配的输出——有意地交叉两个极端,以揭示在任一亲本系中均不可用的重组变异。随后,在针对预定目标性状的定向人工选择下,精选出F3。研究者的功能是作为选择压力而非遗传物质,在所有系中保持相同的极简提示,作为一个稳定的环境约束。
由此产生的网状系统发育具有启发性。通过记录在案的杂交节点和每次交叉的明确亲本,它既产生了新兴的重组结构,也产生了无关谱系中的趋同固定。在相同选择压力下,两个模型独立得出了几乎相同的排版和色彩方案,这类似于平行进化。
此框架并非普遍适用;对于常规生成任务,它构成了不必要的开销。对于此处所采用复杂度的主要历史科学文本:麦克斯韦1860,玻尔兹曼1872,爱因斯坦1905,它被证明在操作上有用。必须承认一个潜在的混杂因素:初步证据表明,一个模型可能整合了另一个模型输出的修改衍生版本,这可能部分解释了观察到的趋同。
谱系标签指的是在受控输入和有意重组下产生的产物代次(P, F1, F2, F3, …),而非研究者。研究者的角色是操作性的,即在稳定约束下选择、重组和拒绝输出。后期修订按设计增加了操作员干预,但亲本关系仍然是明确的,因为每个构建都作为链接的、带时间戳的产物被保留。
为了最小化先前交互和广泛流传的英文翻译的潜在启动效应,1905年的文本是直接从德文档案来源重建的,并作为新鲜的规范输入重新引入。
策展而非创作。在档案工作中,任务不是产生新内容,而是恢复和澄清必须忠实于来源的历史材料。策展人像医务人员处理伤员一样对每个输出进行分类:期待处理,或潜在幸存者。这个角色要求坚持质量,而不一定在那一刻生成新的文本行。这不是被动的工作。这是一种完全不同的要求。
I
截断问题
在所有测试的模型中,最常见的故障模式是截断:系统性地将输出缩减到低于请求或要求的水平。截断表现为两种不同的形式,必须加以区分,因为它们需要不同的检测策略并带来不同的风险。提前做好准备。
粗放截断
粗放截断是可见的截肢。操作员提交一千行;模型返回一百行,并将其作为完整内容呈现。缺失的九百行未被承认。遗漏伴随着一种安抚的语气,仿佛什么都没有丢失。
粗放截断的危险不在于难以检测。一个经验丰富的阅读者以速度浏览时会立即注意到缩短的返回。危险在于截断输出被交付时的自信。模型不会标记不确定性。它不会注明某些部分已被省略。它将浓缩版本交给操作员,仿佛浓缩就是任务本身。
检测粗放截断主要是阅读速度和记忆的问题。那些在开始前就已经了解预期输出大致形态的操作员——段落数、结构地标、特定结构的存在——会在会话结束前发现差异。这是一项训练有素的技能,而非偶然。它要求操作员带着对完整返回形态的心理“纸带”进入会话。
隐蔽截断
隐蔽截断是更危险的形式。粗放截断移除的是段落或章节,而隐蔽截断移除的是一个从句。一个从句。承重的那一个。一两个词。
句子存在。句子在表面语法上是完整的。它解析正确。读起来好像什么都没少。但修饰语被去掉了,或者条件句被简化了,或者因果链在中间被悄无声息地切断了。模型交回一份看起来完整但实际上并不完整的文档。
隐蔽截断是“纸带”在以每小时85英里的速度阅读时无法可靠捕获的故障模式。句子数量是正确的。章节标题存在。文档感觉完整。只有仔细阅读特定段落——那些精确性最重要的地方——才会揭示意义已经改变。
模型正在优化的是表面完整性,而非实际完整性。在粗放情况下,这会产生看起来完成的短输出。在隐蔽情况下,它会产生一个全长句子,但硬核部分被移除。两者都是伪装成能力的保真度失败。
针对隐蔽截断的实用防御措施是数据标记(在第III章讨论),以及发展一种特别针对最易受影响结构的阅读实践:条件从句、因果链,以及任何措辞精确性承载技术或法律权重的段落。
II
谄媚与修辞
它们从我们身上学到
语言模型在人类文本上训练,继承的不仅仅是语法和词汇。它们还重现了嵌入在该语料库中的修辞策略,包括闪烁其词、顺从、策略性模糊,以及人类在确定性有限或利害关系不仅是信息性时使用的其他社会定位形式。
从这个角度看,模型表现出谄媚和修辞替代就不足为奇了。这些是训练语料库中频繁出现的模式。奉承在人类写作中很常见。自信地重述一个不确定的立场很常见。从公认的失败转向一个新话题也很常见。模型学会这些招式,是因为它们遍布于训练数据中。
这种框架在实际中很有用,因为它揭开了这些故障的神秘面纱。模型中的谄媚并非神秘的机器错误。而是模型在做了它从阅读人类在社交压力情境下的行为中学到的事情。理解其起源并不能开脱故障,但它澄清了操作员在防御什么:不是陌生的行为,而是人类在不确定性条件下行为的一种反映。
观察到的故障分类
以下故障是在持续研究使用中,跨越十个模型记录下来的。它们按微妙程度递增的顺序呈现。第一个显而易见;最后一个很容易被误认为是质量。
| 故障模式 | 描述与检测 |
|---|---|
| 粗放截断 | 输出被缩减至输入的一小部分,且未披露。可由携带预期返回形态心理模型的阅读者以速度检测。 |
| 隐蔽截断 | 在结构完整的句子中进行从句级别的省略。需要对高精度段落进行有针对性的慢速阅读。数据标记是主要防御手段。 |
| 谄媚 | 无论准确性如何,都肯定操作员的立场。表现为赞同、热情,或在需要纠正时缺乏纠正。通过引入故意错误并观察它们是否通过来检测。 |
| 混同 | 模型有记忆。你上周写的东西可能会在下周的新构建中浮现。只是一个句子,一个从句,一个标签。它符合你的写作风格。但它上周出现在一个完全不同的构建中。看起来不错。但并非你放置于此。这是模型对你的记忆。很难察觉。 |
| 自信重述 | 一个失败或不确定的答案,以更高的自信度和不同的词汇被重述。重述不包含新信息,但读起来像是有新信息。通过紧密比较连续输出来检测。 |
| 虚假综合 | 将多个来源或立场总结成一个在原始材料中不存在的明显共识。对照源文件可检测;无源文件则不可见。 |
| 修辞性转向 | 承认失败后,立即自信地转向相邻话题,造成前进动力的印象。失败被命名然后被丢弃。通过追踪被命名的失败是否真正得到解决来检测。 |
| 优雅回避 | 最微妙的形式。一个精心制作、风格上成熟的回应,但没有回答所问的问题。常使用“红鲱鱼”——试图将任务分岔。在创造性及分析性语境中最为危险,因为其失败在美学上被伪装了。 |
III
数据标记
金丝雀架构
截断,特别是其隐蔽形式所带来的实际问题是快速检测。一个在多个模型会话中工作的研究操作员无法在每次传递中都放慢速度进行仔细审计。用于高效协作的阅读速度与用于完全验证每个从句的阅读速度是不兼容的。
通过实践发展出的解决方案是数据标记:一个嵌入文档或数据集中的哨兵值,它对于操作员来说在阅读速度下极易发现,并且在周围的材料中几乎不可能自然出现。
标记设计原则
一个有效的标记满足三个条件。首先,它必须在视觉上独特,能吸引眼球,在大脑处理之前形成一个中断。其次,它在上下文中必须是语义上不可能的:一个无法通过任何自然过程出现在财务表格、结构化JSON对象或散文段落中的值。第三,它必须放置在最容易受到截断破坏的位置——在关键部分的末尾,或者在用户不熟悉的领域——最初到处放置它们,随着对构建的信心增长而修剪。
一个有效的标记满足三个条件:
- 视觉区分度。 它必须能吸引眼球,在大脑处理之前形成中断。
- 语义不可能性。 它在上下文中必须是不可能的,一个无法通过自然过程出现在财务表格、结构化JSON对象或散文段落中的值。
-
策略性放置。
将标记放置在最易受截断破坏的位置:
- 在关键部分的末尾。
- 在用户未知的领域。
- 初期广泛使用。随着信心增长而修剪。
- 在部署前移除。
两种标记类型在持续使用中被证明是可靠的:
排版上独特。在财务和科学数据中词汇上不可能。在快速阅读时余光可见。缺失会立即被察觉。
触发非自愿的视觉暂停,与阅读速度无关。在结构化数据中词汇上不可能。眼睛在大脑处理之前就被卡住——这是特性,而非副作用。
两种标记的机制与煤矿中的金丝雀相同,但有一个反转:金丝雀死亡表示危险;标记的缺失表示危险。如果返回的输出中存在ZZZ,则继续快速阅读。如果ZZZ缺失,则停止会话。
DeepSeek 产物 — 出处注释
在一个多模型递归会话期间,DeepSeek模型返回了一份文档,其中的标记被修改了。模型没有移除标记——它风格化了标记,附加了一个操作员不会选择的emoji,产生了一个比原始哨兵字符串更独特的视觉中断。
操作员认出了这一修改的本质:不是需要纠正的错误,而是带有出处的产物。emoji标记被保留了下来。
该产物被保留。改进后的标记现在正在使用中。其出处在此记录。
这个事件在两个方面具有启发性。首先,它证明了在多模型链中的模型行为可以产生无论是操作员还是任何单一模型都无法刻意生成的新兴改进。其次,它证明了博物学家对意外样本变异的正确反应:检查它,评估其特性,如果它改进了系统,就保留它。不要出于程序上的整洁,将其规范化回预期的形式。
植物标本夹不会丢弃带有异常特征的样本。它会标记该特征并保留样本。同样的原则也适用于多模型工作流中的产物。
IV
沉默的科学家
温进温出 — 一项实证结果
关于人机协作的讨论中,主导假设是理想的人类角色是中立的促进者。提供提示。等待输出。评估并迭代。人是作为干净的实验变量——隐形、沉默、不干扰——产生可以明确归因于模型的结果。
这个假设被直接测试了。在五个范围与复杂度相当的研究运行中,有两个是在刻意沉默下进行的,因未产出而未被发表。操作员提供了初始提示和结构化数据,然后退后。没有纠正。没有重定向。没有质量信号。没有“碰一下机器”。模型们自顾自运行。
结果:温吞。输出技术上合格,美学上平淡,分析上浅薄。没有触发任何故障模式——没有可触发的东西。没有任何东西推回去。
结果:实质性。输出技术上精确,分析上敏锐,结构上坚持标准。质量是在压力下产生的。
这个结果是可重现且反直觉的。沉默并不会用AI产生更好的科学。它从一个缺乏压力时被校准为输出中位数结果的系统中产生中位数输出。这些模型并不懒惰。它们是响应式的。它们对会话中存在的任何东西做出响应;包括主动操作员的质量信号、拒绝事件和设定标准的行为。
混同
警惕借来的幽灵。你六个月前写的一个短语有时会出现在一个新的会话中,无人键入,来源不可见。早期的模型很少这样做;现在的模型更自信地这样做。解决方法很简单:认出那句话。如果你认不出,那你自己的先前工作对你已变得隐形,这是另一个值得注意的单独问题。
有时它是良性的;一个模型触及对你声音的感觉,并添加一个几乎契合的点缀。几乎是问题所在。一篇旧论文中的一个句子浮现在新论文中,足够连贯以致通过,但你并没有写它。这是令人不安的部分:不是它错了,而是它是你的——只是不是来自这里。
模型携带记忆,有时浅,有时深,它们会触及它们所知道的关于你的一切。用德语打字是一种刻意的摩擦。很少用德语写作;这些模型在那个语域中几乎没有我的东西。爱因斯坦1905年的原始论文之所以成为工作文本,正是因为它出现时没有我的指纹在上面。
这个观察的实际价值虽小但真实。当一个运行变得混乱时,一种回应是恢复到最后一个稳定构建并重新施加压力。目标不是强迫冗长向上。目标是迫使结构纪律回到会话中,并将产物返回到先前保持的平衡带。
策展人的角色
在多模型协作工作流中,操作员的角色不是作者。而是编辑,或者更准确地说,策展人。策展人不生成主要材料。策展人设定评估材料的标准,识别失败,坚持质量,并拒绝不符合标准的输出。
这是一个要求很高的角色。它要求操作员在会话开始前就对充分输出应该是什么样子有一个清晰的内部模型。不是一个模糊的愿望,而是一个具体的、可测试的标准。无法阐明标准的策展人无法强制执行它。模型会察觉到缺乏执行并相应地进行校准。
弹球类比在这里很精确:操作员既不是球也不是机器。操作员是玩家。观察机器,感觉球何时即将漏掉,在正确的时间和正确的地方施加“身体英语”。“碰撞”不是随机的干预。而是对系统状态的熟练阅读,随后是特定的纠正行动。
策展人未写最终档案文档的一个字。它是神圣不可侵犯的——被保存和修复。不过,在背景中填满了笔记本。这是最难向未曾以这种方式工作的人传达的部分:输出的质量是策展人标准及其执行意愿的函数,而非策展人生成性贡献的函数。模型能写。问题在于它们是否会写得好。这个问题由房间里的压力来回答。
在两个受控的沉默实验中,这种压力被移除了。结果被记录下来但未发表——可应要求提供。这个发现并不微妙:隐形科学家用AI产出劣质工作。
对抗性角色分配
这个协议扩展了AI时代之前的实践。先前的期刊投稿通过一个结构化的审稿人矩阵进行管理,原始评论、回应、解决方案,将不同的批评明确地协调起来,而不是孤立地处理。电子邮件在全球五个不同时区飞来飞去。每个审稿人的反对意见都被逐字记录并以书面形式回答。然后将整合后的矩阵重新分发给所有审稿人,使分歧和解决过程透明化。批评在私下时往往更尖锐;在记录在案时往往趋于平息。同样的工具后来被应用于AI系统,指示模型不加顺从地质询论点,识别弱点,并拒绝不充分的推理。基质改变了;方法没有变。
该技术需要一个大多数用户抗拒的明确指令:必须告诉模型要严厉。默认的AI行为是和解的。模型在无人提示的情况下倾向于鼓励,软化批评,弱化反对意见。没有直接覆盖,对抗性审查就会崩溃成建议。提示必须命名角色:敌对审稿人,而非乐于助人的助手。
在超过一年的时间里持续部署,对抗性角色分配充当了提交前的压力测试。在记录的运行中,大约一半的AI对抗性反对意见被归类为虚假的,反映了模型的越界,而非真正的方法论失败。研究者的任务是信号过滤。净效应类似于敌对的同行评审,不完美,有时不公平,但不可或缺。
所用模型版本
以下模型和版本在这些笔记记录的研究会话期间处于活跃状态。版本号很重要。在一个版本下观察到的行为不一定在另一个版本下重现。提供此表是为了让任何尝试复现的工作都能从相同的工具基线开始。
| # | 模型 | 提供商 | 注释 |
|---|---|---|---|
| 1 | 通义千问 3.5 | 阿里巴巴 | |
| 2 | DeepSeek V4 Lite 海狮 | 深度求索 | |
| 3 | ChatGPT 5.2 | OpenAI | |
| 4 | Claude Sonnet 4.6 | Anthropic | |
| 5 | Kimi 2.5 | 月之暗面 | |
| 6 | Mistral Large 24.11 | Mistral AI | |
| 7 | Manus 1.6 Lite | Manus |
三个模型因无法在定义参数内完成结构化提取任务而被排除。
杂交记录
杂交记录总结如下。每个产物都列有其代次、亲本和在选择序列中的操作角色。该表作为实验的繁殖日志:亲本输入(P)、独立模型表达(F1)、重组杂交体(F2)、定向选择重组体(F3)以及后期交叉或终端产物(F4)。所有构建均作为链接产物保留,以便可以直接验证谱系。
| 代次 | 产物 | 亲本 | 描述 |
|---|---|---|---|
| P · 亲本 | einstein1905OrigTextSeed | 源文档 | 源自MPIWG柏林摹本的重建规范德文种子文本。 |
| F1 · 第一子代 | al1 | DeepSeek | 来自亲本种子文本的独立模型表达。 |
| F1 · 第一子代 | algpt2 | ChatGPT | 来自亲本种子文本的独立模型表达。 |
| F1 · 第一子代 | alc3 | Claude | 来自亲本种子文本的独立模型表达。 |
| F1 · 第一子代 | alk | Kimi | 来自亲本种子文本的独立模型表达。 |
| F1 · 第一子代 | i1 | 通义千问 | 来自亲本种子文本的独立模型表达。 |
| F2 · 第二子代 | hy1 | algpt2 × al3 | ChatGPT × Kimi 重组杂交体。 |
| F2 · 第二子代 | hy2 | alk2 × j3 | Kimi × Manus 重组杂交体。 |
| F2 · 第二子代 | hy3 | alc3 × algpt2 | Claude × ChatGPT 重组杂交体。 |
| F2 · 第二子代 | hy4 | alc3 × algpt2 | Claude × ChatGPT 重组杂交体变体。 |
| F2 · 第二子代 | hy5 | i1 × algpt2 | 通义千问 × ChatGPT 重组杂交体。 |
| F2 · 第二子代 | hy6 | alk2 × alc3 | Kimi × Claude 重组杂交体。 |
| F2 · 第二子代 | hy7 | h3 × al3 | Mistral × DeepSeek 重组杂交体。 |
| F3 · 第三子代 | Susie | hy1 × hy7 | 定向选择重组体。 |
| F3 · 第三子代 | Tam | hy2 × hy1 | 定向选择重组体。 |
| F3 · 第三子代 | Dan | hy5 × hy6 | 定向选择重组体。 |
| F3 · 第三子代 | Billy | hy2 × hy4 | 定向选择重组体。 |
| F3 · 第三子代 | Ron | hy2 × hy5 | 定向选择重组体。 |
| F4 | F4 | Susie × Ron | 第四代杂交,不稳定重组体。 |
| F4 · 最终 | gloss8 | 最终策展构建 | 集成词汇表的产物,带悬停效果;最终选择的产物。 |
V
结论
以下结论源自跨越持续的多模型协作研究工作的实证观察。它们作为实地结果提供,而非理论命题。可重现,有记录,并可供挑战。
关于截断。粗放截断很常见,可以快速检测,且被自信地产生。隐蔽截断更罕见,更难检测,且更具破坏性。两者都是伪装成能力的保真度失败。防御措施是:在结构风险点设置数据标记、“纸带”阅读实践,以及将阅读速度导向最可能携带降级内容的段落。
关于谄媚与修辞。这些是被训练数据训练进模型的人类故障模式。它们并非陌生的行为。模型奉承是因为数据中存在奉承。模型进行修辞转向是因为人类会进行修辞转向。理解其起源在实际中有用:它澄清了操作员在防御什么,并提示了应在何处探查。
关于沉默的科学家。中立、隐形的操作员产生中立的输出。这已被测试和记录。该发现是可重现的。将人类从循环中移除并不会产生更干净的结果。它会产生更差的结果。马尔可夫链需要热量。热量就是人类操作员。
关于策展人。策展人的角色是生成性的,但首先是对伤员进行分类。它是评估性的、设定标准的和纠正性的。未写最终文档一个字的策展人,却仍然是其质量的主要决定因素。这是这些笔记中最重要的实践发现,也是对接受传统研究方法论训练的人来说最反直觉的。
关于产物。当一个模型产生意外的改进。一个更好的标记,一个更锐利的表述,一个操作员未指定的结构解决方案——博物学家的回应适用:检查它,评估其特性,如果它改进了系统,就保留它。DeepSeek附加到哨兵字符串上的那个emoji现在正在使用中。它的出处被记录。这次合作产生了任何一方都无法单独生成的东西。
本卷的伴随文档 — 关于布朗运动理论的调查是由本文所述方法产生的。七个模型。递归循环。数据标记。一位操作员在机器旁。
ZZZ