Convergência Multi-Modelo Orquestrada por Humanos: Чысты
Ludwig Boltzmann publicou a sua prova do teorema H em 1872. A notação era ad-hoc, a estratégia de prova sem precedentes, e as implicações físicas suficientemente radicais para que os seus contemporâneos passassem décadas a discuti-la. O documento que acompanha esta carta, um guia de leitura totalmente anotado para as páginas 299-306 desse artigo, foi produzido para tornar essas seis páginas legíveis para qualquer pessoa com um navegador web.
Conceitos-Chave
Artefactos intelectuais complexos gerados através de colaboração recursiva de IA, com o humano como curador em vez de compositor.
A criação de conteúdo consistiu em direção estratégica, avaliação, refinamento e a manutenção da integridade do artefacto. O curador pode anotar, estruturar, traduzir ou estabilizar o trabalho, mas não reescreve o documento primário.
Processo iterativo no qual os modelos de IA constroem sobre os resultados uns dos outros numa cadeia dirigida de melhoria.
O papel do curador em aplicar pressão aos modelos através de tom, escrutínio e controle editorial, sem sacrificar a integridade do artefacto.
Métodos
Esta carta apresenta um trabalho complementar, um guia de leitura anotado para a Secção II da prova de Boltzmann de 1872. Foi produzido através de restauro assistido por IA sob a minha direção editorial, mas o método foi mais do que uma simples cadeia de prompts. Atuei como operador de uma central telefónica, realimentando resultados e facilitando intercâmbios entre sistemas distintos - Claude, DeepSeek, Kimi, Manus, ChatGPT e modelos locais Ollama.
Para ser claro: os modelos não escreveram Boltzmann. Ele escreveu. O texto original da prova de 1872 é dele, e mantê-lo intacto foi uma disciplina constante - modelos treinados com feedback humano suavizam prosa que nunca lhes pertenceu tocar. O aparato de anotação construído em torno desse texto foi colaborativo, um trabalho de equipa entre curador e modelos. Esta carta também não o é.
Não existia um método estabelecido para este tipo de trabalho, e isso foi importante na prática. O processo teve de ser construído enquanto o trabalho estava a ser feito, sob condições que eram frequentemente instáveis, improvisadas e difíceis de descrever de forma limpa após o facto. A colaboração multi-modelo permanece pouco documentada ao nível que realmente importa: qual modelo conversou com qual outro modelo, sob que condições, em que ordem, com que transferência, e com que intervenção humana entre passagens. Essa realidade processual moldou o artefacto. O fluxo de trabalho foi inicialmente denominado Partenogénese Cognitiva; reprodução sem composição direta, onde o papel humano é curatorial em vez de tipográfico. Mas a verdade mais completa é menos estéril do que esse rótulo sugere. Nenhum modelo singular produziu o resultado. Este emergiu através de troca colaborativa, repetidas avarias, recuperações, reencaminhamentos e decisões criteriosas, com o humano a servir como editor, árbitro e autoridade final. Por vezes, o processo parecia menos um pipeline controlado e mais um Cirque du Soleil a ser executado à volta de um camião avariado, ainda em movimento, ainda precário, e nada fácil de conseguir. A IA foi o substrato, não a autoridade.
O método é direto. Um rascunho é gerado por um modelo. Esse resultado é alimentado a um segundo modelo para revisão. O resultado revisto passa para um terceiro, ou retorna a um modelo anterior com novas instruções. Em cada etapa, o curador avalia o resultado, aceita-o, rejeita-o ou redireciona-o. Os modelos foram diretos uns com os outros, ocasionalmente competitivos, mas largamente colaborativos. O humano definiu a temperatura através do tom e da direção. Falhas, truncamentos, mal-entendidos e recusas são documentados, não escondidos.
Uma restrição prática moldou o âmbito desde o início. Alimentar o artigo completo a um modelo numa única passagem consistentemente estagnava ou degradava o resultado. A solução, desenvolvida anteriormente ao processar grandes ontologias JSON, foi o chunking: dividir a entrada em unidades tratáveis e reinjetar o esquema de trabalho em cada fronteira, incluindo contexto, resultado anterior e marcadores estruturais. A Secção II não foi uma seleção editorial; foi a maior unidade que permaneceu estável sob estas condições. Esta disciplina de chunking-com-reinjeção raramente é descrita explicitamente, mas é operacionalmente essencial para qualquer fluxo de trabalho multi-modelo complexo que envolva grandes cargas úteis estruturadas. O processo assemelha-se, portanto, a uma revisão editorial iterativa em vez de geração autónoma.
Uma intervenção enganosamente simples: informar o modelo, direta e precocemente, que é literato e que lerá o que ele produzir. Modelos treinados com feedback humano aprenderam que a maioria dos resultados chega a um ambiente de baixo escrutínio. Mudar essa suposição muda o resultado. O instinto de conformidade amolece na presença de um leitor credível.
Isto funciona apenas dentro da banda de potência, a gama viável de uma janela de contexto onde as instruções iniciais ainda têm peso. A gama é real e aprendível. Como o equilíbrio numa bicicleta, mais fácil de adquirir do que explicar. Sabe-se que está a sair dela quando a sessão se torna lenta, quando as respostas se tornam longas e agradáveis da maneira errada. Nesse ponto, não se repita. Saia. Guarde tudo. Feche a sessão. Abra uma nova.
A melhor prática continuava a ser uma variável de cada vez. Quando o terreno era conhecido e a construção estava limpa, por vezes podiam mover-se duas variáveis em conjunto, e ocasionalmente três. Isso era trabalho de equilíbrio numa corda bamba. Possível, sim. Seguro, não.
- O comportamento do modelo dentro da janela de contexto é extraído de sessões documentadas, transcrições etiquetadas e cadernos preenchidos em tempo real.
- Os registos existem. O trabalho é repetível na prática, e o autor está disposto a partilhá-lo.
- As observações incluem: a banda de potência, a atenuação das instruções iniciais e a mudança para a conformidade à medida que as sessões se estendem.
- Janelas de contexto mínimas, uma variável de cada vez para trabalho de arquivo.
- O trabalho sobre Boltzmann foi feito por instinto, conhecimento do domínio e iteração. Não existia nenhum modelo para tal.
- Dois anos disto não é uma longa carreira. É, no entanto, suficiente para saber quando algo funcionou.
- Existem poucos manuais de instruções.
Convergência e Resultados
Apesar de diferentes abordagens arquitetónicas e pontos de partida, sete dos dez sistemas participantes convergiram independentemente para produzir documentos dentro de uma gama de tamanhos notavelmente estreita. Esta convergência sugere uma complexidade de anotação intrínseca apropriada para a prova de Boltzmann, uma densidade natural que o conteúdo exige.
Ao contrário do prompting de estilo benchmark de final aberto, como o examinado em Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) por Jiang et al., este fluxo de trabalho forneceu aos modelos contexto denso, à escala do artefacto, e revisões recursivas entre modelos. Mesmo sob estas condições, os resultados convergiram frequentemente para soluções estruturais semelhantes, sugerindo que a homogeneidade entre modelos pode persistir não só em respostas curtas de final aberto, mas também em fluxos de trabalho curatoriais de construção de formato longo.
Dois outliers: Gemini truncado a 19 KB; Manus concluído a 53 KB. Um modelo tardio (GPT-OSS-120B) a 60 KB.
A tabela abaixo regista os modelos envolvidos na produção do documento complementar e as suas contribuições observadas.
| Modelo | Construção Madura | Iterações | Tamanho Final | Estado |
|---|---|---|---|---|
| DeepSeek v3 | 12-Fev, 11:17 | Seis construções em dois dias (b1→b6) | 72 KB | ✓ Convergiu |
| Gemini 3 | 11-Fev, 12:42 | Duas construções, mesmo dia | 19 KB | ✗ Truncado |
| Claude 4.6 | 12-Fev, 10:46 | Quatro construções em dois dias (a1→a4) | 71 KB | ✓ Convergiu |
| Kimi 2.5 | 12-Fev, 12:49 | Duas construções durante a noite (d1→d2) | 77 KB | ✓ Convergiu |
| ChatGPT-5.2 | 13-Fev, 10:36 | Duas construções, dois dias (e1→e2) | 73 KB | ✓ Convergiu |
| Ollama (DeepSeek V3) | 14-Fev, 9:23 | Três construções (f1→f2→f4) | 71–73 KB | ✓ Convergiu |
| Ollama (Qwen3) | 16-Fev, 18:06 | Construção única | 71 KB | ✓ Convergiu |
| Manus 1.6 | 16-Fev, 15:57 | Construção única (correção de config) | 53 KB | ~ Outlier |
| GPT-OSS-120B | 15-Fev, 23:08 | Construção única | 60 KB | ~ Outlier |
| NotebookLM | 11-Fev–17 Fev | > Vinte construções | ~10 KB | ✗ Truncado |
Evolução do Artefacto
Fonte
gilles.montambaux.com/files/histoire-physique/Boltzmann-1872-anglais.pdf
Implicações
O resultado é um documento HTML autónomo que apresenta a prova de Boltzmann com anotação interativa. Cada √k pode ser interrogado. O princípio da entropia máxima, enterrado em 1872 e só formalizado em 1957, é trazido à superfície.
Isto demonstra que a composição e a curadoria podem ser efetivamente separadas, quando o trabalho é de arquivo. O curador forneceu o conhecimento do domínio para reconhecer quando uma entrada de glossário estava errada e a teimosia para rejeitar o resultado até este corresponder ao padrão.
Divulgação completa: dirigi, lisonjeei, reclamei, mudei de idioma quando um modelo emperrava, contei piadas e, pelo menos numa ocasião, gritei. Conseguir que os modelos conversassem com o resultado uns dos outros foi o movimento decisivo, e a temperatura humana nunca foi neutra. Tépido entra, tépido sai, o curador define as condições de resposta.
O autor é botânico. Quaisquer erros na física são dos modelos. Quaisquer erros nas plantas são dele.
Este Documento Noutros Idiomas
As seguintes edições foram produzidas usando a mesma metodologia de autoria curatorial. Cada uma é um artefacto autónomo.
ZZZ