快讯

id Software联合创始人：LLM可用作“近似无损”海量互联网档案的压缩装置

id Software联合创始人John Carmack指出，虽然业界普遍不鼓励大型语言模型照搬训练数据，但“用LLM近乎无损地压缩整个互联网档案级语料库”是一个极具吸引力的技术方向。他将当前流行的“完美压缩”竞赛（如Hutter Prize，仅针对1GB文本）与PB级数据压缩对比，提出：在规模和精度要求不同的条件下，AI驱动的压缩方法会呈现出完全不同的权衡。

Carmack的思路本质上是将大型语言模型视为“有损+可重建”的压缩引擎：模型在训练阶段已将原始文本转化为内部参数与上下文表征，理论上可用来重建接近原始内容的版本，但不再需要严格还原每一位字节。这种模式若在几十PB级的互联网存档上验证，将成为数据压缩与AI记忆之间的一次深度耦合。

来源：公开信息

ABAB AI 解读

Carmack的观点揭示了一条被广泛忽略的“AI压缩经济学”逻辑：在极端压缩与精确可逆之间，未来很可能会出现“高保真但可压缩”的中间层。对于互联网档案、新闻历史甚至代码仓库而言，存储成本与访问效率之间的平衡，未必需要严格“bit级重建”，而只需在可接受误差下重建内容语义与可读版本。

LLM在此场景下，可被看作“语义压缩核”——它将原始文本降维为可生成的模型参数与注意力结构，在解压端通过“重新生成”恢复内容，而非“硬性解压”。这与传统压缩算法（如gzip、LZMA）从“移除冗余字节”出发完全不同，它是从“语义重构”出发，更适合处理大规模、非结构化文本与文档集合。

在历史与知识结构维度，这一思路甚至暗示了一种“数字图书馆形态演进”：未来的档案存储系统可能不再依赖“完整文件存档”，而是依赖“模型+元数据+关键校验块”结构，用压缩空间换取检索与重建效率。Carmack的提示，不仅是对压缩竞赛的重新思考，更是对整个人类数字文明存储形态的底层追问。

来源

2026/04/15 23:02·

1 分钟阅读

·6 天前