id Software联合创始人:LLM可用作“近似无损”海量互联网档案的压缩装置
id Software联合创始人John Carmack指出,虽然业界普遍不鼓励大型语言模型照搬训练数据,但“用LLM近乎无损地压缩整个互联网档案级语料库”是一个极具吸引力的技术方向。他将当前流行的“完美压缩”竞赛(如Hutter Prize,仅针对1GB文本)与PB级数据压缩对比,提出:在规模和精度要求不同的条件下,AI驱动的压缩方法会呈现出完全不同的权衡。
Carmack的思路本质上是将大型语言模型视为“有损+可重建”的压缩引擎:模型在训练阶段已将原始文本转化为内部参数与上下文表征,理论上可用来重建接近原始内容的版本,但不再需要严格还原每一位字节。这种模式若在几十PB级的互联网存档上验证,将成为数据压缩与AI记忆之间的一次深度耦合。
来源:公开信息
ABAB AI 解读
Carmack的观点揭示了一条被广泛忽略的“AI压缩经济学”逻辑:在极端压缩与精确可逆之间,未来很可能会出现“高保真但可压缩”的中间层。对于互联网档案、新闻历史甚至代码仓库而言,存储成本与访问效率之间的平衡,未必需要严格“bit级重建”,而只需在可接受误差下重建内容语义与可读版本。
LLM在此场景下,可被看作“语义压缩核”——它将原始文本降维为可生成的模型参数与注意力结构,在解压端通过“重新生成”恢复内容,而非“硬性解压”。这与传统压缩算法(如gzip、LZMA)从“移除冗余字节”出发完全不同,它是从“语义重构”出发,更适合处理大规模、非结构化文本与文档集合。
在历史与知识结构维度,这一思路甚至暗示了一种“数字图书馆形态演进”:未来的档案存储系统可能不再依赖“完整文件存档”,而是依赖“模型+元数据+关键校验块”结构,用压缩空间换取检索与重建效率。Carmack的提示,不仅是对压缩竞赛的重新思考,更是对整个人类数字文明存储形态的底层追问。