免费数据，万亿价值：Common Crawl如何喂养整个AI世界

Common Crawl 与其创始网络：开放网络基础设施如何成为 AI 时代的底座

研究边界与核心判断

先把“创始人们”说清楚：按 Common Crawl 官网口径，官方创始人只有 Gil Elbaz 一人；官方历史页和 2011 年官方回顾则显示，Carl Malamud 与 Nova Spivack 在 2008 年加入董事会，Ahad Rana 负责把最早的 crawler 与处理管线真正搭起来。因此，严格写法应当是：Gil Elbaz 是创始人，Nova Spivack / Carl Malamud 是最早期董事与制度共建者，Ahad Rana 是早期关键技术搭建者。

Common Crawl 不是普通意义上的“数据库公司”，更像互联网时代的公共基础设施。它是 2007 年成立的 501(c)(3) 非营利机构，自 2008 年持续留存开放网络抓取数据；截至 2026 年官网口径，累计档案规模超过 10 PiB，覆盖 15 年以上、3000 亿以上页面，并持续以月度节奏发布每期通常 20 亿以上网页的新抓取。数据由 Amazon Web Services 的 Open Data Sponsorship Program 托管并免费开放。

它真正从“技术圈公共品”变成“全球性关键基础设施”，是因为大模型。Mozilla Foundation 2024 年对 2019 年到 2023 年公开发布的 47 个文本生成 LLM 的研究显示，至少 64% 使用过经过过滤的 Common Crawl；OpenAI 的 GPT-3 论文也明确写到，其训练数据中的多数 token 来自过滤后的 Common Crawl。换句话说，Common Crawl 从“开放网络资料库”变成了“生成式 AI 的底层原材料市场”。

起源与时间线

早期时间线可以压缩成四次关键跃迁。2007 年立项，目标是让没有自建搜索引擎能力的研究者也能拿到 web-scale crawl；2008 年开始用自研的基于 Hadoop 的 crawler 抓数；2012 年上云并由 AWS 托管，同时获得由 blekko 捐赠的抓取元数据以改进覆盖质量与垃圾过滤；2013 年改用基于 Apache Nutch 的 CCBot，并从 ARC 切到更标准的 WARC。这一阶段，它完成了从“理念工程”到“可持续运转的数据工厂”的转换。

第二次跃迁发生在 AI 爆发前后。2019 年 Google 用单个 Common Crawl 快照清洗出 C4 训练 T5；2020 年 GPT-3 把 Common Crawl 推到聚光灯下；2023 年 Rich Skrenta 出任执行董事；2024 年组织加入 End of Term Web Archive；2025 到 2026 年又连续推出 Opt-Out Registry、Web Languages Project、CommonLID 等项目。它已经不只是“抓取网页”，而是在做规则、质量信号、注释体系和研究社区组织。

站在 2026 年回看，Common Crawl 的战略价值不在单次技术突破，而在持续性。它不是一次性数据集，而是稳定更新、可长期引用、能被下游反复清洗和重构的“开放网络底层层”。这类基础设施一旦形成路径依赖，价值会非常难替代，因为研究论文、派生语料、训练 pipeline、law/policy 讨论都会渐渐围着它长出来。

创始人与早期核心人物

Gil Elbaz 的公开家庭资料并不完整；准确出生日期、出生地、父母职业，公开资料有限。能确认的是，他在 Cincinnati 和 San Antonio 长大，小时候就对年鉴、天气数据和数字模式极度着迷；他自己回忆，父母“并不是数学家”，但他从小就想让家里人为自己出题、批改。这个细节很重要，因为它说明他后来做的几乎所有事——语义广告、开放数据、Common Crawl——底层都是同一种认知方式：把现实世界当作可被结构化、索引化、计算化的数据集合。

教育上，Gil 1991 年毕业于 California Institute of Technology，双修工程/应用科学与经济学。这个组合后来几乎成了他的职业模板：一边做很硬的基础技术，一边从市场结构和规模化价值去看问题。公开演讲与人物采访都显示，他在学校里并不把自己定位为学者型博士路线，而更像面向现实系统与大机会的技术广谱创业者。

工作与创业路径上，Gil 毕业后先在 IBM、Sybase、SGI 做工程/数据库相关工作；1998 年联合创办 Applied Semantics，2003 年被 Google 收购后进入 Google Santa Monica 任工程总监；2007 年又创办 Factual。Common Crawl 就是在这条连续创业链条中出现的非营利分支：Applied Semantics 证明了“语义理解+广告/检索”的商业价值，Factual 证明了“结构化开放数据”的商业价值，而 Common Crawl 则把同一套世界观推进到公共基础设施层。

这也解释了为什么 Common Crawl 不是 Gil 的偶发慈善项目，而是他职业哲学的制度外化。2011 年官方文章明确写到，他创办基金会的动机，是认为随着存储带宽下降、big data 处理门槛下降，建设一个面向所有人的开放 web crawl 仓库既“可行”，也“应该被做出来”。后来他又通过XPRIZE Foundation 董事、家族公益网络等方式继续投入这类“技术+公益基础设施”的事业。

Nova Spivack 的家庭与成长轨迹和 Gil 很不一样。公开资料显示，他成长于 Boston 一带的艺术与发明混合家庭：父亲是发明者/艺术家，母亲是诗人；他后来回忆，家里不鼓励看电视，却长期留出多个房间给做手工、绘画和发明。对 Nova 影响最大的，不只是技术本身，而是“技术、艺术、精神世界、未来主义可以放在一起思考”的成长环境。

教育和早年经历上，Nova 毕业于 Oberlin College。他在校时在计算机、艺术史、工作室艺术与心灵哲学之间来回切换，后来又去尼泊尔藏传佛教寺院长期停留；他自己说，那段经历让自己第一次真正获得了“方向感”和“目的感”。回到美国后，他先在信息过滤公司 Individual Inc. 工作，再与伙伴创办 EarthWeb，很早就进入互联网社区、开发者媒体和语义网络方向。放到 Common Crawl 框架里看，Nova 的价值更偏“愿景、语义网络视角、开放互联网意识形态”的共同塑造，而不是底层抓取工程执行。

Carl Malamud 在 Common Crawl 历史中的位置，更像“开放公共信息运动的制度盟友”，而不是技术创始人。官方 2011 年回顾明确写到，他在 2008 年加入董事会；他长期更核心的身份，则是 Public.Resource.Org 的创办者，曾推动 SEC EDGAR 等公共数据库上网、长期为公共法律与政府资料开放访问奔走。Carl 的家庭背景、童年、系统教育，公开资料有限；但仅从职业路径看，Gil 把他拉进董事会，等于给 Common Crawl 补上一层强烈的公共性、法理性与开放访问正当性。

早期技术实现里，最值得单独写的人其实不是董事，而是 Ahad Rana。官方 2011 年回顾明确写到，是他搭起了最早的 crawler 和 processing pipeline，并让组织在当时就能覆盖约 50 亿页面、同时提供 PageRank 与 link graph 这类可计算元数据。换句话说，Common Crawl 不是“先抓下来，后面再说”，而是从起步阶段就试图做成可分析、可计算、可复用的开放数据基础设施。

资产网络与商业逻辑

如果把 Common Crawl 当成一项“资产型机构工程”看，它最重要的真资产不是 logo，不是口号，而是四层东西：长期积累的 archive、稳定发布的 index、基于 CCBot 的抓取与优先级系统、以及 host/domain 级 Web Graph。官网写得很清楚：其原始数据以 WARC 保存，派生出 WAT/WET、CDXJ 与 columnar index，并用 Harmonic Centrality 与 PageRank 来影响抓取优先级。这些东西组合起来，构成了极少数机构才有能力长期维护的 web-scale data plant。

它的“品牌资产”则体现在三个层面。第一，免费开放与可复现，降低研究门槛。第二，持续更新，形成事实上的行业默认原料市场。第三，网络效应——研究者、开源社区、模型公司都在它之上做派生语料、清洗 pipeline 和 benchmark。官方 About 页写它已被 12,000+ 论文引用；官方统计文章则显示，Google Scholar 对 Common Crawl 的累计引用从 2012 年的 30 次上升到 2023 年的 1,777 次。

资本与收入结构上，Common Crawl 与普通数据库公司几乎相反：它没有典型股权融资故事，没有订阅式 SaaS，不靠向用户售卖 API；它本质上靠捐赠、赞助和基础设施托管活着。官方 About 页写明主要资金来自 Elbaz Family Foundation；官方 2025 年回应又说，过去十五年几乎一直主要靠该基金会，近年才开始收到少量 AI 公司捐赠。与此同时，AWS 通过 Open Data Sponsorship 承担关键托管角色，相当于把最重的一笔基础设施成本平台化了。

财务数据能看出它从“小而稳的公益工程”向“AI 时代基础设施机构”的升级速度。ProPublica 列出的 IRS 数据显示，2020 年收入只有 7.5 万美元；2021 年 33 万；2022 年 45.1 万；2023 年跃升到 129.8 万；2024 年进一步到 146.8 万，2024 年支出 132.7 万、净资产 147.3 万。也就是说，它依旧不大，但已经从志愿色彩很浓的小组织，长成了有专职执行董事、CTO、研究工程团队和法务配置的正式机构。

董事会与治理结构也发生了代际切换。2023 年税表里仍能看到 Nova Spivack、Gil Elbaz、Carl Malamud 作为无薪董事/高管；但截至 2026 年官网团队页，董事会已变成 Gil 任主席，Eva Ho 任董事，Michael Birnbach 任司库，Rich Skrenta 作为执行董事带团队运营。这个变化很关键：它说明 Common Crawl 正从“创始人驱动的理想主义项目”转向“有职业经理、研究团队、法务与合作网络的长期机构”。

合作网络方面，官网 collaborators 名单已经表明它不再只是一个“裸数据仓库”，而是站在开放 AI 与开放网络资料基础设施交叉点上的节点。合作/协作对象包括 Allen Institute for AI、Hugging Face、MLCommons、EleutherAI、Johns Hopkins University、International Internet Preservation Consortium 等。它依赖的不是传统 VC 资源网，而是“云平台 + 开源社区 + 研究机构 + 政策讨论场”的混合资源网络。

成果争议与现实位置

Common Crawl 最成功的地方，不是自己做出了某个明星终端产品，而是把“抓取整个开放网络”从大型搜索公司专属能力，变成了研究界、创业者和开源社区可以反复复用的公共资源。很多后来的数据集、语料清洗 pipeline 与训练语料工程都可以“站在一个已经抓好的互联网之上”再加工，而不必自己重复投入天价抓取成本。Mozilla 的评价很到位：它提升了训练数据可得性，增加了竞争，也提高了一部分可见性与透明度。

在 AI 具体成果上，它不是直接训练模型的一方，却几乎是所有人的上游。Google 用 Common Crawl 快照做出 C4 训练 T5；GPT-3 的多数 token 来自过滤后的 Common Crawl；官网还列出了 CCNet、OSCAR、Pile-CC、RefinedWeb、FineWeb、CommonLID 等派生体系。到这一步，Common Crawl 的现实地位已经非常像“原油市场”而不是“成品品牌”——真正赚大钱的是炼油厂，但整个体系离不开提供原料的那段管道。

另一个关键转折，是它开始主动修补自己过去被批评最多的短板。官方承认英文内容长期过度代表，于是 2024 年底启动 Web Languages Project；2026 年又与 MLCommons、EleutherAI、Johns Hopkins 等推出覆盖 109 种语言的 CommonLID。这里能看见身份变化：它不再只追求“规模”，开始追求“质量、分布、公平性、可注释性”。

但它的争议也非常集中，而且不是边角料。第一类争议是版权与删除请求。2024 年 Danish Rights Alliance 发起要求删除丹麦媒体内容，Wired 报道 Common Crawl 表示会配合；2025 年 The Atlantic 的调查则称，Common Crawl 档案中仍保留大量来自 The New York Times 等出版商的内容，并质疑其所谓删除进度和站内搜索结果准确性。Common Crawl 随即公开发文反驳，称自己没有“对出版商撒谎”，并强调移除历史档案在技术上很复杂。争议核心因此并不只是“有没有遵守 robots.txt”，而是“历史抓取、删除承诺、检索可见性，以及面向 AI 的再利用”之间的落差。

第二类争议是立场问题。Common Crawl 2025 年向英国版权与 AI 咨询提交意见时，公开支持为 text and data mining 设立更清晰的法律例外，并提出 “right to read should encompass the right to mine” 的原则；这使它在出版商和创作者眼里，不再只是中立仓库，而是 actively participating 的政策行为者。对支持开放数据的人来说，这是必要发声；对版权方来说，这意味着它已经从基础设施进入了规则塑造。

第三类争议是数据卫生与安全。2025 年研究者基于 2024 年 12 月的 Common Crawl 档案扫描出 11,908 个仍然有效的 API key 和密码。严格说，这不意味着 Common Crawl 主动泄密，但它说明“开放网络原样抓取 + 大规模再利用”会把公开页面里本就存在的配置错误放大成系统性风险。对把它当训练原料的人来说，这意味着后处理、去敏感、授权治理都不能外包给 Common Crawl 一个机构。

第四类批评是代表性与偏差。Mozilla 研究和 Stefan Baack 的 FAccT 论文都强调，Common Crawl 尽管规模巨大，却并不是整个互联网的中性镜像；抓取优先级、语言覆盖、过滤方法、以及谁有资源去再清洗它，都会把偏差继续传递给下游模型。Common Crawl 自己近两年也开始公开讨论这些问题，说明它已经意识到“只要开放就够了”的时代结束了。

截至 2026 年 4 月，Common Crawl 的现实位置可以用一句话概括：它不是最会赚钱的公司，也不是最显眼的 AI 产品，但它是连接开放网络、学术研究、开源数据清洗和大模型训练的一段关键中间层。官网列出的最新抓取已到 CC‑MAIN‑2026‑12；团队页显示它已有完整的工程、研究、法务和项目管理配置；它还在连续发布 Web Graph、crawl stats、CommonLID、examples browser 等衍生产品。它真正的历史位置，不在利润表，而在路径依赖——一旦大量研究、清洗 pipeline、模型训练语料、评测基准和政策争论都围绕它发生，它就从档案馆变成了制度性底座。未来外界评价它，不会主要看“抓得多不多”，而会看“治理是否可信、删除机制是否可信、语言与版权偏差是否被认真修补，以及它到底更像公共图书馆还是 AI 原料商”。