免费数据,万亿价值:Common Crawl如何喂养整个AI世界
Common Crawl 与其创始网络:开放网络基础设施如何成为 AI 时代的底座
研究边界与核心判断
先把“创始人们”说清楚:按 Common Crawl 官网口径,官方创始人只有 Gil Elbaz 一人;官方历史页和 2011 年官方回顾则显示,Carl Malamud 与 Nova Spivack 在 2008 年加入董事会,Ahad Rana 负责把最早的 crawler 与处理管线真正搭起来。因此,严格写法应当是:Gil Elbaz 是创始人,Nova Spivack / Carl Malamud 是最早期董事与制度共建者,Ahad Rana 是早期关键技术搭建者。
Common Crawl 不是普通意义上的“数据库公司”,更像互联网时代的公共基础设施。它是 2007 年成立的 501(c)(3) 非营利机构,自 2008 年持续留存开放网络抓取数据;截至 2026 年官网口径,累计档案规模超过 10 PiB,覆盖 15 年以上、3000 亿以上页面,并持续以月度节奏发布每期通常 20 亿以上网页的新抓取。数据由 Amazon Web Services 的 Open Data Sponsorship Program 托管并免费开放。
它真正从“技术圈公共品”变成“全球性关键基础设施”,是因为大模型。Mozilla Foundation 2024 年对 2019 年到 2023 年公开发布的 47 个文本生成 LLM 的研究显示,至少 64% 使用过经过过滤的 Common Crawl;OpenAI 的 GPT-3 论文也明确写到,其训练数据中的多数 token 来自过滤后的 Common Crawl。换句话说,Common Crawl 从“开放网络资料库”变成了“生成式 AI 的底层原材料市场”。
起源与时间线
早期时间线可以压缩成四次关键跃迁。2007 年立项,目标是让没有自建搜索引擎能力的研究者也能拿到 web-scale crawl;2008 年开始用自研的基于 Hadoop 的 crawler 抓数;2012 年上云并由 AWS 托管,同时获得由 blekko 捐赠的抓取元数据以改进覆盖质量与垃圾过滤;2013 年改用基于 Apache Nutch 的 CCBot,并从 ARC 切到更标准的 WARC。这一阶段,它完成了从“理念工程”到“可持续运转的数据工厂”的转换。
第二次跃迁发生在 AI 爆发前后。2019 年 Google 用单个 Common Crawl 快照清洗出 C4 训练 T5;2020 年 GPT-3 把 Common Crawl 推到聚光灯下;2023 年 Rich Skrenta 出任执行董事;2024 年组织加入 End of Term Web Archive;2025 到 2026 年又连续推出 Opt-Out Registry、Web Languages Project、CommonLID 等项目。它已经不只是“抓取网页”,而是在做规则、质量信号、注释体系和研究社区组织。
站在 2026 年回看,Common Crawl 的战略价值不在单次技术突破,而在持续性。它不是一次性数据集,而是稳定更新、可长期引用、能被下游反复清洗和重构的“开放网络底层层”。这类基础设施一旦形成路径依赖,价值会非常难替代,因为研究论文、派生语料、训练 pipeline、law/policy 讨论都会渐渐围着它长出来。
创始人与早期核心人物
Gil Elbaz 的公开家庭资料并不完整;准确出生日期、出生地、父母职业,公开资料有限。能确认的是,他在 Cincinnati 和 San Antonio 长大,小时候就对年鉴、天气数据和数字模式极度着迷;他自己回忆,父母“并不是数学家”,但他从小就想让家里人为自己出题、批改。这个细节很重要,因为它说明他后来做的几乎所有事——语义广告、开放数据、Common Crawl——底层都是同一种认知方式:把现实世界当作可被结构化、索引化、计算化的数据集合。
教育上,Gil 1991 年毕业于 California Institute of Technology,双修工程/应用科学与经济学。这个组合后来几乎成了他的职业模板:一边做很硬的基础技术,一边从市场结构和规模化价值去看问题。公开演讲与人物采访都显示,他在学校里并不把自己定位为学者型博士路线,而更像面向现实系统与大机会的技术广谱创业者。
工作与创业路径上,Gil 毕业后先在 IBM、Sybase、SGI 做工程/数据库相关工作;1998 年联合创办 Applied Semantics,2003 年被 Google 收购后进入 Google Santa Monica 任工程总监;2007 年又创办 Factual。Common Crawl 就是在这条连续创业链条中出现的非营利分支:Applied Semantics 证明了“语义理解+广告/检索”的商业价值,Factual 证明了“结构化开放数据”的商业价值,而 Common Crawl 则把同一套世界观推进到公共基础设施层。
这也解释了为什么 Common Crawl 不是 Gil 的偶发慈善项目,而是他职业哲学的制度外化。2011 年官方文章明确写到,他创办基金会的动机,是认为随着存储带宽下降、big data 处理门槛下降,建设一个面向所有人的开放 web crawl 仓库既“可行”,也“应该被做出来”。后来他又通过XPRIZE Foundation 董事、家族公益网络等方式继续投入这类“技术+公益基础设施”的事业。
Nova Spivack 的家庭与成长轨迹和 Gil 很不一样。公开资料显示,他成长于 Boston 一带的艺术与发明混合家庭:父亲是发明者/艺术家,母亲是诗人;他后来回忆,家里不鼓励看电视,却长期留出多个房间给做手工、绘画和发明。对 Nova 影响最大的,不只是技术本身,而是“技术、艺术、精神世界、未来主义可以放在一起思考”的成长环境。
教育和早年经历上,Nova 毕业于 Oberlin College。他在校时在计算机、艺术史、工作室艺术与心灵哲学之间来回切换,后来又去尼泊尔藏传佛教寺院长期停留;他自己说,那段经历让自己第一次真正获得了“方向感”和“目的感”。回到美国后,他先在信息过滤公司 Individual Inc. 工作,再与伙伴创办 EarthWeb,很早就进入互联网社区、开发者媒体和语义网络方向。放到 Common Crawl 框架里看,Nova 的价值更偏“愿景、语义网络视角、开放互联网意识形态”的共同塑造,而不是底层抓取工程执行。
Carl Malamud 在 Common Crawl 历史中的位置,更像“开放公共信息运动的制度盟友”,而不是技术创始人。官方 2011 年回顾明确写到,他在 2008 年加入董事会;他长期更核心的身份,则是 Public.Resource.Org 的创办者,曾推动 SEC EDGAR 等公共数据库上网、长期为公共法律与政府资料开放访问奔走。Carl 的家庭背景、童年、系统教育,公开资料有限;但仅从职业路径看,Gil 把他拉进董事会,等于给 Common Crawl 补上一层强烈的公共性、法理性与开放访问正当性。
早期技术实现里,最值得单独写的人其实不是董事,而是 Ahad Rana。官方 2011 年回顾明确写到,是他搭起了最早的 crawler 和 processing pipeline,并让组织在当时就能覆盖约 50 亿页面、同时提供 PageRank 与 link graph 这类可计算元数据。换句话说,Common Crawl 不是“先抓下来,后面再说”,而是从起步阶段就试图做成可分析、可计算、可复用的开放数据基础设施。
资产网络与商业逻辑
如果把 Common Crawl 当成一项“资产型机构工程”看,它最重要的真资产不是 logo,不是口号,而是四层东西:长期积累的 archive、稳定发布的 index、基于 CCBot 的抓取与优先级系统、以及 host/domain 级 Web Graph。官网写得很清楚:其原始数据以 WARC 保存,派生出 WAT/WET、CDXJ 与 columnar index,并用 Harmonic Centrality 与 PageRank 来影响抓取优先级。这些东西组合起来,构成了极少数机构才有能力长期维护的 web-scale data plant。
它的“品牌资产”则体现在三个层面。第一,免费开放与可复现,降低研究门槛。第二,持续更新,形成事实上的行业默认原料市场。第三,网络效应——研究者、开源社区、模型公司都在它之上做派生语料、清洗 pipeline 和 benchmark。官方 About 页写它已被 12,000+ 论文引用;官方统计文章则显示,Google Scholar 对 Common Crawl 的累计引用从 2012 年的 30 次上升到 2023 年的 1,777 次。
资本与收入结构上,Common Crawl 与普通数据库公司几乎相反:它没有典型股权融资故事,没有订阅式 SaaS,不靠向用户售卖 API;它本质上靠捐赠、赞助和基础设施托管活着。官方 About 页写明主要资金来自 Elbaz Family Foundation;官方 2025 年回应又说,过去十五年几乎一直主要靠该基金会,近年才开始收到少量 AI 公司捐赠。与此同时,AWS 通过 Open Data Sponsorship 承担关键托管角色,相当于把最重的一笔基础设施成本平台化了。
财务数据能看出它从“小而稳的公益工程”向“AI 时代基础设施机构”的升级速度。ProPublica 列出的 IRS 数据显示,2020 年收入只有 7.5 万美元;2021 年 33 万;2022 年 45.1 万;2023 年跃升到 129.8 万;2024 年进一步到 146.8 万,2024 年支出 132.7 万、净资产 147.3 万。也就是说,它依旧不大,但已经从志愿色彩很浓的小组织,长成了有专职执行董事、CTO、研究工程团队和法务配置的正式机构。
董事会与治理结构也发生了代际切换。2023 年税表里仍能看到 Nova Spivack、Gil Elbaz、Carl Malamud 作为无薪董事/高管;但截至 2026 年官网团队页,董事会已变成 Gil 任主席,Eva Ho 任董事,Michael Birnbach 任司库,Rich Skrenta 作为执行董事带团队运营。这个变化很关键:它说明 Common Crawl 正从“创始人驱动的理想主义项目”转向“有职业经理、研究团队、法务与合作网络的长期机构”。
合作网络方面,官网 collaborators 名单已经表明它不再只是一个“裸数据仓库”,而是站在开放 AI 与开放网络资料基础设施交叉点上的节点。合作/协作对象包括 Allen Institute for AI、Hugging Face、MLCommons、EleutherAI、Johns Hopkins University、International Internet Preservation Consortium 等。它依赖的不是传统 VC 资源网,而是“云平台 + 开源社区 + 研究机构 + 政策讨论场”的混合资源网络。
成果争议与现实位置
Common Crawl 最成功的地方,不是自己做出了某个明星终端产品,而是把“抓取整个开放网络”从大型搜索公司专属能力,变成了研究界、创业者和开源社区可以反复复用的公共资源。很多后来的数据集、语料清洗 pipeline 与训练语料工程都可以“站在一个已经抓好的互联网之上”再加工,而不必自己重复投入天价抓取成本。Mozilla 的评价很到位:它提升了训练数据可得性,增加了竞争,也提高了一部分可见性与透明度。
在 AI 具体成果上,它不是直接训练模型的一方,却几乎是所有人的上游。Google 用 Common Crawl 快照做出 C4 训练 T5;GPT-3 的多数 token 来自过滤后的 Common Crawl;官网还列出了 CCNet、OSCAR、Pile-CC、RefinedWeb、FineWeb、CommonLID 等派生体系。到这一步,Common Crawl 的现实地位已经非常像“原油市场”而不是“成品品牌”——真正赚大钱的是炼油厂,但整个体系离不开提供原料的那段管道。
另一个关键转折,是它开始主动修补自己过去被批评最多的短板。官方承认英文内容长期过度代表,于是 2024 年底启动 Web Languages Project;2026 年又与 MLCommons、EleutherAI、Johns Hopkins 等推出覆盖 109 种语言的 CommonLID。这里能看见身份变化:它不再只追求“规模”,开始追求“质量、分布、公平性、可注释性”。
但它的争议也非常集中,而且不是边角料。第一类争议是版权与删除请求。2024 年 Danish Rights Alliance 发起要求删除丹麦媒体内容,Wired 报道 Common Crawl 表示会配合;2025 年 The Atlantic 的调查则称,Common Crawl 档案中仍保留大量来自 The New York Times 等出版商的内容,并质疑其所谓删除进度和站内搜索结果准确性。Common Crawl 随即公开发文反驳,称自己没有“对出版商撒谎”,并强调移除历史档案在技术上很复杂。争议核心因此并不只是“有没有遵守 robots.txt”,而是“历史抓取、删除承诺、检索可见性,以及面向 AI 的再利用”之间的落差。
第二类争议是立场问题。Common Crawl 2025 年向英国版权与 AI 咨询提交意见时,公开支持为 text and data mining 设立更清晰的法律例外,并提出 “right to read should encompass the right to mine” 的原则;这使它在出版商和创作者眼里,不再只是中立仓库,而是 actively participating 的政策行为者。对支持开放数据的人来说,这是必要发声;对版权方来说,这意味着它已经从基础设施进入了规则塑造。
第三类争议是数据卫生与安全。2025 年研究者基于 2024 年 12 月的 Common Crawl 档案扫描出 11,908 个仍然有效的 API key 和密码。严格说,这不意味着 Common Crawl 主动泄密,但它说明“开放网络原样抓取 + 大规模再利用”会把公开页面里本就存在的配置错误放大成系统性风险。对把它当训练原料的人来说,这意味着后处理、去敏感、授权治理都不能外包给 Common Crawl 一个机构。
第四类批评是代表性与偏差。Mozilla 研究和 Stefan Baack 的 FAccT 论文都强调,Common Crawl 尽管规模巨大,却并不是整个互联网的中性镜像;抓取优先级、语言覆盖、过滤方法、以及谁有资源去再清洗它,都会把偏差继续传递给下游模型。Common Crawl 自己近两年也开始公开讨论这些问题,说明它已经意识到“只要开放就够了”的时代结束了。
截至 2026 年 4 月,Common Crawl 的现实位置可以用一句话概括:它不是最会赚钱的公司,也不是最显眼的 AI 产品,但它是连接开放网络、学术研究、开源数据清洗和大模型训练的一段关键中间层。官网列出的最新抓取已到 CC‑MAIN‑2026‑12;团队页显示它已有完整的工程、研究、法务和项目管理配置;它还在连续发布 Web Graph、crawl stats、CommonLID、examples browser 等衍生产品。它真正的历史位置,不在利润表,而在路径依赖——一旦大量研究、清洗 pipeline、模型训练语料、评测基准和政策争论都围绕它发生,它就从档案馆变成了制度性底座。未来外界评价它,不会主要看“抓得多不多”,而会看“治理是否可信、删除机制是否可信、语言与版权偏差是否被认真修补,以及它到底更像公共图书馆还是 AI 原料商”。