向量数据库之战:Pinecone、Weaviate 与 Milvus 创始人的三条路径与AI数据层争夺战
Pinecone、Weaviate 与 Milvus 创始人深度研究
这不是一组同质化的创始人样本。Pinecone 最像“顶级基础设施研究负责人下场创业”的路径,核心代表人物是 Edo Liberty;Weaviate 更像“开源社区 + 设计/产品叙事 + 开发者增长”的路径,核心公开人物是 Bob van Luijt,技术共创核心是 Etienne Dilocker,而 Micha Verhagen 在公开材料中的能见度最低;Milvus 严格说更像是 Zilliz 主导孵化出的开源数据库项目,其最明确、最可确认的创始核心人物是 Charles Xie。
三家的共同点,不是“都做向量数据库”这么简单,而是都抓住了一个更深层的问题:大模型时代真正缺的不是模型本身,而是可生产化的检索、记忆、向量存储与服务层。但三家的答案完全不同:Pinecone 选择先做托管型基础设施并持续向 serverless、knowledge platform、assistant 扩展;Weaviate 从开源语义搜索演化为 AI-native 数据库与云服务;Milvus 则以开源数据库为原点,再由 Zilliz 把商业化能力做成云服务、BYOC 和更完整的 AI 数据层产品。
公开资料密度并不均衡。Edo Liberty 和 Bob van Luijt 的公开访谈、个人叙述、职业履历相对丰富;Charles Xie 的技术与创业资料丰富,但家庭和早年私生活资料很少;Etienne Dilocker 与 Micha Verhagen 的家庭、教育、成长背景则明显更少。凡遇到这一类空白,最准确的表达只能是:公开资料有限 / 说法不一 / 暂无法确认。
Pinecone
家庭与成长背景:Edo Liberty 的公开资料里,真正可确认的不是“家庭阶层”,而是他的文化与成长气质。他在公开采访里直接提到自己的“以色列式成长背景”,把自己偏好做新东西、偏好开拓的性格,与这种成长经验联系在一起。出生时间、出生地、父母职业、家庭财富层级,公开资料里并没有系统披露,因此这一部分只能写到这里为止。
教育背景非常硬,而且是典型的“硬科学转算法系统”路径。Edo Liberty 本科就读于 Tel Aviv University,学的是物理和计算机科学;之后进入 Yale University 读计算机科学博士,并做过应用数学方向的博士后。他自己回忆,最初念大学时原本更想做物理学家,但因为觉得“不懂编程就做不好物理”,才开始系统学计算机,结果越学越深,最后转向算法与机器学习系统。这个转向非常关键,因为它决定了他后来的能力结构不是“纯模型研究”,而是“算法 + 系统 + 基础设施”三位一体。
工作经历是 Pinecone 得以成立的真正土壤。2009 年,他接受邀请加入 Yahoo 在以色列的新研究中心;2012 年又被调往美国,负责建立 Yahoo 在纽约的可扩展机器学习研究组。之后,他转向 Amazon Web Services,做到 Research Director 和 Amazon AI Labs 负责人。公开简历显示,他所带的团队参与过 SageMaker、Kinesis、QuickSight、Amazon Elasticsearch、Glue、Rekognition、Personalize、Forecast 等服务的构建。也就是说,他不是“见证了 AI infra 的崛起”,而是亲手参与了云上 AI 基础设施的工业级搭建。这也是 Pinecone 后来一上来就更像“生产级系统”,而不是实验室项目的原因。
创业起点非常清晰:他在 AWS 和 Yahoo 都看过向量检索与模型结合的威力,但也看到企业自己把这套系统做成生产级服务的成本太高。Pinecone 官方“origin story”写得很直接:他在 2019 年创立 Pinecone,核心判断是 AI 模型与向量搜索结合后,能极大改善垃圾邮件检测、推荐系统等应用,但当时这套能力对绝大多数团队来说太难用、太难运维。2021 年 Pinecone 公开推出向量数据库并宣布由 Wing Venture Capital 领投的 1000 万美元种子轮,这是它从“研究判断”变成“产品类别”的公开起点。
资本关系与资源网络,体现的是典型的美国基础设施 SaaS 顶级路线。2023 年,Pinecone 宣布获得 1 亿美元 Series B,由 Andreessen Horowitz 领投,ICONIQ Growth 参投,老股东 Menlo Ventures 与 Wing 继续跟投,当时官方披露估值达到 7.5 亿美元。到 2025 年公司新闻稿里,Pinecone 表示累计融资 1.38 亿美元,并拥有 5000 多家客户。这个资本网络说明它从一开始就不是“小而美工具公司”,而是被按“下一代 AI 基础设施大公司”来配置资源的。
其品牌、资产与平台,已经从“单一向量数据库”演化成“围绕检索与知识层的产品系”。
2024 年 Pinecone 把 serverless 向量数据库推到 GA,公开称预览期已有超过 20,000 个组织试用,新架构上累计索引了 120 亿个 embedding。到 2025 年,官方进一步把公司定位推进为“knowledgeable AI”的底层平台,并在产品线上加入 Assistant、dedicated read nodes、MCP 能力和更多推理/重排能力。换句话说,Pinecone 的“真正资产”不只是数据库本身,而是它在 AI 检索层里的默认心智位。
商业模式上,Pinecone 的打法一直偏“云基础设施收费”,而不是内容、咨询或社区变现。公开材料里能看到的收入逻辑是:先用免费层和自助上手扩大开发者入口,再把高可用、规模化、合规、安全、serverless、专属读节点等生产能力卖给付费客户和企业。它最重要的商业决策之一,就是没有走纯开源项目 + 商业包装这条路,而是直接押注托管式、可生产化的数据库服务。这个选择带来的好处是体验统一、部署快、企业化强;代价是更容易被拿去和关系型数据库、搜索引擎、云厂商内建向量能力做成本与锁定比较。
关键转折点至少有三个。
第一,离开 AWS 于 2019 年创业,这相当于把“内部平台经验”外部化。
第二,2024 年把 serverless 做到 GA,这不是小版本升级,而是重新定义单位成本、弹性和市场普及面的决定。
第三,2025 年 Edo 把 CEO 位置交给 Ash Ashutosh,自己转任 Chief Scientist。这个动作很像经典基础设施公司从“技术创始人主导 0 到 1”进入“职业 CEO 放大 1 到 N”的阶段切换。
它最成功的地方,不是“定义了向量数据库”这一句口号,而是把一个原本只在少数大厂内部存在的能力,包装成了大量开发者可以直接调用的标准化基础设施。在 2021 到 2024 这轮生成式 AI 爆发中,Pinecone 成了很多开发者第一次接触“外置记忆 / RAG 检索层”的默认入口之一。它的胜利首先是品类教育的胜利,其次才是单点技术胜利。
负面信息与争议方面,最确定的一次事件是 2023 年事故。Pinecone 官方事故复盘写明:2023 年 3 月一次 free tier 清理脚本错误,导致 515 个 Starter 计划索引被误删,之后两天内全部恢复。Edo 公开承担责任,并把根因写得很细。除此之外,围绕 Pinecone 更常见的批评并不是个人丑闻,而是赛道层面的:外部评论认为向量数据库曾被过度神话、差异化会被云平台和传统数据库吞噬,而 Pinecone 因为融资多、品牌强,恰好成为这类争论的中心样本。
当前状态与现实影响力方面,Edo 本人已经从 CEO 转为 Chief Scientist,但影响并没有下降,反而更集中到“技术路线与检索未来叙事”上。现实层面,Pinecone 已经进入了“不是讨论能不能做,而是讨论它能否在拥挤市场里持续保持定价权和心智优势”的阶段。这说明它已从新创项目变成基础设施竞赛中的成熟选手。
Weaviate
Weaviate 的创始团队公开呈现有一个很有意思的层次差。TechCrunch 和 2022 年官方 newsletter 把创始团队写成 Bob van Luijt、Etienne Dilocker、Micha Verhagen 三人;而 2023 年公司更名新闻稿里,Bob 的表述更强调自己与 Etienne 两人对公司和产品路线的判断。也就是说,Weaviate 的“创始人们”这件事本身,公开说法就带有层次差异:商业叙事常聚焦 Bob + Etienne,但更宽口径的公开资料把 Micha 也列为联合创始人。
在三人中,Bob 的成长背景最清楚。他公开说自己 1985 年出生,成长于荷兰,小时候先在荷兰南部长大,后搬到中部。父亲曾把一台 IBM 电脑带回家,他靠图书馆里一本 QBasic 入门书开始接触编程;到还没上高中时,他已经在做网站。这个细节很重要,因为 Bob 后来对软件的理解一直带有“做东西、做体验、做表达”的色彩,而不只是工程优化。父母的职业、家庭阶层、具体资源规模,公开资料没有系统披露,但可以确认的是,他很早就同时拥有家庭可接触电脑、图书馆、音乐训练这几种成长资源。
Bob 的教育路径非常不典型,也直接塑造了 Weaviate 的产品气质。他在 ArtEZ University of the Arts 学音乐,之后又去 Berklee College of Music 深造,并参加过 Harvard Business School 的管理课程。Bob 自己多次强调,音乐、语言、软件三者在他脑中是连在一起的;他把软件开发理解为一种“语言与结构”的表达。这也是为什么 Weaviate 从早期起就特别强调语义、GraphQL、知识结构和“让开发者觉得顺手”的叙事。
Bob 的早期工作经历不是传统大厂履历,而是长期做软件生意。他 15 岁就开始接网站单子,成年后一边学音乐一边做软件业务,后来经营过咨询/设计/软件机构 Kubrickology。对他影响最大的显然不是某一家雇主,而是两次认知变化:一次是 2015 年前后在一家科学出版商工作时,第一次看到词向量演示;另一次是听到 Sam Ramji 谈开源商业模式——当时 Ramji 与 Cloud Foundry 相关。这两件事基本决定了 Weaviate 的两个底层信念:语义向量检索会成为新搜索层;开源可以成为公司,而不只是项目。
Etienne Dilocker 在公开叙事中的角色非常清晰:他不是高曝光型 founder,而是“把第一个产品真正做出来的人”。Weaviate 官方文章直说:Etienne 基本上就是 founding engineer,亲手构建了第一版产品。Bob 公开回忆也说,真正提出“把 embedding 当一等公民,并做成 end-to-end database”的,是 Etienne。换句话说,如果 Bob 更像品类叙事者、社区传播者和公司构建者,Etienne 就更像把抽象想法压缩成可运行数据库的人。他的家庭背景、出生信息、完整教育经历,公开资料有限。
Micha Verhagen 的公开资料最少。能确认的是,他在多份资料中被列为 COO / co-founder;但他的家庭背景、成长经历、教育路径、早期职业细节,公开可验证材料明显稀薄。对 Weaviate 的研究如果声称能完整写出 Micha 的人生细节,大概率是在编。最稳妥的写法只能是:公开资料有限。
Weaviate 的项目史,比公司史更早。Bob 在回顾文章里讲得很具体:2016 年从 Google Weave/Brillo 的“things”概念获得启发,之后逐渐把想法转成一个面向语义搜索、对象关系和向量表示的系统;2018 年底进入荷兰创业加速器后,开始正式搭团队、做生产化、想商业模式;2019 年 SeMI Technologies 成立,Weaviate 成为第一款产品。最关键的一步,是团队后来决定不把 NLP/embedding 仅仅当成数据库的一个 feature,而是直接加注在向量存储和语义检索上。那一刻,Weaviate 才真正从“有语义能力的系统”变成“以语义和向量为核心架构的数据库”。
资本路径也很有代表性。2022 年,Weaviate 宣布 1600 万美元 Series A,由 New Enterprise Associates 与 Cortical Ventures 领投,Zetta Venture Partners、ING Ventures 参投;2023 年再获 5000 万美元 Series B,由 Index Ventures 领投,Battery Ventures 加入。2023 年公司名也从 SeMI Technologies 正式改为 Weaviate,理由很直白:开发者与客户对“产品名”的认知早已强过“公司名”。
品牌、资产与组织层面,Weaviate 最值钱的不是某单一功能,而是“开源项目 + 云服务 + 教育内容 + 社区”的整体体系。官网到 2026 年已经把产品面铺到 search、vectorize、RAG、agents、shared cloud、dedicated cloud、enablement;社区端则明确写到“over 50,000 AI builders”。这说明 Weaviate 的一部分资产是代码和云服务,另一部分其实是开发者关系、课程、论坛、播客、活动与生态位置。后者更像影响力资产,但在开源公司里非常值钱。
Weaviate 的商业模式,公开讲得比很多开源公司更坦白。Bob 在 2024 年采访里说得很明确:商业成功不依赖软件许可证,而依赖数据库服务本身的运行、扩展、SLA、集成、培训、工具以及围绕数据库的整个生态。他在学术访谈中也承认,很多人并不理解开源项目如何 capture value。这种表述几乎可以视作 Weaviate 商业模式的标准答案:开源负责分发、教育、采用与社区;云服务和企业化能力负责收入。
决定性转折点也很清楚。
第一,是 Bob 在别人还没普遍相信 embedding 会成为通用检索基础时就下了注。
第二,是 Etienne 把“embedding-first database”做成了真正的端到端数据库。
第三,是公司在 2023 年以后迅速承接 ChatGPT 带来的市场教育红利。Bob 自己说,ChatGPT 在 AI 技术史上只是一步,但在企业兴趣史上几乎是新时代开端。其后 Weaviate 从“需要解释为什么有用”,转为“客户已经带着明确问题上门”。
最成功的地方,在于它比很多同类更早把“向量 + 混合检索 + 图/结构化对象 + 开发者体验”打包成一个统一故事。这也是为什么它能在 2024 年进入 Forbes AI 50,并持续保持开发者端的强存在感。Weaviate 不是单靠融资或广告被记住,而是靠一个很稳定的身份:对 AI 应用开发者友好的开源数据库公司。
负面信息与争议方面,没有看到像 Pinecone 2023 那样的大型公开事故,也没有突出的创始人个人丑闻。但它的争议并不缺席,主要集中在两个层面:
一是开源软件公司如何在“不卖 license”的前提下持续 capture value;
二是随着传统数据库、搜索产品和云平台都加入向量能力,Weaviate 这种独立向量数据库是否还能保持清晰护城河。外部对整个赛道的批评——“向量数据库被过度神话,最后会被并入更大的检索栈”——同样适用于 Weaviate。
当前状态与现实影响力,Weaviate 已经不只是工具,而是一个带明显方法论色彩的基础设施品牌。它的现实位置很像“开发者市场里极强的 AI-native 数据库品牌”,既受尊敬,也被放在“赛道是否会被平台化吞并”的讨论中心持续检验。
Zilliz 与 Milvus
Charles Xie 的公开形象,是三组样本中最“数据库工程师创业”也最“系统研究派”的一个。家庭背景、出生地、父母职业、成长资源细节,公开材料披露很少;但教育路径比较清晰:他本科毕业于 Huazhong University of Science and Technology,硕士毕业于 University of Wisconsin-Madison。私生活层面的细节基本没有,公开资料能支撑的重点,是他在数据库系统与 AI 上的长期技术积累。
Charles 的第一段高代表性职业经历,是在 Oracle 总部参与 Oracle 12c 多租户云数据库项目,而且是 founding engineer 级别。这非常关键。因为 Milvus 后来之所以与很多“先有检索库、后补数据库”路线不同,本质上就是 Charles 从一开始就把问题当作数据库系统问题,而不是 ANN 算法封装问题。他自己也反复强调,过去结构化数据被管理得很好,但海量非结构化数据长期没有被有效利用,这才是创业的核心问题。
创业决策的逻辑也很完整。Charles 在访谈中回忆,2017 年左右,NLP 等方向的发展让非结构化数据可以被 embedding 化,从而第一次可以被语义层面地组织、检索和利用。他因此创立 Zilliz,目标是管理“zillions of data”;Milvus 则是把这个愿景具体化的产品形态。按 Zilliz 的学习资料,Milvus 的开发始于 2018 年,2019 年正式推出。也就是说,Charles 不是在 2023 年 RAG 风口才入场,而是比大模型热潮早很多年就下注了向量数据管理。
Milvus 的组织形态,与 Pinecone、Weaviate 不完全一样。Pinecone 和 Weaviate 更容易被理解为“公司=核心产品”;而 Milvus 更像“公司孵化的开源基础设施项目”。Milvus 2020 年由 Zilliz 贡献给 LF AI & Data Foundation,并在 2021 年毕业。这一步很重要,因为它让 Milvus 从“公司产品”增加了一层“基金会治理下的开源公共基础设施”属性,也让 Charles 的身份同时覆盖创业者、开源项目缔造者、基金会治理参与者三重角色。
资本关系方面,Zilliz 的路径很典型但也带有鲜明跨境色彩。2020 年 Zilliz 获得 4300 万美元 Series B,由 Hillhouse Capital 领投,Trustbridge Partners、Pavilion Capital、5Y Capital、Yunqi Partners 等参与;2022 年又获 6000 万美元融资扩展,由 Prosperity7 Ventures 领投,总融资达到 1.13 亿美元左右。2026 年相关新闻稿仍把这些机构列为公司主要支持者。这个资本结构说明,Zilliz 从很早开始就被当成“可能做出全球化 AI 数据基础设施”的公司看待。
旗下品牌和平台布局,比单一 Milvus 更宽。当前公开页面里,Zilliz 已经明确展示 Zilliz Cloud、BYOC、Free Tier、Migration Service,以及 GPTCache、DeepSearcher、Attu、Milvus CLI 等项目。它真正想做的,不只是卖“一个托管版 Milvus”,而是围绕 AI 检索、向量数据迁移、缓存、研究代理与云部署,形成更完整的平台层。Milvus 是技术与社区引擎,Zilliz Cloud 才是商业引擎,而其他工具则在不断填充生态。
商业模式演化相当值得研究,因为它把开源商业化的几个阶段写得很直白。Zilliz 官方复盘说,2022 年前后在用户对“稳定、商业托管版本”的反复需求下,公司开始真正推进商业化;随后先做 dedicated cluster,再做 serverless。更重要的是,团队明确承认初期免费试用策略成本过高,于是做 serverless,把新用户获取成本从 300 美元降到 5 美元。这说明 Zilliz 的商业模式不是一开始就成熟,而是在流量、成本、稳定性三重压力下,逐步从“开源分发”走向“云服务精细化运营”。
关键决策与转折点至少有四个。
第一,2017 到 2018 年决定做“向量数据库”而不是普通向量检索库。
第二,把 Milvus 捐给基金会,借开源治理扩大信用与采用。
第三,2022 年后加快商业托管与云服务;并在同年把总部迁到旧金山,以更贴近美国市场和 AI 基础设施买方。
第四,2023 到 2025 年间,借生成式 AI 爆发把产品继续向 serverless、BYOC、多云和成本优化推进。
最成功的地方,是它在开源数据库、研究论文、基金会治理和商业云服务之间建立了少见的闭环。到 2024 年底,Google Cloud 案例写到 Milvus 与 Zilliz Cloud 已有超过 10,000 家全球企业客户;Milvus GitHub stars 超过 33,000,下载和部署超过 1 亿。即便这些数字有公司叙事成分,也足以说明 Charles 成功把一个很“底层”的系统项目做成了全球可见的 AI 数据基础设施品牌。
争议与批评方面,公开没有看到 Charles 个人层面的重大丑闻。
更常见的争议集中在三类:
第一,向量数据库赛道是否被过度吹大;
第二,独立向量数据库是否会被传统数据库与云平台的向量功能蚕食;
第三,开源项目与商业公司之间的价值分配、品牌归属和市场叙事如何平衡。
对 Milvus/Zilliz 来说,外界的核心质疑从来不是“有没有技术”,而是“这门生意最终会以什么边界存在”。
当前状态与现实影响力方面,Charles 仍是 Zilliz 的 CEO,并继续以基金会治理者、开源布道者和数据库产品路线定义者的身份发声。Zilliz 目前对外已经不再只讲 Milvus,而是在讲“企业级 AI 数据层”“低成本向量搜索”“多云主权部署”等更成熟的话语。这意味着 Charles 的位置,也从“发明一个开源项目的人”升级成了“试图定义 AI 数据基础设施边界的人”。
横向比较与时间线
如果把三位核心人物放在一条线上看,他们分别代表了三种极不一样的创业原型。
Edo Liberty 代表的是研究负责人型基础设施创业者:教育硬、系统经验深、直接切入托管式生产基础设施。
Bob van Luijt 代表的是叙事型开源创业者:艺术与软件并行,靠产品哲学、社区与开发者关系把品类做出来。
Charles Xie 代表的是数据库系统型开源创业者:从数据库工程与研究出发,把开源项目、基金会、论文与云服务串成一个商业闭环。
在“品牌/资产/网络”层面,三家的重心也不同。
Pinecone 的核心资产是托管能力、企业心智和融资/客户网络。
Weaviate 的核心资产是开源社区、开发者品牌和产品表达。
Milvus/Zilliz 的核心资产是开源项目公信力、技术深度、多云商业化和基金会背书。
这三种资产结构没有绝对高下,只对应不同的胜率来源。
关键年份可以压缩成一条很清楚的时间线。
2015 前后,Bob 第一次被词向量打动。
2017,Charles 基于非结构化数据管理判断创立 Zilliz;Bob 已在推进 Weaviate 概念。
2018,Milvus 开发启动;Weaviate 在加速器阶段转商业化。
2019,Pinecone 成立;SeMI Technologies 成立,Weaviate 成为第一产品。
2020,Milvus 捐入 LF AI & Data;Zilliz 融资加速;Weaviate 进入更清晰的开源商业化周期。
2021,Pinecone 公开发布向量数据库并融到种子轮;Milvus 从基金会毕业。
2022 到 2023,三家都完成重要融资或商业化扩张,并全面受益于生成式 AI 浪潮。
2024 到 2025,Pinecone 强化 serverless 与知识平台,Weaviate 强化 AI-native 数据库与开发者品牌,Zilliz 强化云托管、BYOC、多云与成本优化。
如果只问一句“他们在现实世界中真正处于什么位置”,最准确的结论是:他们不是单纯“做数据库的人”,而是在大模型时代争夺检索层、记忆层、AI 数据层定义权的人。Edo 更像把这层做成企业级托管标准服务的人;Bob 更像把这层做成开发者文化与开源品类的人;Charles 更像把这层做成开源数据库 + 商业云平台双栈体系的人。外部能否继续高估这个赛道,未必;但这三类人已经实打实地塑造了今天 AI 应用栈里“模型之外还需要什么”的共识。