深度

Transformer革命:八位发明者如何重写AI架构与权力格局

AI
·
11 分钟读完

发明边界

先把“谁发明了 Transformer”这件事说清楚。按公开文献最严格的口径,Transformer 不是某一个人的单独发明,而是 2017 年论文《Attention Is All You Need》的八位共同作者的集体发明:Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin。论文脚注明确写了“Equal contribution. Listing order is random.”,并且逐一写明八人的具体分工。这个脚注非常关键,因为它直接否定了“只有第一作者才是真正发明者”的常见误读。

这一发明不是凭空出现的。它发生在 sequence transduction 遇到瓶颈的时刻:当时主流是 RNN、LSTM、GRU、以及带 attention 的 encoder-decoder 体系,但这些方法要么训练路径长、要么难并行、要么对长距离依赖不够友好。Transformer 的 radical 之处不在于“第一次想到 attention”,而在于把路线推到最极端:把 recurrence 和 convolution 全部拿掉,只保留 self-attention 作为核心计算组织方式。这让模型更适合 GPU/TPU 这类并行硬件,也改变了后面整整一代大模型的扩展方式。

原始论文的成绩在当时已经不是“有点意思”,而是直接打到 SOTA。论文报告:在 WMT 2014 English-to-German 任务上,模型达到 28.4 BLEU;在 English-to-French 上,单模型达到 41.0 BLEU;大模型在 8 块 P100 GPU 上训练 3.5 天即可完成,而基础模型甚至只需约 12 小时。这意味着它不只是更准,也更便宜、更适合规模化训练。后来的大模型浪潮,首先不是“更会聊天”,而是“更能被训练出来”。

从命名到叙事,Transformer 一开始就带着一种“泛化野心”。据论文同期的官方博客和后来的采访重建,这个模型从 day zero 就被当作一种可迁移到多任务、跨模态的通用架构,而不是只为机器翻译做的局部改良。官方博客在 2017 年 8 月已经写得很清楚:团队很快就把它延展到 parsing,并且预告会继续用于图像、视频等不同输入输出形式。也就是说,Transformer 从诞生那天起,就不是“翻译模型”,而是“可扩展的学习计算框架”。

到 2026 年,这篇论文的引用量已经进入“不同数据库口径不同,但无论怎么算都极其夸张”的区间。Google Research 页面与 NeurIPS 页面显示其引用数超过 24 万;Semantic Scholar 给出的口径约为 17.3 万。数字之所以不同,是数据库收录与统计规则不同;但结论没有分歧:它已经是 21 世纪最具影响力的一批 AI 论文之一。

共同发明者画像

Vaswani 的成长路径,最像“工程师转向基础研究,再转向平台创业”的模板。公开采访显示,他是建筑师与医生的儿子,童年主要在阿曼长大,15 岁后回到那格浦尔;少年时期同时受印度科学家与微软创业故事影响。完成Birla Institute of Technology Mesra计算机专业学习后,他先在 IT 行业工作,之后离职去University of Southern California读硕士、再读博士,2014 年完成题为《Smaller, Faster, and Accurate Models for Statistical Machine Translation》的博士论文。对他影响最大的,不是某个单一导师神话,而是“我意识到 deep learning 才是突破要发生的地方”这类方向判断。

职业上,Vaswani 在Google Brain完成了自己最重要的研究跃迁:从统计机器翻译与自然语言处理走向更普遍的深度学习架构设计。论文脚注说明,最早的 Transformer 模型由 Jakob 提出“用 self-attention 替代 RNN”的方向后,主要由 Ashish 与 Illia 设计和实现第一批可工作的模型;脚注还特别强调他“几乎参与了这项工作的每一个层面”。论文之后,他在 2021 年共同创办Adept AI Labs,2023 年再与 Niki 等人创办Essential AI并担任 CEO。Adept 走“模型驱动软件动作自动化”,Essential 则更强调 full-stack enterprise AI 与 open science。

Shazeer 的公开形象更像“极强的系统型研究员 + 产品化野心极强的创业者”。家庭背景公开资料有限,但职业轨迹相当清楚:他毕业于Duke University,2000 年进入Google,先做搜索拼写纠错,后参与 AdSense 核心算法。到 Transformer 时,他已经是组内资深者。其个人网站明确把 multi-head attention、residual architecture、首个优于 SOTA 的工作实现列为自己的关键贡献;Google Research 当前页面则显示,他如今是 Gemini 的 co-Tech-Lead。2021 年他共同创办Character.AI,2024 年又通过与谷歌的许可与回聘安排回到Google DeepMind体系;2026 年,他当选美国国家工程院院士。

Parmar 的故事,和“标准精英学术路径”几乎相反。她在浦那一个 lower-middle-class 家庭长大;母亲年轻时想学建筑却未能实现,这种“未完成的愿望”反过来推动女儿更坚定地去追自己想做的事。她没有进入 IIT,而是转向自学 AI;赴美读研初期,父亲和叔叔还曾四处借钱支撑她度过最初几个月。关于她本科就读学校,公开资料说法不一:NDTV 的访谈写成 Pune Institute of Technology,而 Forbes India 则写成 Pune Institute of Computer Technology;可以确认的是,她 2013 至 2015 年在 USC 完成计算机硕士,之后进入谷歌。

Parmar 在发明过程中的位置,远比外界常见的“第三作者”表述重要。原论文脚注写得很具体:她在原始代码与 Tensor2Tensor 体系里设计、实现、调参并评估了“countless model variants”。也就是说,她不是负责包装、不是只写论文,而是负责把不稳定的发明变成大规模可比较、可复制、可迭代的研究程序。2015 年加入谷歌时,她年仅 24 岁,是团队中最年轻、也是唯一没有 PhD 的成员之一;后来她共同创办 Adept,出任 CTO,又共同创办 Essential;到 2025 年前后,她已进入Anthropic任技术岗位。她的长期价值,不只是“女性共同作者”这一象征意义,而是她把 Transformer 从语言继续推向图像、音频、3D 视觉等更广泛场景。

Uszkoreit 是八人里最像“架构总设计师”的那位。和很多 AI 创业者不同,他的家庭环境本身就高度语言学与计算机化:他在 a16z 的长访谈里直接说,父亲是 computer scientist 与 computational linguist,家里的晚餐话题会讨论 Turing machines 与 finite automata。更关键的是,他后来回忆自己 2005 年在谷歌实习期间,被 Google Translate 那种“既有科学难题、又能立刻推动产品”的环境说服,最终放弃原有博士方向回到谷歌。公开资料对其完整学历细节披露并不充分,但他的职业轨迹很明确:从 Google Translate、Google Assistant 语义解析,到柏林 Google Brain 团队,再到创办Inceptive。

从原始分工看,Uszkoreit 是“提出方向的人”。论文脚注写明:是 Jakob 提议用 self-attention 替代 RNN,并开启了验证这一想法的工作。后来在官方博客里,发布论文的也是他。再往后,他把这种“把语言当作可学习结构”的世界观,迁移到 RNA 和生物设计,创办 Inceptive,试图把深度学习和高通量实验结合起来设计“biological software”。这条路线很能说明他在整个结构里的位置:不是做单点算法技巧,而是不断寻找“序列—表示—生成”这一统一框架能改造的新领域。

Jones 的公开私人背景资料相对少,但他的教育与职业路线很清楚:他来自英国威尔士背景,在University of Birmingham完成 AI & Computer Science 本科以及 Advanced Computer Science 硕士。学校 alumni 页面里,他明确说自己之所以能在没有 referral 的情况下进入谷歌,很大程度上靠的是伯明翰计算机学院的履历背书。职业上,他在谷歌工作超过十年,后来与 David Ha、Ren Ito 共同创办Sakana AI,担任 CTO。

Jones 在 Transformer 发明过程中的价值也非常具体。论文脚注说,他负责 initial codebase、efficient inference、visualizations,并持续尝试新的模型变体。这个角色很像“把发明转成真实研究系统的人”:没有这类人,概念无法快速跑出结果、无法做足够多的 ablation,也无法向组织内部证明它值得继续投入。后来的 Sakana 路线同样延续这一气质:不是做一个闭门的通用聊天产品,而是做研究导向、机制导向、带有日本本地化与开源色彩的新型 AI 实验室。

Gomez 是八人里最年轻、也最早把 Transformer 影响力转成企业平台的人之一。公开资料显示,他在University of Toronto读本科时就进入 Roger Grosse 的研究体系,又在谷歌实习与工作,先后与 Jakob、Jeff Dean、Łukasz Kaiser、Geoffrey Hinton 合作;个人主页写得很直接:他曾是 U of T 的 undergraduate researcher、是 Oxford 的 doctoral student、也是 Google Brain 的 student researcher。家庭侧,McKinsey 的人物简介显示,他的父母都极重视学习,母亲是英国人,大学读舞蹈,移居加拿大后成为 librarian;这种“技术 + 阅读 + 艺术”混合的成长环境,对他后来强调 human side 的企业叙事影响很大。

Gomez 最关键的职业决策有两个。第一,是在本科阶段就进入 Google Brain,把自己从“优秀学生”直接推进到“核心技术共创者”;2017 年时,CNBC 仍把他描述成当年在谷歌实习、帮助共同写出该论文的人。第二,是离开学术/半学术轨道,创办Cohere,把自身影响力绑定到 enterprise AI 赛道,而不是消费级聊天热潮本身。至于他在University of Oxford的博士是否正式完成,公开资料存在不同表述:官方研究组页面长期称其为 doctoral student,而 LinkedIn 则显示 2018–2024 的学习区间。

Kaiser 是八人里最“理论计算机科学转深度学习”的那位。公开资料显示,他出生于波兰弗罗茨瓦夫,在University of Wroclaw学习数学和计算机科学,随后在RWTH Aachen University完成博士;之后曾在巴黎第七大学任 tenured researcher,研究 logic 与 automata theory,然后进入谷歌做 semantic parsing,再加入 Brain。家庭背景公开资料有限,但知识结构很清楚:他不是从“应用工程”入场,而是从逻辑、自动机、形式理论一路走进大规模神经网络。

在 Transformer 发明中,Kaiser 更像“研究基础设施与可扩展性设计者”。论文脚注写明,他和 Gomez 花了“countless long days”设计并实现 Tensor2Tensor,替代早期代码库,显著改善结果并大幅加速研究。后续职业上,他没有像其他几位那样把名声迅速兑换成创业品牌,而是继续在研究机构内做高杠杆工作:公开资料显示,他后来进入OpenAI,参与 GPT-4 长上下文相关工作,并在后续 2025 年左右的研究与演讲中继续以“co-authored Transformers and the TensorFlow system”的身份出现。

Polosukhin 是八人中最早把 Transformer 身份转向“去中心化 AI 基础设施”的人。公开资料显示,他出生于乌克兰,在National Technical University Kharkiv Polytechnic Institute学习应用数学与计算机科学,毕业后前往加州做机器学习项目,随后加入 Google Research。Wired 的采访重建写得很清楚:他在谷歌主要做的是搜索框直接问答这类对延迟极度敏感的系统,因此他对“必须非常便宜、非常快”的要求感受很强,这也让他对更高效的架构变得格外敏感。

原论文脚注显示,Polosukhin 与 Vaswani 一起设计并实现了第一批 Transformer 模型;但更重要的转折发生在论文正式引爆世界之前:他在 2017 年初就离开谷歌创业,后来于 2018 年与 Alexander Skidanov 共同创办NEAR Protocol。在今天的公开叙事里,他的身份已经不只是“Transformer 共同作者”,而是“去中心化、可验证、user-owned AI”的布道者;2026 年的商业报道则显示,他如今公开强调 AI agents 需要可审计、可私有、不过度依赖单一公司的基础设施。

协作过程与关键转折

八个人在论文中的实际分工,几乎就是这项发明为什么能成功的答案。Uszkoreit 给出“用 self-attention 替换 RNN”的方向;Vaswani 与 Polosukhin做出第一批真正能跑的模型;Shazeer 提出 scaled dot-product attention、multi-head attention 与 parameter-free position representation,并深入所有细节;Parmar 与 Jones 不断做变体、调参、优化代码、提升推理与可视化;Kaiser 与 Gomez 则通过 Tensor2Tensor 把研究速度和实验质量拉到另一个层级。换句话说,Transformer 不是“一个想法”,而是“想法 + 实现 + 系统 + 调参 + 工具链 + 组织协作”同时成熟的结果。

这也是它为什么更像工业研究的胜利,而不是浪漫化的个人天才故事。Uszkoreit 自己在后来回顾中说得很直白:像 Transformer 这样的项目,不太像“一个闪光时刻改变一切”,而更像不同专长的人把先前论文里的机制、优化器、实现技巧、硬件适配与数据规模,拧成一个终于可行的体系。这个判断非常重要,因为它解释了为什么后来复制 Transformer 成功的,不是单篇论文模仿者,而是拥有完整工程链条和算力预算的实验室。

时间线也很清楚。2017 年 6 月 12 日,论文首先以 arXiv 形式公开;2017 年 8 月 31 日,官方博客由 Jakob 发布,对外解释架构思想;2017 年底,论文进入 NeurIPS。也就是说,从“可运行想法”到“公开定义一个时代语言”,中间只隔了几个月。很多技术革命是慢热扩散,Transformer 不是;它是少见的“论文—开源工具—后续实验—产业采用”连续加速。

如果把后续十年浓缩成几笔,关键年份大致可以这样看:2017 年,论文定义新架构;2019 至 2021 年,作者群开始分流,学术影响转向产品化与组织化;2021 年,Adept 成立,Noam也走向 Character.AI;2019 到 2024 年间,Cohere 从学术创业变成企业平台;2023 年,Essential 与 Sakana 获得首轮强势资本背书;2023 至 2025 年,Inceptive、NEAR AI、Anthropic、OpenAI、Google Gemini 等不同路线继续把原始 Transformer 逻辑推进到生物、企业、开源代理、前沿闭源模型等多条分支。

组织、资本与商业模式

如果只看论文,八个人是一篇论文的作者;如果把时间拉长到 2026 年,他们更像一个“从Google Research外溢出来的产业网络”。这张网络横跨 enterprise AI、consumer chatbot、frontier labs、bio-AI、Japan-based research lab、crypto/agent infrastructure。八人里,公开路线最不创业化的是 Lukasz;其余七人,都不同程度地把学术影响力转成了公司、平台、基金关系或生态权力。

Vaswani 与 Parmar 的商业路线最像“从 research architecture 到 software agents,再到 enterprise foundation stack”。Adept 的目标是让模型去执行软件动作,而不是只生成文本;2023 年 Reuters 报道其完成 3.5 亿美元新融资,总融资额约 4.15 亿美元。两人离开后又创办 Essential。Essential 在 2023 年宣布 5650 万美元 Series A,投资方包括 Google、NVIDIA、AMD、Thrive Capital 等。这里能看出他们真正的资产,不只是股权,而是“谁相信这两个人能继续定义下一代基础软件层”。

Shazeer 的商业模式则最接近“研究能力直接商品化为 AI personality / dialogue product,再由巨头回收”。Character.AI 在消费者产品层面最早做出大规模陪伴式、角色式聊天体验之一;Reuters 2024 报道提到,它此前已融资 1.93 亿美元、2023 年估值约 10 亿美元。后续更关键的是 Google 与 Character 的技术许可和人才回流安排:这不只是一次回聘,而是把单个研究者的市场价值直接抬升到 multibillion-dollar deal 的尺度。

Gomez 的商业模式,比很多同行更早完成了从“研究明星”到“企业软件 CEO”的转型。Cohere 没有把自己定义成“另一个 ChatGPT”,而是刻意靠近合规、私有部署、长期合同、企业工作流集成。Reuters 在 2025 年报道,其 annualized revenue 已达到 1 亿美元,大约 85% 业务来自 private deployments,主要依靠长期合同;同年不同报道口径下,公司估值处在 55 亿到 68 亿美元之间。它真正的“资产”并不只是模型权重,而是安全部署架构、客户信任、企业销售渠道与治理姿态。

Uszkoreit 的 Inceptive 代表了另一种资产化方式:把 Transformer 的序列建模直觉迁移到 RNA 与药物设计。公开资料显示,Inceptive 先拿到约 2000 万美元 seed,后又在 2023 年拿到 1 亿美元融资,投资方包括 NVIDIA、Andreessen Horowitz、Obvious Ventures 等。这里的商业模式不是卖 API,而是建设高通量实验 + 深度学习平台,目标是药物与分子设计。也就是说,他把“语言的表示学习”转成了“生物序列的设计学习”。

Jones 的 Sakana 则强调 research lab 气质、东京区位优势、以及部分开源的分发方式。公司 2024 年宣布 3000 万美元 seed,主张用 nature-inspired intelligence 研发新的 foundation models,并很快推出日语模型,其中一部分开源。它的资产既包括股权和团队,也包括一个非常清晰的品牌位置:不做硅谷大厂复制品,而做“日本出发、研究先行”的替代型 AI 叙事。

Polosukhin 的 NEAR 路线又不同。NEAR Protocol 在表层上属于 blockchain 网络,但其当前叙事已明显转向 NEAR AI、AI agents、privacy-preserving infrastructure、user-owned AI。它依赖的不是传统 VC 到 IPO 的单一路径,而是协议、生态、代币、开发者网络与 AI 基础设施结合的资源网络。对他来说,真正的“资产”不是单个产品,而是定义一套新的 AI ownership 模式。

Kaiser 的情况最特别。他没有把个人品牌绑定到独立创业公司,而是把价值沉到研究基础设施与前沿模型内部:从 TensorFlow、Tensor2Tensor、Transformer,到后续在 OpenAI 的 GPT-4 长上下文与更晚阶段的 reasoning 相关工作。这类人拥有的不是公众可见的“公司资产”,而是实验体系、研究信誉、核心模型路线的话语权。

成就、争议与现实位置

这八个人最成功的地方,不是发表了一篇高被引论文,而是重写了 AI 的默认构建单元。2017 年之前,很多 NLP 人还在把 recurrence 视作自然默认值;2017 年之后,self-attention 逐渐变成默认骨架。更重要的是,它之后不只改写 NLP,还一路进入图像、音乐、代码、生物、代理系统与多模态模型。Google 官方博客在论文刚发出来时就已经预告图像与视频方向,而后续作者们的职业路线,事实上就是这些扩展方向的真人版时间线。

外界今天之所以记住他们,不是因为八个名字都家喻户晓,而是因为他们几乎覆盖了现代 AI 产业的关键分叉口:Shazeer 站在 consumer chatbot 与 Gemini 主干线上;Gomez 站在 enterprise AI 平台线上;Vaswani 与 Parmar 站在 agent automation 与 enterprise foundation stack 线上;Uszkoreit 站在 AI x biology 线上;Jones 站在新研究实验室与日本本土模型线上;Polosukhin 站在 decentralized AI 基础设施线上;Kaiser 站在 frontier-model engineering 线上。换句话说,这组作者不是“历史人物”,而是仍在实时塑造现实。

公开可见的主要争议,更多集中在后续商业化路径,而不是 2017 论文本身。主流报道里,并没有把这篇论文放在严重学术不端争议中讨论;更常见的争论,是围绕闭源还是开放、消费产品还是企业部署、巨头回收人才还是独立公司成长。例如,Google 与 Character 的许可加回聘安排,被放在大厂以交易方式吸纳 AI 人才的监管语境中审视;Cohere 公开押注 enterprise 而非大众聊天爆款;Vaswani 公开主张 open science;Polosukhin 则不断强调 user-owned、可验证、隐私优先的 AI。争议的实质,不是谁写了论文,而是谁将决定 Transformer 时代的权力分配。

如果把所有线索压成一句话,那么结论是:Transformer 的“发明者”不是单个人,而是一支在同一时间把理论判断、实现能力、系统工具、组织资源和产业野心拼接到一起的八人团队;而他们后来的分流,则几乎构成了现代 AI 产业版图的缩影。 你今天看到的 ChatGPT 式对话、企业私有部署、代理自动化、RNA 设计、日语本地模型、去中心化 AI、长上下文与推理模型,很多都能沿着这八个人的后续轨迹回溯到 2017 年那个脚注写得非常老实的共同发明时刻。