Transformer革命：八位发明者如何重写AI架构与权力格局

发明边界

先把“谁发明了 Transformer”这件事说清楚。按公开文献最严格的口径，Transformer 不是某一个人的单独发明，而是 2017 年论文《Attention Is All You Need》的八位共同作者的集体发明：Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin。论文脚注明确写了“Equal contribution. Listing order is random.”，并且逐一写明八人的具体分工。这个脚注非常关键，因为它直接否定了“只有第一作者才是真正发明者”的常见误读。

这一发明不是凭空出现的。它发生在 sequence transduction 遇到瓶颈的时刻：当时主流是 RNN、LSTM、GRU、以及带 attention 的 encoder-decoder 体系，但这些方法要么训练路径长、要么难并行、要么对长距离依赖不够友好。Transformer 的 radical 之处不在于“第一次想到 attention”，而在于把路线推到最极端：把 recurrence 和 convolution 全部拿掉，只保留 self-attention 作为核心计算组织方式。这让模型更适合 GPU/TPU 这类并行硬件，也改变了后面整整一代大模型的扩展方式。

原始论文的成绩在当时已经不是“有点意思”，而是直接打到 SOTA。论文报告：在 WMT 2014 English-to-German 任务上，模型达到 28.4 BLEU；在 English-to-French 上，单模型达到 41.0 BLEU；大模型在 8 块 P100 GPU 上训练 3.5 天即可完成，而基础模型甚至只需约 12 小时。这意味着它不只是更准，也更便宜、更适合规模化训练。后来的大模型浪潮，首先不是“更会聊天”，而是“更能被训练出来”。

从命名到叙事，Transformer 一开始就带着一种“泛化野心”。据论文同期的官方博客和后来的采访重建，这个模型从 day zero 就被当作一种可迁移到多任务、跨模态的通用架构，而不是只为机器翻译做的局部改良。官方博客在 2017 年 8 月已经写得很清楚：团队很快就把它延展到 parsing，并且预告会继续用于图像、视频等不同输入输出形式。也就是说，Transformer 从诞生那天起，就不是“翻译模型”，而是“可扩展的学习计算框架”。

到 2026 年，这篇论文的引用量已经进入“不同数据库口径不同，但无论怎么算都极其夸张”的区间。Google Research 页面与 NeurIPS 页面显示其引用数超过 24 万；Semantic Scholar 给出的口径约为 17.3 万。数字之所以不同，是数据库收录与统计规则不同；但结论没有分歧：它已经是 21 世纪最具影响力的一批 AI 论文之一。

共同发明者画像

Vaswani 的成长路径，最像“工程师转向基础研究，再转向平台创业”的模板。公开采访显示，他是建筑师与医生的儿子，童年主要在阿曼长大，15 岁后回到那格浦尔；少年时期同时受印度科学家与微软创业故事影响。完成Birla Institute of Technology Mesra计算机专业学习后，他先在 IT 行业工作，之后离职去University of Southern California读硕士、再读博士，2014 年完成题为《Smaller, Faster, and Accurate Models for Statistical Machine Translation》的博士论文。对他影响最大的，不是某个单一导师神话，而是“我意识到 deep learning 才是突破要发生的地方”这类方向判断。

职业上，Vaswani 在Google Brain完成了自己最重要的研究跃迁：从统计机器翻译与自然语言处理走向更普遍的深度学习架构设计。论文脚注说明，最早的 Transformer 模型由 Jakob 提出“用 self-attention 替代 RNN”的方向后，主要由 Ashish 与 Illia 设计和实现第一批可工作的模型；脚注还特别强调他“几乎参与了这项工作的每一个层面”。论文之后，他在 2021 年共同创办Adept AI Labs，2023 年再与 Niki 等人创办Essential AI并担任 CEO。Adept 走“模型驱动软件动作自动化”，Essential 则更强调 full-stack enterprise AI 与 open science。

Shazeer 的公开形象更像“极强的系统型研究员 + 产品化野心极强的创业者”。家庭背景公开资料有限，但职业轨迹相当清楚：他毕业于Duke University，2000 年进入Google，先做搜索拼写纠错，后参与 AdSense 核心算法。到 Transformer 时，他已经是组内资深者。其个人网站明确把 multi-head attention、residual architecture、首个优于 SOTA 的工作实现列为自己的关键贡献；Google Research 当前页面则显示，他如今是 Gemini 的 co-Tech-Lead。2021 年他共同创办Character.AI，2024 年又通过与谷歌的许可与回聘安排回到Google DeepMind体系；2026 年，他当选美国国家工程院院士。

Parmar 的故事，和“标准精英学术路径”几乎相反。她在浦那一个 lower-middle-class 家庭长大；母亲年轻时想学建筑却未能实现，这种“未完成的愿望”反过来推动女儿更坚定地去追自己想做的事。她没有进入 IIT，而是转向自学 AI；赴美读研初期，父亲和叔叔还曾四处借钱支撑她度过最初几个月。关于她本科就读学校，公开资料说法不一：NDTV 的访谈写成 Pune Institute of Technology，而 Forbes India 则写成 Pune Institute of Computer Technology；可以确认的是，她 2013 至 2015 年在 USC 完成计算机硕士，之后进入谷歌。

Parmar 在发明过程中的位置，远比外界常见的“第三作者”表述重要。原论文脚注写得很具体：她在原始代码与 Tensor2Tensor 体系里设计、实现、调参并评估了“countless model variants”。也就是说，她不是负责包装、不是只写论文，而是负责把不稳定的发明变成大规模可比较、可复制、可迭代的研究程序。2015 年加入谷歌时，她年仅 24 岁，是团队中最年轻、也是唯一没有 PhD 的成员之一；后来她共同创办 Adept，出任 CTO，又共同创办 Essential；到 2025 年前后，她已进入Anthropic任技术岗位。她的长期价值，不只是“女性共同作者”这一象征意义，而是她把 Transformer 从语言继续推向图像、音频、3D 视觉等更广泛场景。

Uszkoreit 是八人里最像“架构总设计师”的那位。和很多 AI 创业者不同，他的家庭环境本身就高度语言学与计算机化：他在 a16z 的长访谈里直接说，父亲是 computer scientist 与 computational linguist，家里的晚餐话题会讨论 Turing machines 与 finite automata。更关键的是，他后来回忆自己 2005 年在谷歌实习期间，被 Google Translate 那种“既有科学难题、又能立刻推动产品”的环境说服，最终放弃原有博士方向回到谷歌。公开资料对其完整学历细节披露并不充分，但他的职业轨迹很明确：从 Google Translate、Google Assistant 语义解析，到柏林 Google Brain 团队，再到创办Inceptive。

从原始分工看，Uszkoreit 是“提出方向的人”。论文脚注写明：是 Jakob 提议用 self-attention 替代 RNN，并开启了验证这一想法的工作。后来在官方博客里，发布论文的也是他。再往后，他把这种“把语言当作可学习结构”的世界观，迁移到 RNA 和生物设计，创办 Inceptive，试图把深度学习和高通量实验结合起来设计“biological software”。这条路线很能说明他在整个结构里的位置：不是做单点算法技巧，而是不断寻找“序列—表示—生成”这一统一框架能改造的新领域。

Jones 的公开私人背景资料相对少，但他的教育与职业路线很清楚：他来自英国威尔士背景，在University of Birmingham完成 AI & Computer Science 本科以及 Advanced Computer Science 硕士。学校 alumni 页面里，他明确说自己之所以能在没有 referral 的情况下进入谷歌，很大程度上靠的是伯明翰计算机学院的履历背书。职业上，他在谷歌工作超过十年，后来与 David Ha、Ren Ito 共同创办Sakana AI，担任 CTO。

Jones 在 Transformer 发明过程中的价值也非常具体。论文脚注说，他负责 initial codebase、efficient inference、visualizations，并持续尝试新的模型变体。这个角色很像“把发明转成真实研究系统的人”：没有这类人，概念无法快速跑出结果、无法做足够多的 ablation，也无法向组织内部证明它值得继续投入。后来的 Sakana 路线同样延续这一气质：不是做一个闭门的通用聊天产品，而是做研究导向、机制导向、带有日本本地化与开源色彩的新型 AI 实验室。

Gomez 是八人里最年轻、也最早把 Transformer 影响力转成企业平台的人之一。公开资料显示，他在University of Toronto读本科时就进入 Roger Grosse 的研究体系，又在谷歌实习与工作，先后与 Jakob、Jeff Dean、Łukasz Kaiser、Geoffrey Hinton 合作；个人主页写得很直接：他曾是 U of T 的 undergraduate researcher、是 Oxford 的 doctoral student、也是 Google Brain 的 student researcher。家庭侧，McKinsey 的人物简介显示，他的父母都极重视学习，母亲是英国人，大学读舞蹈，移居加拿大后成为 librarian；这种“技术 + 阅读 + 艺术”混合的成长环境，对他后来强调 human side 的企业叙事影响很大。

Gomez 最关键的职业决策有两个。第一，是在本科阶段就进入 Google Brain，把自己从“优秀学生”直接推进到“核心技术共创者”；2017 年时，CNBC 仍把他描述成当年在谷歌实习、帮助共同写出该论文的人。第二，是离开学术/半学术轨道，创办Cohere，把自身影响力绑定到 enterprise AI 赛道，而不是消费级聊天热潮本身。至于他在University of Oxford的博士是否正式完成，公开资料存在不同表述：官方研究组页面长期称其为 doctoral student，而 LinkedIn 则显示 2018–2024 的学习区间。

Kaiser 是八人里最“理论计算机科学转深度学习”的那位。公开资料显示，他出生于波兰弗罗茨瓦夫，在University of Wroclaw学习数学和计算机科学，随后在RWTH Aachen University完成博士；之后曾在巴黎第七大学任 tenured researcher，研究 logic 与 automata theory，然后进入谷歌做 semantic parsing，再加入 Brain。家庭背景公开资料有限，但知识结构很清楚：他不是从“应用工程”入场，而是从逻辑、自动机、形式理论一路走进大规模神经网络。

在 Transformer 发明中，Kaiser 更像“研究基础设施与可扩展性设计者”。论文脚注写明，他和 Gomez 花了“countless long days”设计并实现 Tensor2Tensor，替代早期代码库，显著改善结果并大幅加速研究。后续职业上，他没有像其他几位那样把名声迅速兑换成创业品牌，而是继续在研究机构内做高杠杆工作：公开资料显示，他后来进入OpenAI，参与 GPT-4 长上下文相关工作，并在后续 2025 年左右的研究与演讲中继续以“co-authored Transformers and the TensorFlow system”的身份出现。

Polosukhin 是八人中最早把 Transformer 身份转向“去中心化 AI 基础设施”的人。公开资料显示，他出生于乌克兰，在National Technical University Kharkiv Polytechnic Institute学习应用数学与计算机科学，毕业后前往加州做机器学习项目，随后加入 Google Research。Wired 的采访重建写得很清楚：他在谷歌主要做的是搜索框直接问答这类对延迟极度敏感的系统，因此他对“必须非常便宜、非常快”的要求感受很强，这也让他对更高效的架构变得格外敏感。

原论文脚注显示，Polosukhin 与 Vaswani 一起设计并实现了第一批 Transformer 模型；但更重要的转折发生在论文正式引爆世界之前：他在 2017 年初就离开谷歌创业，后来于 2018 年与 Alexander Skidanov 共同创办NEAR Protocol。在今天的公开叙事里，他的身份已经不只是“Transformer 共同作者”，而是“去中心化、可验证、user-owned AI”的布道者；2026 年的商业报道则显示，他如今公开强调 AI agents 需要可审计、可私有、不过度依赖单一公司的基础设施。

协作过程与关键转折

八个人在论文中的实际分工，几乎就是这项发明为什么能成功的答案。Uszkoreit 给出“用 self-attention 替换 RNN”的方向；Vaswani 与 Polosukhin做出第一批真正能跑的模型；Shazeer 提出 scaled dot-product attention、multi-head attention 与 parameter-free position representation，并深入所有细节；Parmar 与 Jones 不断做变体、调参、优化代码、提升推理与可视化；Kaiser 与 Gomez 则通过 Tensor2Tensor 把研究速度和实验质量拉到另一个层级。换句话说，Transformer 不是“一个想法”，而是“想法 + 实现 + 系统 + 调参 + 工具链 + 组织协作”同时成熟的结果。

这也是它为什么更像工业研究的胜利，而不是浪漫化的个人天才故事。Uszkoreit 自己在后来回顾中说得很直白：像 Transformer 这样的项目，不太像“一个闪光时刻改变一切”，而更像不同专长的人把先前论文里的机制、优化器、实现技巧、硬件适配与数据规模，拧成一个终于可行的体系。这个判断非常重要，因为它解释了为什么后来复制 Transformer 成功的，不是单篇论文模仿者，而是拥有完整工程链条和算力预算的实验室。

时间线也很清楚。2017 年 6 月 12 日，论文首先以 arXiv 形式公开；2017 年 8 月 31 日，官方博客由 Jakob 发布，对外解释架构思想；2017 年底，论文进入 NeurIPS。也就是说，从“可运行想法”到“公开定义一个时代语言”，中间只隔了几个月。很多技术革命是慢热扩散，Transformer 不是；它是少见的“论文—开源工具—后续实验—产业采用”连续加速。

如果把后续十年浓缩成几笔，关键年份大致可以这样看：2017 年，论文定义新架构；2019 至 2021 年，作者群开始分流，学术影响转向产品化与组织化；2021 年，Adept 成立，Noam也走向 Character.AI；2019 到 2024 年间，Cohere 从学术创业变成企业平台；2023 年，Essential 与 Sakana 获得首轮强势资本背书；2023 至 2025 年，Inceptive、NEAR AI、Anthropic、OpenAI、Google Gemini 等不同路线继续把原始 Transformer 逻辑推进到生物、企业、开源代理、前沿闭源模型等多条分支。

组织、资本与商业模式

如果只看论文，八个人是一篇论文的作者；如果把时间拉长到 2026 年，他们更像一个“从Google Research外溢出来的产业网络”。这张网络横跨 enterprise AI、consumer chatbot、frontier labs、bio-AI、Japan-based research lab、crypto/agent infrastructure。八人里，公开路线最不创业化的是 Lukasz；其余七人，都不同程度地把学术影响力转成了公司、平台、基金关系或生态权力。

Vaswani 与 Parmar 的商业路线最像“从 research architecture 到 software agents，再到 enterprise foundation stack”。Adept 的目标是让模型去执行软件动作，而不是只生成文本；2023 年 Reuters 报道其完成 3.5 亿美元新融资，总融资额约 4.15 亿美元。两人离开后又创办 Essential。Essential 在 2023 年宣布 5650 万美元 Series A，投资方包括 Google、NVIDIA、AMD、Thrive Capital 等。这里能看出他们真正的资产，不只是股权，而是“谁相信这两个人能继续定义下一代基础软件层”。

Shazeer 的商业模式则最接近“研究能力直接商品化为 AI personality / dialogue product，再由巨头回收”。Character.AI 在消费者产品层面最早做出大规模陪伴式、角色式聊天体验之一；Reuters 2024 报道提到，它此前已融资 1.93 亿美元、2023 年估值约 10 亿美元。后续更关键的是 Google 与 Character 的技术许可和人才回流安排：这不只是一次回聘，而是把单个研究者的市场价值直接抬升到 multibillion-dollar deal 的尺度。

Gomez 的商业模式，比很多同行更早完成了从“研究明星”到“企业软件 CEO”的转型。Cohere 没有把自己定义成“另一个 ChatGPT”，而是刻意靠近合规、私有部署、长期合同、企业工作流集成。Reuters 在 2025 年报道，其 annualized revenue 已达到 1 亿美元，大约 85% 业务来自 private deployments，主要依靠长期合同；同年不同报道口径下，公司估值处在 55 亿到 68 亿美元之间。它真正的“资产”并不只是模型权重，而是安全部署架构、客户信任、企业销售渠道与治理姿态。

Uszkoreit 的 Inceptive 代表了另一种资产化方式：把 Transformer 的序列建模直觉迁移到 RNA 与药物设计。公开资料显示，Inceptive 先拿到约 2000 万美元 seed，后又在 2023 年拿到 1 亿美元融资，投资方包括 NVIDIA、Andreessen Horowitz、Obvious Ventures 等。这里的商业模式不是卖 API，而是建设高通量实验 + 深度学习平台，目标是药物与分子设计。也就是说，他把“语言的表示学习”转成了“生物序列的设计学习”。

Jones 的 Sakana 则强调 research lab 气质、东京区位优势、以及部分开源的分发方式。公司 2024 年宣布 3000 万美元 seed，主张用 nature-inspired intelligence 研发新的 foundation models，并很快推出日语模型，其中一部分开源。它的资产既包括股权和团队，也包括一个非常清晰的品牌位置：不做硅谷大厂复制品，而做“日本出发、研究先行”的替代型 AI 叙事。

Polosukhin 的 NEAR 路线又不同。NEAR Protocol 在表层上属于 blockchain 网络，但其当前叙事已明显转向 NEAR AI、AI agents、privacy-preserving infrastructure、user-owned AI。它依赖的不是传统 VC 到 IPO 的单一路径，而是协议、生态、代币、开发者网络与 AI 基础设施结合的资源网络。对他来说，真正的“资产”不是单个产品，而是定义一套新的 AI ownership 模式。

Kaiser 的情况最特别。他没有把个人品牌绑定到独立创业公司，而是把价值沉到研究基础设施与前沿模型内部：从 TensorFlow、Tensor2Tensor、Transformer，到后续在 OpenAI 的 GPT-4 长上下文与更晚阶段的 reasoning 相关工作。这类人拥有的不是公众可见的“公司资产”，而是实验体系、研究信誉、核心模型路线的话语权。

成就、争议与现实位置

这八个人最成功的地方，不是发表了一篇高被引论文，而是重写了 AI 的默认构建单元。2017 年之前，很多 NLP 人还在把 recurrence 视作自然默认值；2017 年之后，self-attention 逐渐变成默认骨架。更重要的是，它之后不只改写 NLP，还一路进入图像、音乐、代码、生物、代理系统与多模态模型。Google 官方博客在论文刚发出来时就已经预告图像与视频方向，而后续作者们的职业路线，事实上就是这些扩展方向的真人版时间线。

外界今天之所以记住他们，不是因为八个名字都家喻户晓，而是因为他们几乎覆盖了现代 AI 产业的关键分叉口：Shazeer 站在 consumer chatbot 与 Gemini 主干线上；Gomez 站在 enterprise AI 平台线上；Vaswani 与 Parmar 站在 agent automation 与 enterprise foundation stack 线上；Uszkoreit 站在 AI x biology 线上；Jones 站在新研究实验室与日本本土模型线上；Polosukhin 站在 decentralized AI 基础设施线上；Kaiser 站在 frontier-model engineering 线上。换句话说，这组作者不是“历史人物”，而是仍在实时塑造现实。

公开可见的主要争议，更多集中在后续商业化路径，而不是 2017 论文本身。主流报道里，并没有把这篇论文放在严重学术不端争议中讨论；更常见的争论，是围绕闭源还是开放、消费产品还是企业部署、巨头回收人才还是独立公司成长。例如，Google 与 Character 的许可加回聘安排，被放在大厂以交易方式吸纳 AI 人才的监管语境中审视；Cohere 公开押注 enterprise 而非大众聊天爆款；Vaswani 公开主张 open science；Polosukhin 则不断强调 user-owned、可验证、隐私优先的 AI。争议的实质，不是谁写了论文，而是谁将决定 Transformer 时代的权力分配。

如果把所有线索压成一句话，那么结论是：Transformer 的“发明者”不是单个人，而是一支在同一时间把理论判断、实现能力、系统工具、组织资源和产业野心拼接到一起的八人团队；而他们后来的分流，则几乎构成了现代 AI 产业版图的缩影。你今天看到的 ChatGPT 式对话、企业私有部署、代理自动化、RNA 设计、日语本地模型、去中心化 AI、长上下文与推理模型，很多都能沿着这八个人的后续轨迹回溯到 2017 年那个脚注写得非常老实的共同发明时刻。