Transformer论文存在错误被指出|环球滚动

2023-05-10 11:53:10 来源：机器之心Pro

论文中的图有时会出现与实现代码不对应的情况，这会让读者头大，不知是有意还是无意为之。这次，没想到大名鼎鼎的 Transformer 论文也「翻车」了。

【资料图】

2017 年，谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构，自此这一研究一路开挂，成为当今 NLP 领域最受欢迎的模型之一，被广泛应用于各种语言任务，并取得了许多 SOTA 结果。

不仅如此，在 NLP 领域一路领先的 Transformer，迅速席卷计算机视觉（CV）、语音识别等领域，在图像分类、目标检测、语音识别等任务上取得良好的效果。

论文地址：https://arxiv.org/pdf/1706.03762.pdf

从推出至今，Transformer 已经成为众多模型的核心模块，比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer，而后者早已被谷歌申请了专利。

图源：https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 发布的系列模型 GPT（Generative Pre-trained Transformer），名字中带有 Transformer，可见 Transformer 是 GPT 系列模型的核心。

与此同时，最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示，当 Transformer 刚发布之初，实际上是论文放出来的第二天，他们就迫不及待的将以前的研究切换到 Transformer ，后续才有了 GPT。可见 Transformer 的重要性不言而喻。

6 年时间，基于 Transformer 构建的模型不断发展壮大。然而现在，有人发现了 Transformer 原始论文中的一处错误。

Transformer 架构图与代码「不一致」

发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出，原始 Transformer 论文中的架构图有误，将层归一化（LN）放置在了残差块之间，而这与代码不一致。

Transformer 架构图如下左，图右为 Post-LN Transformer 层（出自论文《On Layer Normalization in the Transformer Architecture》［1］）。

不一致的代码部分如下，其中 82 行写了执行顺序「layer_postprocess_sequence＝\"dan\"」，表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为：add 在 norm 上面，即先 norm 再 add，那确实代码和图不一致。

代码地址：https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…

接下来，Sebastian 又表示，论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好，能够解决梯度问题。这是很多或者大多数架构在实践中所采用的，但它可能导致表示崩溃。

当层归一化在注意力和全连接层之前被放置于残差连接之中时，能够实现更好的梯度。

因此，虽然关于 Post-LN 或 Pre-LN 的争论仍在继续，但另一篇论文结合了这两点，即《ResiDual: Transformer with Dual Residual Connections》［2］。

对于 Sebastian 的这一发现，有人认为，我们经常会遇到与代码或结果不一致的论文。大多数是无心之过，但有时令人感到奇怪。考虑到 Transformer 论文的流行程度，这个不一致问题早就应该被提及 1000 次。

Sebastian 回答称，公平地讲，「最最原始」的代码确实与架构图一致，但 2017 年提交的代码版本进行了修改，同时没有更新架构图。所以，这实在令人困惑。

正如一位网友所说，「读代码最糟糕的是，你会经常发现这样的小变化，而你不知道是有意还是无意。你甚至无法测试它，因为你没有足够的算力来训练模型。」

不知谷歌之后会更新代码还是架构图，我们拭目以待！

参考链接：

论文［1］：https://arxiv.org/pdf/2002.04745.pdf

论文［2］https://arxiv.org/pdf/2304.14802.pdf

关键词：

精选导读

中文通用大模型基准测试 SuperCLUE 发布，ChatGPT居首、讯

该基准测试可通过多个维度，考验目前市面上主流的中文GPT大模型的能力。利用SuperCLUE 测试基准，该机构对

发布时间： 2023-05-10 11:40

要闻 2023-05-10

环球速讯：【世界说】美媒揭批美国政治商业模式促使枪暴频

中国日报网5月9日电据《美国新闻与世界报道》网站报道，支持拥枪的政客不断宣扬武装自卫的重要性以及危险随

发布时间： 2023-05-10 11:28

要闻 2023-05-10

白塞病患者植入主动脉免缝合生物心脏瓣膜术完成环球微动态

中南大学湘雅医院5月9日透露，该院心脏大血管外科专家近日顺利为一位患有白塞病的女性患者植入新型免缝合生

发布时间： 2023-05-10 10:53

要闻 2023-05-10

三都县仙人桥村：喜领80万元工资！村民笑开颜天天热门

近日，三都县中和镇仙人桥村举行茶产业分红暨工资发放仪式，发放产业分红6万元，为数百名群众发放工资80余

发布时间： 2023-05-10 10:19

要闻 2023-05-10

脱脂剂是危险品吗_脱脂剂

1、脱脂剂英文名称degreasant，主要用于脱除物体表面油污，包括：碱性脱脂剂、乳液脱脂剂和溶剂脱脂剂三种

发布时间： 2023-05-10 09:54

要闻 2023-05-10

热点推荐

Transformer论文存在错误被指出|环球滚动

论文中的图有时会出现与实现代码不对应的情况，这会让读者头大，不知是有意还是无意为之。这次，没想到大名

发布时间： 2023-05-10 11:53

科技 2023-05-10

中文通用大模型基准测试 SuperCLUE 发布，ChatGPT居首、讯

该基准测试可通过多个维度，考验目前市面上主流的中文GPT大模型的能力。利用SuperCLUE 测试基准，该机构对

发布时间： 2023-05-10 11:40

要闻 2023-05-10

推特工程师爆料：WhatsApp在后台试图访问麦克风

【ITBEAR科技资讯】5月10日消息，据推特工程师爆料，Meta旗下的即时通讯应用WhatsApp试图在用户不知情的情

发布时间： 2023-05-10 11:45

IT 2023-05-10

世界观焦点：第一运程 2023年7月3日十二生肖运势解析

属鼠综合：83爱情：76财运：82事业：88感情运势：要懂得尊重另一半的决定，在感情里千万不要太过强势，什么

发布时间： 2023-05-10 11:43

国内 2023-05-10

当前速递！亚星客车（600213）5月10日11点29分触及涨停板

5月10日盘中消息，11点29分亚星客车（600213）触及涨停板。目前价格9 7，上涨9 98%。其所属行业商用车目前

发布时间： 2023-05-10 11:21

科技 2023-05-10

经济适用房转商品房的流程？经济适用房转商品房有什么限制

将经济适用房转为商品房,首先要符合法定条件,经适房转商品房好处是可以进行买卖，那么，经济适用房转商品房的流程是什么 ?经济适用房转

发布时间： 2023-05-10 11:33

房产 2023-05-10

环球速讯：【世界说】美媒揭批美国政治商业模式促使枪暴频

中国日报网5月9日电据《美国新闻与世界报道》网站报道，支持拥枪的政客不断宣扬武装自卫的重要性以及危险随

发布时间： 2023-05-10 11:28

要闻 2023-05-10

二套房贷款需要的条件有哪些?一个人可以贷款买两套房吗？

购买房子是很多家庭的需求，贷款买房可以适当减轻买房的经济压力，很多家庭在购买了第一套房之后，也会有购买第二套房的需求。那么，二套房

发布时间： 2023-05-10 11:29

房产 2023-05-10

李小鹏任交通运输部党组书记天天精选

2023年5月10日，中央组织部有关负责同志出席交通运输部领导干部会议，宣布中央决定：杨传堂同志不再担任交

发布时间： 2023-05-10 11:14

IT 2023-05-10

爆炸范围指的是直径还是半径_百度hi账号怎么注销

百度hi账号注销方法是：1 打开百度，点击我的，设置，账号管理，账号急救。2 账号注销，风险明确，确定继续

发布时间： 2023-05-10 11:06

国内 2023-05-10

晨丰科技控股股东拟折价让渡控制权，遭上交所问询

5月9日晚，晨丰科技(603685 SH)发布公告称，控股股东海宁市求精投资有限公司(以下简称“求精投资”)及其一

发布时间： 2023-05-10 11:02

科技 2023-05-10

白塞病患者植入主动脉免缝合生物心脏瓣膜术完成环球微动态

中南大学湘雅医院5月9日透露，该院心脏大血管外科专家近日顺利为一位患有白塞病的女性患者植入新型免缝合生

发布时间： 2023-05-10 10:53

要闻 2023-05-10

环球新动态：榴莲价格“腰斩”？武汉人实现“榴莲自由”还要

【来源：长江日报】近日，榴莲批发价1斤低至20元的微博话题登上热搜，有媒体报道称，“五一”结束后榴莲

发布时间： 2023-05-10 10:46

IT 2023-05-10

百花盛开的新疆——第七届“天山文艺奖”暨中宣部第十六届精

5月9日晚，第七届“天山文艺奖”暨中宣部第十六届精神文明建设“五个一工程”颁奖典礼在乌鲁木齐举行，对获

发布时间： 2023-05-10 10:32

国内 2023-05-10

射阳县发改委：聚焦产改重点，推动产教融合工作提质增效

近年来，射阳县发改委贯彻落实省市产改工作相关要求，围绕自身工作职责，深入推进产教融合工作。精心申报，

发布时间： 2023-05-10 10:40

科技 2023-05-10

再度携手蔡徐坤开启夏日营销，燕京啤酒占位510赋能品牌日

5月10日,燕京啤酒再次官宣蔡徐坤,并升级为全线品牌代言人,同时上市510限定热爱罐,新一轮营销强势来袭。燕京啤酒已连续4年强势占位品牌日,逐

发布时间： 2023-05-10 10:50

财经 2023-05-10

三都县仙人桥村：喜领80万元工资！村民笑开颜天天热门

近日，三都县中和镇仙人桥村举行茶产业分红暨工资发放仪式，发放产业分红6万元，为数百名群众发放工资80余

发布时间： 2023-05-10 10:19

要闻 2023-05-10

焦点快播：从“网红”到“长青” 小小一碗螺蛳粉是如何实现

自2017年开始，我国将每年的5月10日设立为中国品牌日。中国品牌在这些年里都发生了一些什么样的变化？

发布时间： 2023-05-10 10:36

IT 2023-05-10

今日视点：《风能》对话 | 防腐是海上风电产业链上的关键

海洋是最严酷的自然腐蚀环境，侯保荣院士认为，浪溅区、异型构件、精密电子器件的防腐蚀，海洋生物污损，以

发布时间： 2023-05-10 10:20

国内 2023-05-10

汇聚品牌力量，赋能高质量发展

其中，金属新材料产业钢材加工方面以闽源钢铁集团为龙头，已具备年产400万吨的优质建筑材料生产能力。铝精

发布时间： 2023-05-10 10:19

科技 2023-05-10

Transformer论文存在错误被指出|环球滚动

精选 导读

热点 推荐

每日热点

精选导读

热点推荐