最通俗易懂解读 Transformer 简史
Transformer 中有一个核心灵魂组件叫 Self-Attention。搞明白这个 Self-Attention 也就搞明白了神秘又强大的 Transformer。然而我查遍了所有解释 Self-Attention 的文章,发现要想讲透 Self-Attention 就必须满篇的公式和晦涩难懂的专业术语,普通人压根无法看懂。为此,我特地从另一个角度,完全用比喻的方式针对 Self-Attention 给出了一个思想框架的解读,以方便大家理解。
如果把“Self-Attention 自注意力机制”映射到人间社会,突然就变得很容易理解了,而且绝对让你感同身受、一点就通。“Self-Attention”在人间社会来说,就是每个人如何找准自己在社会中的定位的问题,无论是在一个公司、还是在一个团队、还是在一个家庭里。
比如你进入了一个大企业,成为了一个部门中团队的一员。毕竟公司是人与人之间、人与团队之间、团队与团队之间的合作。此时,“Attention 注意力机制”就是你刚进入这个团队后的最基本诉求,如何在一个少则三五人多则几十人的团队中,搞清楚别人的工作与自己的工作之间的关联关系,从而找准自己的定位。
为了让自己找准在团队中的定位并快速融入,此时你需要首先将注意力放在重要的人物以及对你有重要影响的人身上,比如团队中的领导、小组长以及和你工作岗位上下游衔接紧密的人,这就是“Attention 注意力机制”,即你需要把关注的重心放在与你关联度最紧密的人身上。
下面再进一步,看看自注意力机制。
“Self-Attention 自注意力机制”就是团队中的每一个人都像你一样与团队中其他人做一遍注意力机制的审查。这就是 Self-Attention 自注意力机制了。
自注意力机制的好处是什么呢?
自注意力机制可以使得团队中的每一个人都可以清晰地找准自己在团队中的定位。当每个人都可以找准定位之后,那么这个团队也就是一个十分优秀的团队了。
Transformer 最早不是用在 GPT 中的,而是在语言翻译领域。有了 Transformer 的赋能,使得翻译引擎达到了“信达雅”的翻译效果,以至于达到了一个人类翻译大师的水准。
如果同样用这个职场团队的比喻去解释 Transformer 的 Self-Attention 在语言翻译领域中所起的作用的话。我们就可以理解为一个快速扩张的餐饮连锁企业了。当一个成功的餐饮店铺的盈利模式确定好,并且经过实践的检验开始稳固盈利了之后,老板快速地在全国各个城市复制这个店铺成为连锁经营的企业。那么每一个店铺中的管理团队基本都是一样的,店长、店员、配菜...每个岗位的角色定位都十分清晰,各岗位间的运作流程都遵循着统一的规章制度。连锁店铺发展的关键点就在于可快速复制性,而高复制性则是由于全流程的标准化、规范化。
这种规范性已经达到了相当的程度,以至于突然间将 A店的人全部调离,而用 B店的人来一一代替,这个店让仍然能良好地运行。这就像翻译一样,从一种语言翻译成了另一种语言。每个单词的灵魂没有改变,但却变成了另外一个语言里的单词。每家店铺就是不同的语言的句子,每一个员工就是组成这个语句的每个单词。虽然换了另外一个语言,但是每个员工的角色扮演十分到位,瞬间入位,句子切换成功。
所以,我们才会发现,原来发明这个 Transformer 的 Google 技术团队,是要用真正的“变形金刚”这个词来表达这个大模型的内在逻辑。
“大黄蜂”既是机器人,“大黄蜂”也是跑车,由车变形到机器人,再由机器人变形到车,都是“大黄蜂”,本质上并没有改变。但是,外观变了、用途变了!也就是说不管用中文、英语、德语、法语来变化都是一样的,那只是表面形式上的变换造型而已。因为每一个单词在不同语言中所代表的含义的实质,在人工智能的大模型中都是同一个。所以,大黄蜂的造型无论怎么切换,它的灵魂都只是一个,切换不同的造型就可以演化出不同“语言的句子”!这就是 Transformer 的由来。也是 ChatGPT 中,最后这个字母“T”的意思(ChatGPT 的全称是 Chat Generative Pre-trained Transformer)。
“大黄蜂”既是机器人*黄蜂,也是跑车大黄蜂,本质上都是同一个家伙,只是各有各的用途。
自注意力机制在一个很小的团队中可以起到重要的作用,比如西天取经的师徒四人、一个三口之家、临时组成的五六个人的小团队,它在一个更大的系统中依旧会发挥作用,而且是更重要的作用。比如一个大家族、一个几十人的项目团队,或更大的团体、大企业、社会组织中都会起到十分重要的作用。而且从 Transformer 的模型特点来说,人越多,通过 Transformer 机制进行的“Self-Attention 自注意力机制”自我反观就越到位,每个人的自我认识越清晰,全体成员越协调。虽然,人数越多 Self-Attention 的难度也越大,但这才是大团队的价值所在啊~!否则,要那么多人干什么呢?
这从大语音模型的表现上已经看得一清二楚了。假设每一个单词就是团队中的一员,现在 GPT 已经可以做到一次处理几万字的文章信息了。也就是说 ChatGPT 一次的运算可以在几秒钟内给一本书的所有文字做逐一配对的自注意力计算,这当然能够挖掘出每个单词在全书中的定位了,即使它是有着七八个不同意思的多义词,最终也不会迷失自己。当 OpenAI 的团队拿出了千亿数量级的过往人类总结的各种知识的文本来训练 GPT 之后,ChatGPT 自然也可以回答出你问的任何问题了。
生活中,人与人相处的困惑很多时候的根源问题都来自于没有找准自己的定位,为人子、为人夫、为人妻、为人母、为人父、为人下属、为人领导、为人同事。。。该怎样找准自己的定位是摆在每个人面前的最基础问题,当然也是最难的问题,“Self-Attention”则给出了很好的答案!
为了让我们能够方便地理解,“公司团队”是极度简化后的模型比喻。但很明显,在现实世界中,这种模型将面临几十倍甚至成百上千倍的变数来干扰,导致这一模型无法如愿以偿地单纯地运行。但要知道,即使是变数本身也是可以找到规律的,如果你愿意去探究挖掘,并建立起数学模型和机器学习算法,把不同维度的变量输入给建立在更复杂场景之上的人工智能神经网络时,那最终结果都将会逐渐逼近于现实。就像尤瓦尔赫拉利在他的著作《人类简史》中所描述的,世间的一切皆是算法!这也是 Goolge 为什么在发布的 Transformer 的文章时用了这样一个标题的原因《Attention Is All You Need》(论文地址:https://arxiv.org/abs/1706.03762)。
(注:其实 Attention 机制最早并不是由 Google 的《Attention is all you need》这篇论文提出的,而是在2014年时由 Dzmitry Bahdanau 等人在《Neural Machine Translation by Jointly Learning to Align and Translate》的论文中提出。https://arxiv.org/abs/1409.0473)
声明:本文转载自知乎,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。