机器之心报导
修改:Panda W、陈陈
向大模型输入「Michael Jordan plays the sport of _____(迈克尔・乔丹从事的体育运动是……)」,然后让其猜测接下来的文本,那么大模型八成能正确猜测接下来是「basketball(篮球)」。
这阐明在其数以亿计的参数中潜藏了有关这个特定个人的相关常识。用户乃至会感觉这些模型回忆了许多现实。
但现实终究怎么呢?
近来,3Blue1Brown 的《深度学习》课程第 7 课更新了,其间经过生动详实的动画展现了 LLM 存储现实的方法。视频浏览量高达 18 万次。
上一年 12 月,谷歌 DeepMind 的一些研究者发布了一篇相关论文,其间的详细事例便是匹配运动员以及他们各自的运动项目。
尽管这篇论文并未彻底回答有关 LLM 现实存储的问题,但也得到了一些较为风趣的成果,其间的一个重点是:现实保存在网络中的一个特定部分,这个部分也便是咱们熟知的多层感知器(MLP)。
在 3Blue1Brown 刚刚更新的这期视频中,他们用 23 分的视频演示了大型言语模型怎么存储和处理信息,首要包含以下部分:
LLM 中躲藏的现实是什么
快速回忆 Transformers
示例
多层感知器
核算参数
视频地址:https://www.youtube.com/watch?v=9-Jl0dxWQs8
在演示视频中,3b1b 的作者口齿清晰、言语规范,配合着高清画面,让读者很好地了解了 LLM 是怎么存储常识的。
许多用户在看完视频后,都惊奇于 3Blue1Brown 教育质量:
还有网友标明,坐等更新这期视频现已很久了:
接下来咱们就深化 MLP 的细节吧。在这篇文章中,机器之心扼要介绍了核心内容,感兴趣的读者能够经过原视频检查完好内容。
MLP 在大模型中的占比不小,但其实结构比较于留意力机制这些要简略许多。尽管如此,了解它也仍是有些难度。
为了简略,下面持续经过「乔丹打篮球」这个详细示例进行阐明吧。
首要,咱们先简略了解一下 Transformer 的作业流程。Transformer 的练习方针是依据已有 token 猜测下一个 token(一般标明词或词组),而每个 token 都相关了一个高维向量。
这些向量会重复经过两类运算:留意力(答应向量之间互相传递信息)与多层感知器(MLP)。当然,它们之间还存在一个特定的归一化进程。
在向量经过屡次如此迭代之后,咱们期望每个向量都现已吸收了足够多的信息。这些信息有的来自练习模型时植入模型权重的一般性常识,也有的来自上下文。这些常识便是模型猜测下一 token 的依据。
需求留意的是,这些向量编码的并不仅仅是单个词汇,而是会在信息在网络中活动时依据周围的环境和模型的常识吸收愈加丰厚的意义。
总归,每一个向量编码的信息都远远超越了单个词汇的意义,如此模型才干猜测接下是什么。而存储这些信息便是 MLP(留意力的作用是将上下文结合在一起),也因而大模型的大多数参数都在 MLP 中(约三分之二)。
持续「乔丹打篮球」这个示例。MLP 是怎么存储这一现实的。
首要咱们做一些假定:在高维空间中有这样三个不同的向量,它们别离界说了乔丹的姓 Jordan 和名 Michael 以及篮球 Basketball。
现在,假如该空间中有一个向量与 Michael 向量的乘积为 1,则咱们以为该向量编码了 Michael 这一概念;而假如这个乘积为 0 乃至负数,则以为该向量与 Michael 没有相关。
相同,咱们能够核算该向量与 Jordan 或 Basketball 的乘积,以了解其与这两个概念的相关程度。
而经过练习,可让该向量与 Michael 和 Jordan 的乘积均为 1,此刻就能够以为该向量编码了 Michael Jordan 这个全体概念。
MLP 的内部细节
当这个编码了上述文本的向量序列穿过一个 MLP 模块时,该序列中的每个向量都会阅历一系列运算:
之后,会得到一个与输入向量同维度的向量。然后再将所得向量与输入向量相加,得到输出向量。
序列中的每个向量都会阅历这样的操作,此刻这些操作都是并行履行的,互相之间互不影响。
关于「乔丹打篮球」,咱们期望关于输入的「Michael Jordan」,经过一系列运算之后,能得到「Basketball」的向量。
首要来看这个进程的榜首步。这个线性投射进程就相当于让输入向量乘以一个大型矩阵。这个矩阵里边的数据便是所谓的模型参数(model parameter)。你能够将其视为一个布满操控旋钮的仪表盘 —— 经过调整这些参数,咱们就能操控模型的行为。
关于矩阵乘法,视频中共享了一个视角。咱们能够将矩阵乘法看作是将矩阵的每一行都视为一个向量,然后将这些行与被处理的向量(这儿用 E 标明,意为 embeding,即嵌入)进行一系列点乘。
假如咱们假定该矩阵的榜首行刚好编码了「First Name Michael」且被处理向量也编码了它,那么所得的点积就约为 1。
而假如它们一起编码了姓和名,那么所得的成果应该约等于 2。
你能够以为该矩阵的其它行正在并行地处理其它问题。
别的,一般来说,这一步还会向输出增加另一个向量,也便是所谓的偏置向量,其间的参数是从数据中学习得到的。
在这个比方中,咱们能够看到这个偏置向量的榜首个元素为 -1。也便是说在终究的输出向量中,之前得到的相关点积减去了 1。为什么要这样操作?这是由于这样一来,当且仅当向量编码了全名「Michael Jordan」时,所得向量的榜首项为正数,不然就为 0 或负数。
在实践中,模型矩阵的规划非常大,比方 GPT-3 的矩阵有 49152 行和 12288 列(这个列数便是嵌入空间维度)。
现实上,这个行数恰好是嵌入空间维数的四倍。其实这仅仅一种规划挑选,你能够让它更多,也能够让它更少。
接下来咱们用更简练的方法标明这个矩阵和向量,如下动图所示:
经过上述线性进程之后,需求对输出向量进行收拾。这儿一般会用到一个非常简略的函数:整流线性单元(ReLU)。
深度学习社区传统上喜爱运用过于花哨的姓名,这个非常简略的函数一般被称为整流线性单元(ReLU)。
持续咱们的比方,中心向量的榜首个元素在当且仅当全名是 Michael Jordan 时才为 1,不然为零或负数,在将其经过 ReLU 后,会得到一个非常洁净的值,其间一切零和负值都被切断为零。因而关于全名 Michael Jordan,该输出为 1,不然为 0。这个行为和「与门」非常类似。别的 ReLU 还有一个相对滑润的版别 GeLU。
接下来又是一个线性投射进程,这一步与榜首步非常类似:乘以一个大型矩阵,加上偏置,得到输出向量。
但这一次,关于这个大型矩阵,咱们不再以行的思路来考虑它,而是以列的思路来看。这些列的维度与向量空间相同。
假如榜首列标明的是「Basketball」且 n_0 为 1(标明该神经元已激活),则该成果就会被增加到终究成果中;不然就不会影响终究成果。当然,这些列也能够标明任何概念。
类似地,咱们将这个大矩阵简化标明为 W ↓,将偏置标明为 B↓,并将其放回到图中。
举例来说,假如输入向量中一起编码了姓名 Michael 和姓氏 Jordan,那么触发操作序列后,便会得到指向 Baskerball 方向的输出向量。
这个进程会并行地针对一切向量履行
这便是 MLP 的运算进程:两个矩阵乘积,每个都增加了偏置。此前这种网络曾被用来辨认手写数字,作用还算不错。
GPT-3 中有 1750 亿参数是怎么核算的?
在接下来的章节中,作者介绍了怎么核算 GPT-3 中的参数,并了解它们的方位。
关于 GPT-3 来说,嵌入空间的巨细是 12288,将它们相乘,仅该矩阵就有六亿多个参数,而向下投影(第二个矩阵)具有相同数量的参数,仅仅形状进行了转置,所以它们加起来大约有十二亿参数。
此外,作者标明还需求考虑别的几个参数,但这只占总数的很小一部分,可忽略不计。嵌入向量序列流经的不是一个 MLP,而是 96 个不同的 MLP,因而用于一切这些块的参数高达 1000 多亿,这约占网络中总参数的三分之二。
最终,将留意力块、嵌入和 unembedding 等组件的一切参数加起来,总计能够得到 1750 亿参数。
别的值得一提的是,还有另一组与归一化进程相关的参数,不过视频示例中跳过了这些参数,它们只占总数的很小一部分。
视频最终介绍了叠加(Superposition)这一概念。依据标明,单个神经元很少像迈克尔・乔丹那样代表某个单一特征,实际上或许有一个很好的理由,这与现在在可解说性研究人员中撒播的一个主意有关,称为 Superposition,这是一个假定,或许有助于解说为什么这些模型特别难以解说,以及为什么它们的扩展性出奇地好。
感兴趣的读者能够参阅原视频,了解更多内容。
3blue1brown 介绍
3blue1brown 是一个专门制造可视化解说视频的频道,其内容掩盖数学、人工智能等范畴,每门课都配有直观生动的动画演示,协助观众加深对概念定理的了解。
除了 YouTube 上 640 万订阅者之外,3b1b 在 B 站上还有官方账号,粉丝数量超越 215 万,每个视频都是 10 万以上播映量,乃至有教师在课堂上播映该频道的视频。关于一个硬核教育 UP 主来说,这样的成果几乎是无人可及了。
作为一直以来都非常受欢迎的了解数学概念的网站,3blue1brown 的可视化一直都做得非常好。在本期视频中,咱们能够直观感触到了。
3b1b 的创立者 Grant Sanderson,结业于斯坦福大学数学系,他的大部分视频和动画引擎是独立完结的,这是他此前在斯坦福学习时的业余项目。
在斯坦福,Grant「走了点核算机科学的弯路」,随后结业加入了 Khan Academy 并担任了两年的数学讲师,在 2016 年之后,他开端全身心投入 3b1b 的作业中。
假如你对自己的学习才能决心缺乏,或许看看 3b1b 的内容会是一个好主意,全程动画演示,让你对常识点理解的彻彻底底。
参阅链接:https://www.youtube.com/watch?v=9-Jl0dxWQs8
——————————————
18个春夏秋冬,我一直在贵州村庄教育的土地上默默耕耘。
2005年,怀揣着对教育事业的神往,我走上了第一个作业岗位,成为一名村庄教师。我勉励要当一名学生喜爱的好教师,但是实际太骨感,迎候我的不只有稚气童真,还有一份沉甸甸的职责。课上,总有学生左顾右盼、嬉戏打闹、开小差。我反思自己的教育是不是办法不对,是不是讲得太艰深,是不是学生根柢太薄,才导致他们不愿意听或听不进去?
为了探寻其间缘由,我使用课余时间听其他教师的课,学习他们的经历和办法,还测验将音乐与游戏融入语文讲堂,课程内容许多时分经过诗歌朗诵、古诗新唱、快板、说唱等方法出现出来,学生学得不亦乐乎,有时乃至忘了是语文课。慢慢地,学生上课状况有所改善,教育效果明显提高,师生关系也更接近。
2011年,我跨市调到安顺市黄果树小学任教,成了该校专职音乐教师和少先队大队辅导员。校园一至六年级8个班的音乐课都由我担任,我每天抱着电子琴、佩带扩音器在教育楼里络绎,教室里、校园里、操场上经常响起学生美丽悦耳的歌声,音乐课也成了学生最等待的课,他们总是刻不容缓地在教室里喊“音乐、音乐……”直到我走进教室,学生激动地跳起来说“耶”。看着学生等待的目光,我坚决了自己的挑选,当一名学生喜爱的好教师。
2019年头,我来到白水镇把路小学任教。开学第一天,学生给我留下了深刻印象。除了讲堂学习外,他们根本没有参与过课外活动。为了让学生体会更丰厚的校园生活,我使用课间操、午休和课余时间教育生少先队的常识和礼仪,培育学生的行为习惯,展开丰厚多彩的活动,经过改动环境促进杰出校风的构成,再经过校风影响班风,让班风带动学风。
历经3年,学生总算变得生气勃勃,校园也成立了戏剧社团、鼓号社团、合唱社团、舞蹈社团,中华优异传统文化走进了校园、讲堂;我还将劳动课搬到寨子、郊野,带着学生收油菜籽、插禾苗、割稻谷。2020年,学生被约请参与“动态贵州网络春晚联欢晚会——安顺区域宣传片”的拍照,这是学生第一次经过春晚的舞台向全国观众展现自己的风貌。
2021年,我成为把路小学副校长。作为校园管理者,我要面临和处理更多问题:校园小、学生少、经费也缺乏。为此,我多方寻求协助,处理了校园食堂雨棚建立、鼓号队乐器装备、教育设备和多媒体弥补、校园文化晋级改造等问题,并活跃筹集给学生的奖赏金,为贫困家庭和特别家庭学生展开帮扶救助。
本年3月,因作业需求我调到坑边小学任教,担任少先队辅导员和班主任,不只教授学生常识,还教育生升国旗、出队旗、跳广播体操……校园每个旮旯都留下了我和孩子们的精彩画面。
一路走来,我从镇中心校园到完小再到教育点,许多人觉得古怪,优异教师都往上走到更大的渠道,我却“各走各路”。可我比谁都清楚,越偏僻、越落后的当地越需求优质教育资源,越需求优异教师的引领、演示和带动。我一个人无法改动村庄教育现状,却能温暖不少村庄孩子。用生命影响生命,做村庄孩子生长的引路人,做教育扶贫的先行者和接班人,足矣。
(作者系贵州省安顺市黄果树旅游区白水镇坑边小学,当选2019年村庄优异青年教师培育奖赏方案)
《我国教师报》2023年06月28日第9版
作者:梁定细
在公民教育出版社支持下,教育部教师作业司、我国教师展开基金会联合施行“村庄优异青年教师培育奖赏方案”,5年来奖赏村庄教师1500余名,为展现村庄教师风貌,助力村庄复兴,本报特开设“在村庄教书育人”专栏...
51吃瓜网网友科普:老舍为什么投湖背后的故事与思考在中国文学史上,老舍不仅以其独特的文学才华而闻名,他的人生经历和值得深思的故事同样吸引着众多读者的关注。其中,老舍投湖的事件常常引发热议,许多人不禁好...
或许挑选AI主播读给您听▽▽▽
60岁的功夫巨星李连杰近来受访时说,早已向妻子告知过后事,不立碑不办凶事,树葬海葬都无所谓。这是继本月16日李连杰到会活动诙谐开场说“我还没死”之后,又一次因存亡引发重视,也意外把妻子利智送上了热搜。
全文2326字,阅览需求6分钟或许挑选AI主播读给您听▽▽▽07:3360岁的功夫巨星李连杰近来受访时说,早已向妻子告知过后事,不立碑不办凶事,树葬海葬都无所谓。这是继本月16日李连杰到会活动诙谐开场...
02:02作为国际四大博物馆之一,具有超越800万件藏品的大英博物馆,是国际各地游客去伦敦玩耍的必经之地。在大英博物馆做解说员是种什么样的体会?福建95后小伙小潘给出了答案。5月9日,小潘在承受扬子晚...
据央视财经,这两具遗骸于2017年在秘鲁被发现,距今别离有1800年和700年。遗骸的头部细长,每只手有3根手指。从遗骸中提取的DNA也显现,它们并非人类。
当地时间12日,墨西哥议会初次举办与“不明异常现象”相关的揭露听证会。在当天的听证会上,墨西哥议会对外展出了两具疑似“外星生物”的遗骸。该音讯引发热议。疑似“外星生物”遗骸露脸!距今1800年!每只手...
近来,成都一高校女生姜某某2024年12月31日离校出迷路联,2025年1月12日上午,据金堂警方音讯,失联12天后,当天上午女生遗体现已被发现。1月13日,成都金堂县公安局发布警情续报:来历:成都金...