240630_昇思学习打卡-Day12-Transformer中的Multiple-Head Attention

240630_昇思学习打卡-Day12-Transformer中的Multiple-Head Attention

article2024/7/2 3:40:42/文章来源:https://blog.csdn.net/weixin_66378701/article/details/140087265

240630_昇思学习打卡-Day12-Transformer中的Multiple-Head Attention

以下为观看大佬课程及查阅资料总结所得，附大佬视频链接：Transformer中Self-Attention以及Multi-Head Attention详解_哔哩哔哩_bilibili，强烈建议先去看大佬视频，然后自己做笔记。

附上期Self-Attention链接：240629_昇思学习打卡-Day11-Vision Transformer中的self-Attention-CSDN博客，本文中用到了上期的思想，建议先看上期。

Multi-Head Attention和Self-Attention在前半部分是差不多的，只是在得到了对应的 $q^i$ ， $k^i$ ， $v^i$ 之后，再把这三个进行均分，有多少个Head就均分多少份，这里的均分就是直接拆分，比如 $q^1$ 是 $(1, 1, 0, 1)$ ，均分两份后就是 $(1, 1)$ 和 $(0, 1)$ ，当然，这样说可能有点过于简单了，观察原公式，原公式中他是乘以一个矩阵 $W_i^Q$ ，我们可以其设置成对应值实现均分，比如
$q^1=(1,1,0,1)$

$W_1^Q=\begin{pmatrix} 1 & 0\\ 0 & 1\\ 0 & 0\\ 0 & 0\end{pmatrix}$

此时
$q^{1,1}=q^1*W_i^Q=(1,1)$
同理如果我们要求 $q^{1,2}$ ，就给 $W_2^Q$ 赋值为：
$W_2^Q=\begin{pmatrix} 0 & 0\\ 0 & 0\\ 0 & 0\\ 0 & 1\end{pmatrix}$
这样我们就可以通过乘法计算出 $q^{1,2}$ ，但是要问这个矩阵是怎么确定的，我暂时还不知道，大佬文章中也暂时没提到，我只是通过直接拆分的方法知道他的目标值，然后逆推导出的这个矩阵。后面等搞明白了回来修复，如有大佬指正不胜感激。

multi-head

通过以上方法（直接拆分）可以得到每个Head对应的 $q^i$ ， $k^i$ ， $v^i$ 参数，接下来针对每个head使用和Self-Attention中相同的方法即可得到对应的结果。（以下为Self-Attention公式）

接下来就要将每个head的结果进行拼接，此时还是以两个head举例：

multi-head

这个图里面的b大家可能忘了，这个b就是Self-Attention中求得的最后结果，在多头注意力这边，这个结果还要再进行计算。

将每个head得到的结果进行concat拼接，比如下图中的 $b_{1,1}$ （ $head_1$ 得到的 $b_1$ ）和 $b_{1,2}$ （ $head_2$ 得到的 $b_1$ ）拼接在一起。

multi-head

根据原公式，我们这里拼接完了之后还要给一个参数 $W^0$ 和他相乘进行融合，这里这个 $W^0$ 是可学习的参数，其维度参考拆分前的 $q^1$ ， $q^1$ 是4，这里 $W^0$ 是4X4。融合后得到最后的结果。

注意这里是拼接两次，分别把 $b_{1,1}$ 和 $b_{1,2}$ ， $b_{2,1}$ 和 $b_{2,2}$ 在列上进行拼接后，还要把他两的结果进行在行上拼接（我也不知道我的措辞用反了没有，大家看图，上面是第一次拼接，下面图右下角是第二次拼接），然后在和 $W^0$ 进行运算

在这里插入图片描述

至此结束，大家记得去看大佬的视频，我的记录肯定不太详尽。
另外，我真的很好奇，csdn这个md编辑器到底是什么情况，为什么有时候行内公式就能显示，有时候行间公式都显示不了。

打卡图片：
在这里插入图片描述

参考博客：

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

详解Transformer中Self-Attention以及Multi-Head Attention_transformer multi head-CSDN博客

Vision Transformer详解-CSDN博客

一文搞定自注意力机制（Self-Attention）-CSDN博客

以上图片均引用自以上大佬博客，如有侵权，请联系删除

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/759675.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

BGE M3-Embedding 模型介绍

BGE M3-Embedding 模型介绍

BGE M3-Embedding来自BAAI和中国科学技术大学，是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216，论文提出了一种新的embedding模型，称为M3-Embedding，它在多语言性（Multi-Linguality）、多功能…

阅读更多...

【MySQL】库的操作【创建和操纵】

【MySQL】库的操作【创建和操纵】

文章目录 1.创建数据库1.1字符集和校验规则1.查看系统默认字符集以及校验规则2.查看数据库支持的字符集以及校验规则 1.2校验规则对数据库的影响1.创建一个数据库，校验规则使用utf8_ general_ ci[不区分大小写]2.创建一个数据库，校验规则使用utf8_ bin[区…

阅读更多...

如何借助 LLM 设计和实现任务型对话 Agent

如何借助 LLM 设计和实现任务型对话 Agent

1 引言在人工智能的快速发展中，任务型对话 Agent 正成为提升用户体验和工作效率的关键技术。这类系统通过自然语言交互，专注于高效执行特定任务，如预订酒店或查询天气。尽管市场上的开源框架如 Rasa 和 Microsoft Bot Framework 在对话理解…

阅读更多...

24年诺瓦星云入职认知能力测验Verify + 职业性格问卷OPQ可搜索带解析求职SHL题库

24年诺瓦星云入职认知能力测验Verify + 职业性格问卷OPQ可搜索带解析求职SHL题库

一、走进西安诺瓦星云科技股份有限公司西安诺瓦星云科技股份有限公司(简称诺瓦星云) 是全球极具竞争力的LED显示解决方案供应商，实施"基于西安，围绕北京与深圳，辐射全球"的全球化布局，总部位于西安，西安、…

阅读更多...

嵌入式Linux系统编程 — 5.3 times、clock函数获取进程时间

嵌入式Linux系统编程 — 5.3 times、clock函数获取进程时间

目录 1 进程时间概念 2 times 函数 2.1 times 函数介绍 2.2 示例程序 3 clock 函数 3.1 clock 函数介绍 3.2 示例程序 1 进程时间概念进程时间指的是进程从创建后（也就是程序运行后）到目前为止这段时间内使用 CPU 资源的时间总数，出…

阅读更多...

足球虚拟越位线技术FIFA OT（一）

足球虚拟越位线技术FIFA OT（一）

此系列文章用于记录和回顾开发越位线系统的过程，平时工作较忙，有空时更新。越位线技术越位技术已被用于图形化分析足球中潜在的越位情况。自 2018 年将视频助理裁判 （VAR） 引入比赛规则以来，人们越来越关注准确确…

阅读更多...

力扣单词规律

力扣单词规律

所用数据结构哈希表核心方法判断字符串pattern 和字符串s 是否存在一对一的映射关系，按照题意，双向连接的对应规律。思路以及实现步骤 1.字符串s带有空格，因此需要转换成字符数组进行更方便的操作，将字符串s拆分成单词列表…

阅读更多...

ESP32实现UDP连接——micropython版本

ESP32实现UDP连接——micropython版本

代码： import network import socket import timedef wifiInit(name, port):ap network.WLAN(network.AP_IF) # 创建一个热点ap.config(essidname, authmodenetwork.AUTH_OPEN) # 无需密码ap.active(True) # 激活热点ip ap.ifconfig()[0] # 获取ip地址print(…

阅读更多...

C++(Python)肥皂泡沫普拉托边界膜曲面模型算法

C++(Python)肥皂泡沫普拉托边界膜曲面模型算法

🎯要点 🎯肥皂泡二维流体模拟 | 🎯泡沫普拉托边界膜曲面模型算法演化厚度变化 | 🎯螺旋曲面三周期最小结构生成 📜皂膜用例：Python计算物理粒子及拉格朗日和哈密顿动力学 | Python和MATLAB粘性力接触力动…

阅读更多...

WordPress中文网址导航栏主题风格模版HaoWa

WordPress中文网址导航栏主题风格模版HaoWa

模板介绍 WordPress响应式网站中文网址导航栏主题风格模版HaoWa1.3.1源码 HaoWA主题风格除行为主体导航栏目录外，对主题风格需要的小控制模块都开展了敞开式的HTML在线编辑器方式的作用配备，另外预埋出默认设置的编码构造，便捷大伙儿在目前…

阅读更多...

【python刷题】蛇形方阵

【python刷题】蛇形方阵

题目描述给出一个不大于 99 的正整数n，输出n*n的蛇形方阵。从左上角填上1开始，顺时针方向依次填入数字，如同样例所示。注意每个数字有都会占用3个字符，前面使用空格补齐。输入输入一个正整数n,含义如题所述输出输出符合…

阅读更多...

【每日刷题】Day77

【每日刷题】Day77

【每日刷题】Day77 🥕个人主页：开敲🍉 🔥所属专栏：每日刷题🍍 🌼文章目录🌼 1. LCR 159. 库存管理 III - 力扣（LeetCode） 2. LCR 075. 数组的相对排序 - 力…

阅读更多...

vue中【事件修饰符号】详解

vue中【事件修饰符号】详解

在Vue中，事件修饰符是一种特殊的后缀，用于修改事件触发时的默认行为。以下是Vue中常见的事件修饰符的详细解释： .stop 调用event.stopPropagation()，阻止事件冒泡。当你在嵌套元素中都有相同的事件监听器（如click事件…

阅读更多...

Hadoop3：Yarn容量调度器配置多队列案例

Hadoop3：Yarn容量调度器配置多队列案例

一、情景描述需求1： default队列占总内存的40%，最大资源容量占总资源60%，hive队列占总内存的60%，最大资源容量占总资源80%。二、多队列优点 （1）因为担心员工不小心，写递归死循环代码&#…

阅读更多...

5.x86游戏实战-CE定位基地址

5.x86游戏实战-CE定位基地址

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全上一个内容：4.x86游戏实战-人物状态标志位上一个内容通过CE未知的初始值、未变动的数值、…

阅读更多...

AI绘画 Stable Diffusion【实战进阶】：图片的创成式填充，竖图秒变横屏壁纸！想怎么扩就怎么扩！

AI绘画 Stable Diffusion【实战进阶】：图片的创成式填充，竖图秒变横屏壁纸！想怎么扩就怎么扩！

大家好，我是向阳。所谓图片的创成式填充，就是基于原有图片进行扩展或延展，在保证图片合理性的同时实现与原图片的高度契合。是目前图像处理中常见应用之一。之前大部分都是通过PS工具来处理的。今天我们来看看在AI绘画工具 Stable Diffusio…

阅读更多...

利用GPT-4o秒杀100块的开题报告，让你轻松接私活

利用GPT-4o秒杀100块的开题报告，让你轻松接私活

GPT4o秒杀100块的开题报告使用网址 https://chatgpt-plus.top/ 需求文档上传给GPT 让gpt提供下载链接成品如下，只需要稍微排版即可。本科毕业设计（论文）开题报告 1. 选题目的、意义及研究现状选题目的： 建立一个基于Pyt…

阅读更多...

大物3错题整理

大物3错题整理

平衡位置：在O点上的位置相位： 当N很大的时候，wxwywz。因此，平均平动动能除以3，就是能量均分定理。 W F在x上的积分 Π时无单位 180，就是单位 1rad，rad就是单位左手定则、右手定则、安培定…

阅读更多...

DDD学习笔记五

DDD学习笔记五

模型引力场：聚合强作用力体现： 某个领域模型是另一些模型存在的前提，没有前者，后者就失去了生存的意义。一组领域模型之间存在关联的领域逻辑，任何时候都不能违反。一组领域模型必须以一个完整的、一致的状态呈现给…

阅读更多...

魔行观察-烤匠麻辣烤鱼-开关店监测-时间段：2011年1月至 2024年6月

魔行观察-烤匠麻辣烤鱼-开关店监测-时间段：2011年1月至 2024年6月

今日监测对象：烤匠麻辣烤鱼，监测时间段：2011年1月至 2024年6月本文用到数据源获取地址魔行观察http://www.wmomo.com/ 品牌介绍： 2013年，第一家烤匠在成都蓝色加勒比广场开业，随后几年成都国金中心店…

阅读更多...

最新文章