推荐专题：

700字范文 > 注意力机制的改进

注意力机制的改进

时间：2021-10-30 00:28:48

相关推荐

注意力机制的改进

Multi-Head Attention

对于Q和K一般先将降维然后在计算注意力，然后将此操作重复多次(h次)最后将结果拼接即为多头注意力。这里假设降维的Q、K维度是 n ∗ ( d / h ) n*(d/h) n∗(d/h)，点积后为 n ∗ n n*n n∗n，也就是说要用一个 2 ∗ n ∗ ( d / h ) 2*n*(d/h) 2∗n∗(d/h)参数量去逼近一个 n 2 n^2 n2的参数量，然而 2 n d / h < < n 2 2nd/h<<n^2 2nd/h<<n2,尤其h更大时，这种建模存在瓶颈的（低秩瓶颈）。

改进1：增大d（Low-Rank Bottleneck in Multi-head Attention Models）

跟剧上文所说的缺点，直接想法就是增大 2 n d / h 2nd/h 2nd/h，h不能减小（与多头注意力冲突），n与V维度相关，不能变，所以只能增大d，实验表明能增加注意力的表达能力

改进2：混合各head注意力（Talking-Heads Attention）

当前的Multi-Head Attention每个head的运算是相互孤立的，而通过将它们联系（Talking）起来，则可以得到更强的Attention设计

如上图，就是将多头注意力用一个参数矩阵重新融合成多个混合注意力。每个新的得到的混合注意力都融合了原先的各head注意力。

注：

1、这里省略了缩放因子 d k \sqrt d_k d k

2、新生成的多个混合注意力可以多于原先的h

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

YOLOv5改进--添加CBAM注意力机制

2020-12-28

YOLOV7改进--添加CBAM注意力机制

2021-06-14

【NLP】Transformer—用注意力机制改进自然语言处理

2023-04-04

【YOLO系列改进NO.2】添加CBAM注意力机制

2023-04-08

扩展阅读

: 自注意力机制（Self

: 深度学习中的注意力机制

: 一文解读NLP中的注意力机制

: 一文解读NLP中的注意力机制

: 一文解读NLP中的注意力机制

: 怕一词多义？谷歌翻译用“注意力机制”解决难题

最近发布

妈妈爱我的作文700字

2024-09-23

我心目中的老师和同学700字作文素材大全

2024-09-23

小小辩论家：激烈辩论赛中的小学生们

2024-09-23

【欢乐考试时刻：700字搞笑祝福短信】

2024-09-23

探讨善良的魅力：一篇700字论文

2024-09-23

幸福的守候作文700字

2024-09-23

推荐专题

以选择为话题的作文700字意外的惊喜作文700字最美好的时光作文700字叙事作文700字成长回眸700字作文记忆深处作文700字爱作文700字翅膀作文700字爱使我什么作文700字幸福的味道700字作文我不想长大作文700字逆袭作文700字叙事文700字起点作文700字家700字作文