推荐专题：

700字范文 > NLP自然语言处理学习笔记（二）Word2Vec

NLP自然语言处理学习笔记（二）Word2Vec

时间：2023-08-10 06:39:35

相关推荐

NLP自然语言处理学习笔记（二）Word2Vec

NLP自然语言处理学习笔记（二）Word2Vec

一、Word2Vec二、负采样

本文是根据吴恩达教授的教学视频来整理的学习笔记，部分图片来源于视频的截图。原教学视频连接 https://mooc./learn/2001280005?tid=2001391038#/learn/content

一、Word2Vec

Word2Vec是词嵌入的一种算法。分为Skip-grams和CBOW两种。Skip-grams是给定中心词来预测上下文，CBOW是给定上下文来预测中心词。

下图中，以Orange为中心词，来预测上下文。

训练过程如下图：

Skip-grams算法的缺点主要是运行速度太慢。

改善方式一：softmax层需要对10000个样本求和，速度慢。因此使用分级softmax的算法，构建一课分类树，先判断预测出来的词是位于词汇表的前5000还是后5000，然后再继续做更细的分类。在实际使用中，这棵树通常可能不是对称的，将频繁出现的词放在贴近树根部的位置，将出现频率较低的词放到离树根部较远的位置。

改善方式二：负采样，下一小节将介绍。

二、负采样

正样本的分类结果是1，负样本的分类结果是0。

训练模型：

模型的输出是10000个softmax分类器，每次迭代选择1个正样本和k个负样本，来对参数进行更新。

如何选择负采样的样本？

如果按频率选择，会出现很多the, and, a, an这样的高频词，造成干扰。

如果完全均匀地选择，不考虑频率，效果又不太好。

因此有研究者建议，按频率的3/4次方来采样，可以取得比较好的效果。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

【自然语言处理（NLP）】基于CBOW实现Word2Vec

2022-12-26

【自然语言处理（NLP）】基于Word2Vec的语言模型实践

2023-12-13

word2vec 在非自然语言处理 (NLP) 领域的应用

2024-01-12

自然那语言处理之深度学习word2vec笔记之应用篇

2023-02-01

扩展阅读

: 除了自然语言处理你还可以用Word2Vec做什么？

: 除了自然语言处理（你还可以用Word2Vec做什么）

: 什么是自然语言处理（NLP）？

: 科普丨什么是NLP（自然语言处理）

: 科普丨什么是NLP（自然语言处理）

: 从语言学到深度学习NLP 一文概述自然语言处理

最近发布

妈妈爱我的作文700字

2024-09-23

我心目中的老师和同学700字作文素材大全

2024-09-23

小小辩论家：激烈辩论赛中的小学生们

2024-09-23

【欢乐考试时刻：700字搞笑祝福短信】

2024-09-23

探讨善良的魅力：一篇700字论文

2024-09-23

幸福的守候作文700字

2024-09-23

推荐专题

小小说700字家庭生活作文700字在成长的路上作文700字坚守作文700字我的暑假作文700字关于雨的作文700字我心目中的英雄700字为自己点赞700字作文初中作文700字看见作文700字难忘的暑假700字写人记事700字回家700字作文带小标题的作文700字 700字美文摘抄