700字范文 > 自然语言处理（NLP）：04 word2vec 入门介绍

自然语言处理（NLP）：04 word2vec 入门介绍

时间：2022-05-24 17:07:27

本章节研究内容：词向量介绍＋word2vec两种架构cbow&skip-gram＋google word2vec 源码分析＋滑动窗口如何构建数据

词向量表示

NLP 中最直观，也是到目前为止最常用的词表示方法是 One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。

举个栗子，

“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]

“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]

每个词都是茫茫 0 海中的一个 1。

这种 One-hot Representation 如果采用稀疏方式存储，会是非常的简洁：也就是给每个词分配一个数字 ID。比如刚才的例子中，话筒记为 3，麦克记为 8（假设从 0 开始记）。

问题：无法获取词与词之间的相似度；维数多个，稀疏严重

Deep Learning 中一般用到的词向量是用 Distributed Representation表示的一种低维实数向量。例如： [0.792, −0.177, −0.107, 0.109, −0.542, …]。维度以 50 维和 100 维比较常见

通过训练将每个词映射K维的向量&#x

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。