目录
理论知识准备构造文本特征向量TF-IDF 值sklearn中TfidfVectorizer代码实例CountVectorizer代码实操Word2Vec代码案例总结每文一语理论知识准备
前期我们对分词进行了详细的讲解,那么分词之后,哪些关键词对一个文档才是重要的?比如可以通过单词出现的次数,次数越多就表示越重要。
构造文本特征向量
Count (文档:空格连接的字符串)
TFIDF (文档:空格连接的字符串)
Word2Vec (文档:分词列表)
TF-IDF 值
单词的TF-IDF 值可以描述一个单词对文档的重要性,TF-IDF 值越大ÿ
机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)