背景
文本分类中的深度学习算法比较多,各种算法也由于其复杂度适应不同的场景。这次介绍的fasttext也是一个结构比较简单模型。结构虽然简单,但效果不错,还快。并且除了python有相关实现的包外,在工程方面还有Java相关的实现以及还有C语言版本的等。总体来说,这个模型在工业上使用的也比较多。fasttext是由Facebook发表的出算法,该论文借鉴了Word2Vec的一些思想,总体也比较简单,但是效果好。对原文感兴趣的可以参见论文:Bag of Tricks for Efficient Text Classification
本文则直接介绍如何使用facebook推出的fasttext包,该包的官方地址:fasttext官方文档,源码地址:fasttext。
fasttext除了可以做进行文本分类以外,也可以训练词向量。官方提供了157门语言的词向量,如下图所示:
该图对应的链接:/docs/en/pretrained-vectors.html. 本文主要介绍使用fasttext进行文本分类,关于词向量相关可以参考官方文档。
使用的包