700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 虎扑论坛爬虫采集数据可视化分析

虎扑论坛爬虫采集数据可视化分析

时间:2020-07-04 14:03:29

相关推荐

虎扑论坛爬虫采集数据可视化分析

原文链接:/?p=

论坛为用户提供了相同的业余爱好,互动和交流的广阔平台,以及由此产生的庞大数据和复杂的用户交互场景也包含有价值的信息,本文关于虎扑论坛的帖子,个人信息分析,探讨虎扑论坛的用户是什么是什么特点?

tecdat研究人员分析了1月Tiger Walk论坛每个部分的所有帖子,使用数据探索用户行为并概述用户偏好。

以下是虎扑的官方介绍摘录:虎扑是一个专业的年轻男子网站,涵盖了原有的新闻专栏视频报道,包括篮球,足球,F1,NFL等大型生活/视频/游戏/ car / digital在线交流社区,谈论体育谈话对虎扑的兴趣。

数据显示

数据源:

1月虎屁论坛步行街所有分段的所有帖子,删除低度关注的帖子,总数为3.3W +;

以上3.3W +帖子在主干部分回复用户的个人信息,用户总重量为2.3W +。

社交和交易属性是活动的关键

在虎扑社区由10个分论坛,380个分论坛组成,发帖量达到70W +,哪个最活跃呢?

通过比较每个部分的帖子数量,您可以看到在大型子论坛中,[设备论坛]的帖子数量最多,其次是Pedestrian Street和[NBA]; 在380个小节中,[Main Street Pedestrian]和[IT Digital]最受欢迎,其次是[Cheyou exchange]和[burst]; 其中,[行人]岗位占近7成,远高于其他。

可以看出,交易属性和社交属性是维持社区热情和用户活动的关键。

点击标题查阅往期内容

虎扑社区论坛数据爬虫分析报告

左右滑动查看更多

01

02

03

04

除了体育,约会八卦也是最受关注的话题

除了交易部分,[Pedestrian]和[NBA]是虎扑最活跃的部分,[NBA论坛]主题一般围绕比赛开始,而[行人]社会属性相对较强,通过[Pedestrian]分析,看看老虎扑动的其他成员在体育赛事中关注的是什么。

通过文字云分析所有步行街的帖子内容,删除上面提到的高频词50,可以得到以下词云图。从单词云图中可以看出,步行街区的讨论内容经常被提及情感关键词,如“女朋友”,“朋友”和“喜欢”,可以推断成员Tiger Puff社区主要是年轻人;

富裕,体育,篮球也经常被提及关键词,可见胡鹏体育运动成员更强; 同时,我们还可以看到词云还包括李小璐,特步等关键词,我们可以看到热门八卦而且知道热门话题的话题也非常关注;

此外,“大学”,“室友”,“毕业”等也经常被提及,表明虎扑社区活跃在一群大学生中。

综上所述,我们可以初步猜测,虎扑成员以青年男子和大学生为主,他们喜欢篮球等体育,交友是他们最关心的话题,他们也喜欢讨论一些八卦热点和了解微博等热门话题。

用户分析

用户性别

除了不愿透露性别用户外,步行街的剩余活跃用户中,女性仅占4.5%,这与虎扑社区的物理属性基本相同。

用户的位置

从下面的地理分布可以看出,步行街的活跃用户主要分布在经济发达的省市,如广东,江苏,北京,浙江和上海,上述五个地区占50%以上。

用户日逗留时间

通过计算用户注册天数和在线持续时间,可以发现虽然45.5%的用户每天使用不到半小时,但超过30%的用户花费超过一小时超过一小时,表明由洗发水社区提供的内容更具吸引力。

总结一下

总的来说,虎扑成员以青年男子和大学生为主,他们喜欢篮球等运动,关注NBA,英超等联赛; 但是行人社区,他们的话题不仅限于体育,八卦,情感咨询,他们关注的内容也是如此; 而且他们在虎扑中停留的时间更长,虎扑的内容可以很好地把握当前的用户群体。

本文摘选虎扑论坛基因探秘:社群用户行为数据洞察,点击“阅读原文”获取全文完整资料。

点击标题查阅往期内容

婚庆市场用户行为数据采集爬虫分析报告(以小红书为例)

互联网热门职位薪资数据采集爬虫对比报告

python爬虫进行Web抓取LDA主题语义数据分析报告

scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘

亚马逊商品销售数据爬虫分析报告

深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据

文本挖掘NLP分析:LDA主题模型分析网购数据

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python:使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用:情感分析

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理(NLP):情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

欲获取全文文件,请点击左下角“阅读原文”。

欲获取全文文件,请点击左下角“阅读原文”。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。