Skip to content
Go back

群删推文数据分析

群删推文数据set 1分析

闲来无事,顺便练练手。日前某不存在的公司因众所周知的原因群删了部分帐号,并公布了相关的资料。资料包含用户信息和推文信息两部分;并分别被切成两部分(即四个文件供下载)。经过下载比较发现,推文信息中包含了所有用户信息的字段,故本次基本只分析set 1的推文信息,即可略窥全貌。

因为该公司既没有公布群删的标准,我手上也没有现成的其他未被删除的推文做对比(我可不想为这这么点解读,就开始去整个爬虫来拉数据),故只能就这些数据本身做一次解读。那么这些推文究竟是什么样、是些什么人发的呢?以下主要从这几个方面进行解读:

汇总及用户分层

该数据集供包含由699人发布的1,906,831条推文。人均发推2,727条。发推量非常不平均,最少发推1条、最高发推268,284条。如将各用户发推量汇总并按照逆序排列,可得下图。 {% qnimg twitter_hk/tweets_by_pctcum01.png %}

由图可见:

TierCoverage#of UsersAvg. #of Tweets/UserDaily #of Tweets/UserComments
468%7184,084.3133.8
380%14108,561.715.9重点人群
295%9119,897.43.2
199.7%3735,096.70.5
0100%6992,727.90.1

后面若有时间,我们可着重研究这部份重点人群(Tier 3的14人)的发推情况。

按发推时间看

该数据集包含2008-06-162019-07-25之间的发帖,这是第一点与我们之前的推测不一致的地方(原本以为这些人是最近密集发帖)。具体发帖量按季度汇总如下: {% qnimg twitter_hk/tweets_by_qtr03.png %} {% qnimg twitter_hk/tweets_by_lc_qtr06.png %}

由图可见:

按发推客户端看

从推特客户端来看,客户端呈多样性,数据简单清理归类后,尚有约270种。但如其他统计特征一样,长尾效应明显。按发推量逆序可以发现Top 21种客户端,可涵盖98.8%推文。具体Top 21的分布如下图。 {% qnimg twitter_hk/tweets_by_client04.png %} {% qnimg twitter_hk/tweets_by_client_type05.png %}

由图可见:

按推文语言看

从现有数据来看,推文语言应该是用户发推以后,引擎根据推文内容进行的自动语言类型检测。长尾效应明显。按发推量逆序可以发现Top 17种客户端,可涵盖98.8%推文。具体Top 17的分布如下图。 {% qnimg twitter_hk/tweets_by_lang07.png %}

由图可见:

按hashtag看

因前述推文的多语言混合特效及标注语言类别不准确等原因(其实主要是懒),就暂不对推文内容进行NLP分析了。这里仅对推文内容中提及的hashtag进行简单的分析。剔除几个高频但看不出具体含义的hashtag(含rtptlpltlrtltlrpnrprptlic)后,按语言分别的Top 20如下: {% qnimg twitter_hk/tweets_by_hotword_top20.png %}

未答案问题


Share this post on:

Previous Post
日志 - 201909
Next Post
少年游