阶段报告
项目简介
- 为了在现实平台上面评价我们的模型,我们在新浪微博平台随机选择了 2100名用户,将他们在 2015 年一年内发布或者转发的微博以及用户的个人信息都爬取下来作为我们的数据集,一共有 640000 条微博。接下来我们对数据进行一定的筛选,把微博量少于 200 的用户信息给过滤了。在剩下的用户中选择 100 个发布或转发的微博量大于 5000 的用户作为训练集来进行主题提取,再选择 100 个用户作为测试集来进行用户属性挖掘和模型评价。
阶段工作
使用 BTM 可以生成短文本的主题,在此基础上进行动态的用户画像建模,最后得出用户的属性。
一、预处理阶段
首先需要对文本进行预处理,具体包括:
1)建立一张停用词表,然后在文本进行预处理的时候就可以参照这个停用词表来剔除一些词; 2)使用基于词频统计的方法进行分词; 3)去掉一些无意义的高频词。
二、将预处理的文本进行主题提取
在这一阶段,用 BTM 对分好词的文本进行建模,通过多次实验确定主题数目 K 的值,然后获得 K 个主题及其在文档中的分布情况,还可以获得每个主题下的主题词及其每个词各自的权重。
1、将作为训练集的 100 个用户的微博数据进行预处理后,采用 BTM 主题模型来进行主题提取。
2、我们通过多次实验最终在主题数目选择 10 的时候效果较好,因此获得了 10 个主题以及每个主题下的 20 个主题词以及它们各自的权重
注:这一阶段,由于实验还未完全做完,就不做实验的展示了,实验的最终结果会在最终报告的实验部分展示。