基于微博的用户画像
成员
- 魏嘉毅 2620160022
- 李安琪 2620160031
- 刘艳 2620160026
问题描述
1、问题背景分析
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,这是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。用户画像对企业能提供很大的帮助,那么提高用户画像的精确度和全面性是很有必要的。结合当前社交网络的发展,越来越多的用户以各种形式在社交平台上表现自己,研究社交媒体环境下的用户画像是很有意义的。
2、问题描述:
(1) 选择数据集。在社交媒体平台进行用户相关数据的爬取。 (2) 文本预处理。包括对文本进行分词、去停用词、去无意义的高频词等,获得较为规则的数据集。 (3) 主题提取。用 BTM 对分好词的文本进行建模,通过多次实验确定主题数目 K 的值,然后获得 K 个主题及其在文档中的分布情况,还可以获得每个主题下的主题词及其每个词各自的权重。 (4) 用户属性挖掘。通过统计用户文本中主题词的词频来确定用户的属性,并且加入时间窗口和衰减函数来获取动态的用户属性。
目标
经过以上步骤,基本得到了用户的动态属性,即构建了用户画像。利用用户画像可以对用户进行分析并为其提供个性化的服务。
项目分工
-李安琪:数据爬取
-魏嘉毅:算法实现,数据分析
-刘艳:编写文档