项目题目
基于微博的用户画像分析
成员
康智慧2120171025
林鹏飞 5720181035
芦美艳 2120171042
周宇田 2120171106
问题描述
1、问题背景分析
信息时代的发展,微博作为一个全民化的社交平台,拥有超过5亿用户,这些数据背后隐藏着很多有待挖掘的价值信息。对于已有的用户信息,比如性别、年龄,我们无法通过这些零散的信息获取知识,因此通过统计的方法整合信息变得十分重要。用户画像,即为用户打标签,用简单的特征词汇描述用户特征,分析用户的基本信息概况和行为习惯。利用微博数据实现用户画像,对企业的精准营销具有重大意义。
2、问题描述
2.1. 数据准备
数据获取:在微博爬取用户相关数据。
数据预处理:提取用户信息,包括用户名、id、发布内容等信息,清洗数据,去除无名数据;文本分词,筛选名词,提取主题词。
数据分析:情感分析:根据用户评论词语分析用户情感倾向,包括积极、中性、消极、反复无常。兴趣分析:根据关键词和话题词,分析用户的喜好。时间分析:主要分析用户在不同时间段的上线情况。 2.2. 模型建立
项目评估
通过数据分析用户特征属性,为用户构建简易画像。计划根据小组成员的能力和时间,尽可能从多角度分析用户数据。
项目分工
康智慧:数据获取
林鹏飞:数据分析实现
芦美艳:数据预处理
周宇田:数据分析实现