项目题目

基于微博的用户画像分析

成员

康智慧2120171025

林鹏飞 5720181035

芦美艳 2120171042

周宇田 2120171106

问题描述

1、问题背景分析

信息时代的发展,微博作为一个全民化的社交平台,拥有超过5亿用户,这些数据背后隐藏着很多有待挖掘的价值信息。对于已有的用户信息,比如性别、年龄,我们无法通过这些零散的信息获取知识,因此通过统计的方法整合信息变得十分重要。用户画像,即为用户打标签,用简单的特征词汇描述用户特征,分析用户的基本信息概况和行为习惯。利用微博数据实现用户画像,对企业的精准营销具有重大意义。

2、问题描述

2.1. 数据准备

数据获取:在微博爬取用户相关数据。

数据预处理:提取用户信息,包括用户名、id、发布内容等信息,清洗数据,去除无名数据;文本分词,筛选名词,提取主题词。

数据分析:情感分析:根据用户评论词语分析用户情感倾向,包括积极、中性、消极、反复无常。兴趣分析:根据关键词和话题词,分析用户的喜好。时间分析:主要分析用户在不同时间段的上线情况。 2.2. 模型建立

项目评估

通过数据分析用户特征属性,为用户构建简易画像。计划根据小组成员的能力和时间,尽可能从多角度分析用户数据。

项目分工

康智慧:数据获取

林鹏飞:数据分析实现

芦美艳:数据预处理

周宇田:数据分析实现