阿里音乐流行趋势预测
成员
- 张逸恒 2120171100
- 余梦巧 2120171089
- 曹倩雯 3120170497
问题描述
经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。
本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛者可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。
1.1数据准备
大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150830)的用户行为历史记录。
1.2模型建立
用户行为表(mars_tianchi_user_actions)
列名 类型 说明
user_id String 用户唯一标识
song_id String 歌曲唯一标识
gmt_create String 用户播放时间(unix时间戳表示)精确到小时
action_type String 行为类型:1,播放;2,下载,3,收藏
Ds String 记录收集日(分区)
注:用户对歌曲的任意行为为一行数据。
歌曲艺人(mars_tianchi_songs)
列名 类型 说明
song_id String 歌曲唯一标识
artist_id String 歌曲所属的艺人Id
publish_time String 歌曲发行时间,精确到天
song_init_plays String 歌曲的初始播放数,表明该歌曲的初始热度
Language String 数字表示1,2,3…
Gender String 1,2,3
选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。
项目评估
项目分工
- 张逸恒:数据预处理、数据统计分析、模型选择、文档编写
- 余梦巧:算法选择、实验编码、模型选择、文档编写
- 曹倩雯:结果可视化、算法选择、模型选择、文档编写