大数据职位招聘信息挖掘

成员

  • 唐雨馨(3220190870)
  • 李杨晓(3220190833 )
  • 黄宇婷(3220190814)
  • 邬成浩(3220190893)
  • 徐园(3220190903)

问题描述

1、问题背景及分析

随着互联网行业的快速发展、计算机硬件和软件能力的不断提升,大数据技术应运而生。大数据技术现已被应用到各行各业,各大互联网公司对大数据人才的需求也越来越多。如何引导相关从业人员正确的选择岗位,找到让自己满意的工作也就显得尤为重要。 本项目通过爬虫获取主流招聘网站大数据相关职位的招聘信息,对其进行数据挖掘和数据分析,探索大数据岗位的核心需求是什么,以及挖掘出不同城市、不同企业等对大数据岗位待遇的影响。旨在帮助求职者分析当前大数据行业的求职趋势。

同时,该项目还对各招聘信息的企业人才需求画像进行了建模,该模型能通过求职者的基本信息(渴望薪资、学历、工作经验等),生成可求职企业的基本画像。该功能可以帮助各招聘门户网站完善其求职搜索功能,在用户进行搜索后迅速缩小适合企业的范围,进行更加迅速有效的职位推荐。

2、问题描述

2.1 数据准备

爬虫爬取数据,从主流门户网站(智联招聘、拉钩网等)上爬取大数据相关职位的招聘信息(包括职位地点、公司名称、公司性质、公司融资级别、职位空缺、薪资、福利、需求学历、需求工作经验等)。对数据进行去重,筛选,预处理后处理成合适的格式进行数据挖掘。

2.2 方法与模型

本项目基于爬虫技术、机器学习、关联挖掘、数据可视化等技术对各大公司大数据岗位画像、公司画像进行建模,对学历、专业、学校、求职地、工作年限、技能、工作经历等因素对求职的影响进行数挖掘和数据分析。

2.3 预期结果

  • 职位内在需求挖掘
  • 职位待遇与众多因素关联挖掘
  • 通过用户画像生成企业画像

项目评估

1.关联规则

对于关联规则的挖掘,采用合适的关联规则评估方法(lift等)结合现有常识进行评估。

2.模型评估

由于该问题的根本属于分类问题,所以用准确率进行评估。

项目分工

  • 唐雨馨: 爬虫,关联挖掘,数据可视化,文档撰写
  • 黄宇婷:数据预处理,文档撰写
  • 徐园:关联挖掘,文档撰写
  • 李杨晓:关联挖掘,文档撰写
  • 邬成浩:数据预处理,模型建立,文档撰写