赛题名称:基于互联网大数据的招聘数据智能分析平台
组类: B 高职组
赛题简介:介绍整个赛题的思路和整体要求
随着互联网大数据的发展,招聘行业的数据分析任务也亟待大数据技术来实现。
本题要求参赛选手实现一整套自动化、基于大数据平台的招聘数据分析系统。从数据收集、数据分析、数据展示这三个方面实现。
在数据收集阶段,参赛者需要对指定的数据完成大数据采集。
数据分析阶段,要求参赛者使用大数据处理技术实现。
数据展示阶段,数据可视化要求不限,可以使用任何数据可视化工具或者web页面进行展示。
赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景
当今互联网行业技术发展日新月异,新的技术新的热点层出不穷。为了实时了解互联网行业最新最热的技术、最火热的岗位、薪资最高的岗位、各个岗位对具体的技术要求等等信息,这时,光靠人工收集并采用普通的方式进行分析十分浪费人力物力,并且效率和体验都不好。开发一套基于大数据的招聘数据分析系统显得尤为重要。
该系统具体有如下需求:
赛题将提供招聘数据集,首先需要将数据集导入到大数据环境中。
在数据库中保存已经做好数据清洗、分析之后的数据,可以很方便的被其他程序调用。
在可视化界面/web页面中监控结果,如“机器学习所要求掌握的前10个重要技能”,“平均薪资前五的职位名称”等等。
功能性需求
工程部分:
数据收集阶段:
搭建大数据运行环境,要求提供简要的运行环境描述说明。
赛题将提供6份招聘数据集,需要将数据全部导入到大数据环境中(hdfs\hbase)。导入方法不限,大数据存储可使用hdfs或者hbase。要求提供数据导入方法的详细说明或相关代码。
导入大数据环境中的数据要按字段保存,不能出现数据保存混乱的情况。
数据分析阶段:
通过大数据技术Hive对数据进行清洗、过滤。清洗和过滤的要求如下:
①将缺少关键数据字段值(数据为空或值为null)的数据过滤掉,关键数据字段为:job_info,job_name。
②无效数据过滤,将job_name中包含“实习”的数据过滤掉。
招聘数据分析:
统计各职位(以job_tag字段作为职位划分依据)所需掌握的前10位技能点。统计某职位前10位技能点需求的方法如下(以“机器学习”职位为例):
①获取所有job_tag的值是“机器学习”的招聘数据。
②对其岗位描述(job_info)进行分词操作。
③过滤分词后的数据,将所有非技术词从数据中过滤掉。技术词与非技术词的认定需要由参赛者自行确定。
④统计过滤后的所有技术词的出现次数,保留前10个出现次数最高的技术词及出现次数。
⑤将分析结果保存到Hbase中。
数据展示阶段:
使用数据可视化工具以图表的形式展示各职位前10位的技能点需求排名和技术词出现的次数。排列顺序按照次数从高到低排列。
展示形式不限,要求图表易懂易解释,可视化精美是加分项。
非功能性需求
自由发挥的部分:
数据分析阶段可以对更多维度进行分析,例如,职位的数量、职位地区的发布数、职位薪资等。(加分项)
开发web页面,提高用户查询可视化分析结果时的可交互性和易用性。(加分项)
其他限制条件:开发环境、实验平台、开发语言、数据库、编译器等限制条件(请尽量明确)
开发环境:
安装Hadoop开发环境,安装Hive\Hbase用于数据保存和分析。
3.使用hdfs文件系统或hbase数据库作为存储数据的平台。
4.使用hive完成数据清洗、过滤、分析。
5.web页面和数据可视化工具不限。
测试数据或平台:提供给参赛者的测试环境和测试数据。(可提供电子档)
数据源:
赛题提供数据集总共分为6份,jobs1.csv~jobs6.csv。
数据集字段相同,主要字段解释如下:
company_financing_stage:公司融资阶段
company_industry:公司所在行业
company_location:公司地址
company_name:公司名称
company_nature:公司性质
company_overview:公司概况
company_people:公司人数
job_edu_require:职位学历要求
job_exp_require:职位经验要求
job_info:职位描述信息
job_name:职位名称
job_salary:职位薪资
job_tag:职位索引标签
job_welfare:职位福利
开发所需设备及设备指标需求说明
普通个人计算机
Linux服务器*3或linux虚拟机镜像*3搭建Hadoop环境。
其他要求
提交相关文档:
系统设计说明:详细描述软件的架构、设计理念等。
程序源代码:要求包含整个项目源代码。
项目文档:要求说明整个项目代码应该如何配置,如何启动。
视频演示:要求包含数据库数据和web页面展示。
评分标准:
评分以工程部分的实现程度和自由发挥部分的实现程度两个个方面进行。分别占总分值的70分和30分。
工程部分:
1.数据收集阶段10分(按要求搭建大数据运行环境2分;实现数据导入3分;导入结果正确3分)
2.数据分析阶段40分(数据的清洗、过滤每个要求5分;招聘数据分析每个要求6分)
3.数据可视化阶段20分(选用合适的分析图展示各职位所需掌握的前10位技能点数据10分;分析图上包含必要的标题、图例、刻度信息等5分;分析图精美程度5分)
自由发挥部分:
1.每增加一个维度的数据分析及可视化展示加5分,最多20分。
2.开发出交互性、易用性强的Web界面,根据完成情况得分,最多10分。
数据下载 提取码:rgf3
出题企业:北京课工场教育科技有限公司
答疑方式:饶老师 电话:18500867068 邮箱:pai.pin@kgc.cn 答疑QQ群:776190162