XX年全国职业院校技能竞赛大数据技术与应用赛题库

据央视财经报道,2020年我国O2O市场规模突破万亿元,O2O市场存在着巨大的潜力。特别是餐饮和外卖行业,占据市场较大份额,并且业务增长迅速。截至2020年底,全国外卖总体订单量已超过171.2亿单,同比增长7.5%,全国外卖市场交易规模达到8352亿元,同比增长14.8%。我国外卖用户规模已接近5亿人,其中80后、90后是餐饮外卖服务的中坚消费力量,消费者使用餐饮外卖服务也不再局限于传统的一日三餐,下午茶和夜宵逐渐成为消费者的外卖新宠。为把握这一商业机遇,ChinaSkills公司计划进驻外卖平台市场,现需对大规模成熟外卖平台进行详细评估调研,采集多方多维度数据,寻找行业痛点,摸清市场需求,以技术为手段为投资保驾护航。

为完成该项工作,你所在的小组将应用大数据技术,以Python、Java、Scala作为整个项目的基础开发语言,基于大数据平台综合利用MapReduce、Spark、MySQL、Scrapy、Flask、ECharts等,对数据进行获取、处理、清洗、挖掘、分析、可视化呈现,力求实现对公司未来的重点战略方向提出建议。

你们作为该小组的技术人员,请按照下面任务完成本次工作,并编制综合报告。

模块B:数据采集与处理

项目背景说明

1、查看餐饮外送统计平台网站源码结构。

1)打开网站,在网页中右键点击检查,或者F12快捷键,查看源码页面;

2)检查网站:浏览网站源码查看所需内容。

2、从餐饮外送统计平台中采集需要数据,按照要求使用Python语言编写代码工程,获取指定数据项,并对结果数据集进行必要的数据处理。请将符合任务要求的结果复制粘贴至对应报告中。

具体步骤如下:

1)创建工程工程项目:C:\food_delivery

2)构建采集请求

3)按要求定义相关字段

4)获取有效数据

5)将获取到的数据保存到指定位置

6)对数据集进行基础的数据处理

至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基础的数据处理。

3、自行创建Scrapy工程项目food_delivery,路径为C:\ food_delivery按照任务要求从餐饮外送统计平台中获取数据。提取“商户数据”页面相关字段(包括平台餐厅ID、餐厅名称、城市等全部有效数据项),保存至文件restaurant_data.json;再提取“配送平台灰测维度数据”页面相关数据(包括餐厅名称、城市、营业时长等全部字段)保存至文件grey_test.json。

4、每条数据记录请以单独一行保存,信息存储格式为key:value。文件保存路径为:C:\output。

示例:

{" rest_id ": “***”, " rest_name “: “***”,……},

{” rest_id ": “***”, " rest_name ": “***”,……},

……

5、任务中要求将“以下内容及答案完整复制粘贴至对应报告中。”,粘贴到对应报告中的内容示例如下:

配送范围审核相关数据页数为:100

灰度数据对比相关数据页数为:100

具体要求:

任务一:爬取配送范围审核数据

自行创建Scrapy工程编写爬虫代码,爬取“配送范围审核-人员预算”相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将答案复制粘贴至对应报告中。

示例格式:

配送范围审核相关数据页数为:


任务二:爬取配送平台灰测数据

自行创建Scrapy工程编写爬虫代码,爬取“配送平台灰测维度数据”页面相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将答案复制粘贴至对应报告中。

示例格式:

灰测维度相关数据页数为:

任务三:爬取指定文件

运行代码,爬取网页数据至指定文件。查看文件并填写采集到的记录条数,并将答案复制粘贴至对应报告中。

示例格式:

range_audited.json行数为:

grey_test.json行数为:

任务四:属性判断

审查爬取的range_audited数据,判断属性“申请时间”、“创建时间”与“created_at”、“updated_at”是否为重复属性。如果为重复属性,则删除“申请时间”、“创建时间”;如果不是重复属性,请输出数据集中数值不相同的记录条数。并将答案复制粘贴至对应报告中。

(1)如果仅考虑年、月、日数据,忽略时刻信息,“申请时间”、“创建时间”与“created_at”、“updated_at”是否为重复属性?(请填写“是”/“否”) :

(2)如果不是重复属性,不同的记录条数共有条数为:

(如果为重复属性,请填写“/”)

任务五:数据探索

针对爬取的grey_test数据,利用DataFrame.describe方法探索数据基本情况,将输出结果复制粘贴至对应报告中。

任务六:缺失值统计

根据任务4的输出结果,grey_test数据中那一个属性缺失值最多?请将正确答案复制粘贴至对应报告中。

示例格式:

缺失值最多的属性为: