XX年全国职业院校技能竞赛大数据技术与应用赛题库

企业消费服务平台,为大中小型企业提供基于云化的消费场景一站式智能消费、智能管控,帮助企业获得更高效、简单、美好的消费管理。从“费控+支付”出发,到覆盖全场景支出的创新模式,让员工在数字化平台上直接完成所有消费,从员工下单、到财务入账,全流程实现自动化统一结算、统一数据分析。解决传统差旅系统面临的场景覆盖不全、员工体验差、消费体验割裂等情况,真正做成一套让企业节省支出,让员工满意的差旅平台。

企业消费服务平台的出现将原来传统的差旅行程放到网络平台上,更广泛的传递差旅信息,互动式的交流更方便客人的咨询和订购,越来越多的人在出行的时候使用企业消费服务平台预订机票、火车票、住宿等,使得更多的商家愿意与企业消费服务平台建立合作,提升住宿场所的营业额,这也为企业消费服务平台的发展带来新的机遇,为了抓住这个机会,“企业消费服务平台”需要从地域、订单来源等多种维度进行分析,明确未来重点拓展合作商家的方向。公司要求多个小组进行分析,并提出相应建议,你所在的小组也在其中,需要通过数据采集、数据清洗、数据分析和数据可视化获得相关论据,提出未来重点拓展合作住宿场所的方向。

你们作为该小组的技术人员,是这次技术方案的核心成员,请按照下面的步骤完成本次技术展示任务,并提交分析报告。

模块B:数据采集与处理

1、 网站解析,利用Chrome查看网页源码,分析企业消费平台网站网页结构。

1) 打开企业消费平台站,在网页中右键点击检查,或者F12快捷键,查看元素页面;

2) 检查网站:浏览网站源码查看所需内容。

2、 从企业消费平台网站中爬取需要数据,按照要求使用Python语言编写爬虫代码,爬取指定数据项,并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。

具体步骤如下:

1) 创建爬虫项目

2) 构建爬虫请求

3) 按要求定义相关字段

4) 获取有效数据

5) 将爬取到的数据保存到指定位置

至此已从住宿场所网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。

详细数据描述:

1) 请创建Scrapy项目chinaskills_accommodation(C:\ chinaskills_accommodation),从网站中爬取页面相关字段;将抓取结果保存为json格式文件,并命名为accommodations.json。每条信息请以Key:Value格式单独保存为一行数据。

例如:

{“name1”:”***”, ”name2”:”***”,…….}

……

具体任务要求:

任务一:网页源码应字段

使用Chrome浏览器,查看相关数据页面第一页第一行数据记录的网页源码,并将以下内容及答案完整复制粘贴至对应报告中。

“城市平均实住间夜”网页源码中对应的当前td的源代码为

“房间数”网页源码中对应的当前td的源代码为

“城市直销拒单率”网页源码中对应的当前td的源代码为

“商圈”网页源码中对应的当前td的源代码为

任务二、自行创建Scrapy工程

自行创建Scrapy工程编写爬虫代码,爬取“住宿场所名称,城市,商圈,城市直销拒单率,是否为客栈,评分,评论数, 省份, 住宿场所实住订单, 住宿场所实住间夜”相关数据,通过爬虫代码分页爬取,将使用re解析分页链接的程序源代码并将程序代码复制粘贴至对应报告中。

任务三:在MySQL中创建数据库表

根据爬取字段,在MySQL中创建crawl数据库,在该数据库中创建accommodations1表(包含住宿场所名称,城市,商圈,城市直销拒单率,是否为客栈,评分),创建accommodations2表(包含住宿场所名称,城市,商圈,评论数, 省份, 住宿场所实住订单, 住宿场所实住间夜),将爬取数据写入相应数据表中,并分别统计accommodations1表和accommodations2表的总行数,将统计结果复制粘贴至对应报告中。

任务四:对数据库表排序

爬虫程序运行结束后查看MySQL数据库accommodations1表,按评分倒序排序,返回前100行数据,将命令与查看结果复制粘贴至对应报告中。

任务五:对数据表填充处理

请根据步骤3中accommodations1表中的数据,对数据集中“城市直销拒单率”字段的缺失值,使用平均值进行填充。查看填充后的数据集前5条记录,将查看结果复制粘贴至对应报告中。

任务六:对数据表删除处理

请根据步骤3中accommodations2表中的数据,对数据集中存在空值的记录进行删除。查看删除后的数据集条数,将查看结果复制粘贴至对应报告中。

accommodations2表删除后条数为: