RAYBET雷竞技-最佳电子竞技即时竞猜平台

XX年全国职业院校技能竞赛大数据技术与应用赛题库

企业消费服务平台，为大中小型企业提供基于云化的消费场景一站式智能消费、智能管控，帮助企业获得更高效、简单、美好的消费管理。从“费控+支付”出发，到覆盖全场景支出的创新模式，让员工在数字化平台上直接完成所有消费，从员工下单、到财务入账，全流程实现自动化统一结算、统一数据分析。解决传统差旅系统面临的场景覆盖不全、员工体验差、消费体验割裂等情况，真正做成一套让企业节省支出，让员工满意的差旅平台。

企业消费服务平台的出现将原来传统的差旅行程放到网络平台上，更广泛的传递差旅信息，互动式的交流更方便客人的咨询和订购，越来越多的人在出行的时候使用企业消费服务平台预订机票、火车票、住宿等，使得更多的商家愿意与企业消费服务平台建立合作，提升住宿场所的营业额，这也为企业消费服务平台的发展带来新的机遇，为了抓住这个机会，“企业消费服务平台”需要从地域、订单来源等多种维度进行分析，明确未来重点拓展合作商家的方向。公司要求多个小组进行分析，并提出相应建议，你所在的小组也在其中，需要通过数据采集、数据清洗、数据分析和数据可视化获得相关论据，提出未来重点拓展合作住宿场所的方向。

你们作为该小组的技术人员，是这次技术方案的核心成员，请按照下面的步骤完成本次技术展示任务，并提交分析报告。

模块B：数据采集与处理

1、网站解析，利用Chrome查看网页源码，分析企业消费平台网站网页结构。

1）打开企业消费平台网站，在网页中右键点击检查，或者F12快捷键，查看元素页面；

2）检查网站：浏览网站源码查看所需内容。

2、从企业消费平台网站中爬取需要数据，按照要求使用Python语言编写爬虫代码，爬取指定数据项，并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。

具体步骤如下：

1）创建爬虫项目

2）构建爬虫请求

3）按要求定义相关字段

4）获取有效数据

5）将爬取到的数据保存到指定位置

至此已从住宿场所网站中爬取了所需数据，下一步我们要将爬取结果进一步进行相关数据操作。

详细数据描述：

1）请创建Scrapy项目chinaskills_accommodation（C:\ chinaskills_accommodation），从网站中爬取页面相关字段；将抓取结果保存为json格式文件，并命名为accommodations.json。每条信息请以Key：Value格式单独保存为一行数据。

例如：

{“name1”:”***”, ”name2”:”***”,…….}

……

具体任务要求：

任务一：网页源码应字段

使用Chrome浏览器，查看相关数据页面第一页第一行数据记录的网页源码，并将以下内容及答案完整复制粘贴至对应报告中。

“城市平均实住间夜”网页源码中对应的当前td的源代码为：

“房间数”网页源码中对应的当前td的源代码为：

“城市直销拒单率”网页源码中对应的当前td的源代码为：

“商圈”网页源码中对应的当前td的源代码为：

任务二、自行创建Scrapy工程

自行创建Scrapy工程编写爬虫代码，爬取“住宿场所名称,城市,商圈,城市直销拒单率,是否为客栈,评分,评论数, 省份, 住宿场所实住订单, 住宿场所实住间夜”相关数据，通过爬虫代码分页爬取，将使用re解析分页链接的程序源代码并将程序代码复制粘贴至对应报告中。

任务三：在MySQL中创建数据库表

根据爬取字段，在MySQL中创建crawl数据库，在该数据库中创建accommodations1表（包含住宿场所名称,城市,商圈,城市直销拒单率,是否为客栈,评分），创建accommodations2表（包含住宿场所名称,城市,商圈,评论数, 省份, 住宿场所实住订单, 住宿场所实住间夜），将爬取数据写入相应数据表中，并分别统计accommodations1表和accommodations2表的总行数，将统计结果复制粘贴至对应报告中。

任务四：对数据库表排序

爬虫程序运行结束后查看MySQL数据库accommodations1表，按评分倒序排序，返回前100行数据，将命令与查看结果复制粘贴至对应报告中。

任务五：对数据表填充处理

请根据步骤3中accommodations1表中的数据，对数据集中“城市直销拒单率”字段的缺失值，使用平均值进行填充。查看填充后的数据集前5条记录，将查看结果复制粘贴至对应报告中。

任务六：对数据表删除处理

请根据步骤3中accommodations2表中的数据，对数据集中存在空值的记录进行删除。查看删除后的数据集条数，将查看结果复制粘贴至对应报告中。

accommodations2表删除后条数为：