python爬虫去哪网

python爬虫去哪网

环境python3.8

爬虫:requests,BeautifulSoup,time,xlwt
数据分析:pandas,numpy,matplotlib,pyecharts

(1)数据处理
1)将地址(districts)前面的地址:和后面的地图去掉
用切片索引值获取相应的值
2)将districts保留到省份
例如:四川·成都·国色天乡,用split()方法以·分割,取省份重新赋值

3)将星级(star)前面的景区去掉
4)将score中的热度去掉,将数据类型装换为float,并保留一位小数
用round保留一位小数,用astype()进行装换
5)将qunarPrice中的价格前的¥和起去掉,并装换为float型
6)将数据先按照月销量排再按照评分排
利用sort_values()进行排序
(2)将数据进行可视化分析
1)热门景区top500价格区间图(柱状图)
先用min()和max()方法获取最大值和最小值,再用cut方法进行区间划分,用value_counts统计各个区间价格的数量
2)将5A景区,4A景区,3A景区,无的个数绘制成饼状
先用value_counts统计,最后进行绘图
3)海南和云南月销量top10价格对比折线图
将海南和云南数据赋给两个不同的对象hainan,yunnan,进行数据提取和绘制图像
4)价格和销量,地区(北京,黑龙江,广州)的关系(散点图)
获取北京,黑龙江,广州的价格,销量
5)景点地区分布图(以地图的形式呈现)
pyecharts中的Map()对中国地图是以省份名进行匹配的,先将省份以列表包围元组的形式输出,利用Map()进行省份景点数量可视化,最后以html的形式输出
6)获取各个地区景区的价格平均值
通过groupby()进行地区分类,通过key值获取地区名,
再根据通过mean()获取不同地区景区价格的平均值

联系微信
联系微信
热线电话

提供最优质的资源集合

立即查看 了解详情