新闻中心
武汉市二手车市场数据分析(武汉二手车销量)
1.提出问题
武汉市哪个行政区域的二手车市场最旺?哪个价位的二手车最易受关注?哪款二手车型最火热?如何选择最适合你车子等等。
2.理解数据
2.1采集数据
通过集搜客抓取瓜子二手车网上数据。卒!因为集搜客数据下载需要积分,我没积分,没办法,只能换用后羿采集器。结果还不错,获得了9526条数据。看来武汉市的二手车交易量很火爆呀!
2.2查看数据信息
不得不说,免费的东西还是很贵的!如图,用免费的后羿采集器获得的数据,虽然可以免费导出不受次数,但是数据的质量不敢恭维,没有集搜客分类详细。

3.数据清洗
拿到数据第一感觉就是,不怎么符合我们的需求,所以必须得对他们进行处理。
3.1选择子集
把不需要的列名隐藏,比如上图的标题链接,隐藏掉。
3.2列名重命名
如上图,我们拿到手的数据,首先标题列,然后依次改为车型即可。

3.3删除重复值
以防止数据重复出现,可以对整个数据进行删除重复值处理。此处我删除了175项重复值。

3.4缺失值处理
比较每一列的数据量,查看是否有缺失值,然后找到缺失值并对它进行处理。处理缺失值一般有以下4种方法,我们可以根据情况灵活使用:
1)通过人工手动补全,适合于缺失值比较少的情况
2)删除缺失的数据 (一般尽可能不删除数据)
3)用平均值代替缺失值
4)用统计模型计算出的值去代替缺失值
这里我所爬取的数据需要直接删除掉,因为没法补全。找到了两个空值,删掉。
3.5一致化处理
3.5.1分列处理
这里我们看到房型和租房详情里都包含多个数据,可对它们进行分列处理。
利用excel分列功能将数据进行简单的清洗,由于数据的分列会替换后一列数据,所以首先将需要分列的一列数据复制粘贴到表格的最后一列,以免数据的丢失
第一步:选择需要分列的一列数据
第二步:点击数据选项卡中的分列功能

因为上牌年份与里程数这一列的数据内容是用空格分割开的,所以要用分隔符号来分隔每个
第三步:段选择“分隔符号”后点击下一步

第四步:勾选“其他”选项后在后边文本框输入“|”,点击下一步后数据分隔完成

3.5.2数据排序
为了看到数据更多的信息可以对数据进行排列,如果想知道每个品牌的二手车平均价格的高低,就可以利用数据透视表计算出平均价格之后进行排序,就可以很容易的知道哪个品牌的二手车价格最高,哪个品牌的最低
3.6异常值处理
利用透视表把不符合条件的数据删除
到这里我发现进行不下去了,因为分列失败,主要还是一开始获取的数据有问题。那怎么办呢?只好不去关注排量了,只关注具体的车型,唉!还是爬虫的锅
得到如下表

4数据分析及简单的可视化展示
对整体数据的初步分析
4.1二手车车龄
下图展示的是二手车市场使用年限的数量对比。这也说明二手车市场大部分都是七八成新的车,甚至是九成新的车。为什么二手车市场那么多九成新的二手车呢?可能一部分原因是我们看到二手车市场倒卖的九成新的准新车,大多都来自新车经销店,甚至4S店。由于库存车很难在4S店消化,又受到厂商制约,不能低价卖给消费者,因此新车渠道就通过转手方式,将新车转到二手车市场进行销售。

看来大多数二手车龄集中在1-5年,相对来说比较新
4.2二手车品牌
下图展示的是TOP10二手车品牌数量,大众居于第一位,其次是东风、本田、别克等

4.3价格
平均价格对比
将二手车数量排名前十位的平均价格进行对比,奔驰居于第一,其次是宝马、奥迪等

结论: 从以上分析可以看出,二手车市场所卖的车大部分是九成新,平均价格在21.17万。数量
最多的大众平均价格在15.91万元;价格较高数量较多的品牌是奔驰和宝马。