新闻中心
共享单车项目-数据分析篇(共享单车数据统计)
近年来,共享经济热潮遍及全球,其中最成功的项目就是共享单车。‘共享’为我们的生活提供了极大的便利,同时也不可避免的出现资源不足或过剩的情况,如共享单车的企业采取合适的单车投放量成为重中之重。本篇文章以kaggle上的项目-共享单车需求量预测,讨论如何更加准确地预估单车需求量。项目链接如下:Bike Sharing Demand | Kaggle
一. 提出问题
结合数据集中天气、温度、日期等因素,预测华盛顿不同时间段的共享单车需求量。
二. 理解数据
使用pandas.read_csv方法读取数据集,查看其前五行,可以看到数据集拥有12个标签:

datetime:时间(年-月-日 时:分:秒)
season:季节(1:春天,2:夏天,3:秋天,4:冬天)
holiday:节假日(0:否,1:是)
workingday:工作日,即这一天既不是法定节假日也不是周末(0:否,1:是)
weather:天气(1:晴天,2:阴天,3:小雪或小雨,4:大雨,冰雹或雷暴
temp:实际温度(摄氏度)
atemp:感受温度(摄氏度)
humidity:湿度
windspeed:风速
casual:未注册用户租借数量
registered:注册用户租借数量
count:总租借数量
观察数据,我们可以发现,count = casual + registered,即租借量等于注册用户租借量加上未注册用户租借量。我们可以考虑在之后的分析删除casual、registered这两列。
三. 数据清洗
我们看一下训练数据的总体情况,数据整洁并且无缺失数据,属于比较理想的原始数据:

四. 特征工程
1.把时间数据转为年月日小时星期几的新特征
考虑到数据较为简洁整齐,目前只需要对时间做处理,需要将datetime离散化处理:

2. 数据关系探索




从图形可视化中,我们可以看出:1.温度对共享单车用量呈现上升趋势,在30-35摄氏度时达到使用量峰值,而后急剧下降;2.湿度对共享单车使用量有着明显的影响,湿度为20-25时共享单车用量最多,之后随着湿度增大,单车用量下降;3.每天的8时、17时和18时均为共享单车用车高峰期,可推测是因为上下班高峰期用车量剧增;4.共享单车使用量从1月份开始逐步上升,到6月达到较为平稳,10月份后逐步下降。
以上便是共享单车数据集的描述统计内容,之后基于分析的基础,使用随机森林算法,对共享单车使用量展开预测。