新闻中心
大数据分析、数据挖掘用什么例子来练习?(大数据分析及挖掘技术的案例)
这题我会!
为大家介绍3条不一样的路径,从简单到复杂,你可以根据自己学习的目标来确定到底选择哪一种
一、爬虫+可视化+分析&结论
优点:快且直接的正反馈
缺点:需要额外学习爬虫知识
这个部分呢,主要是靠你自己开脑洞,想到什么有趣的选题,就动手开干。
给你几个已有的例子抛砖引玉
eg1 深圳二手楼市热度如何?(数据爬取、分析&建模)
这个项目爬取了深圳已成交二手房数据,进行了数据可视化,并进行建模


项目链接:https://www.kesci.com/home/project/5d5e4ca78499bc002c05b75e
eg2 爬取范冰冰微博评论,看看我们还是不是我们
这个项目爬取了范冰冰李晨分手的微博评论,做了词云并分析了情感倾向


项目链接:https://www.kesci.com/home/project/5d18a4131951a9002c862043
另外,此类项目已经有一些商用产品出现,输入一个词,就给你自动出词云以及情感分布图,还有传播爆发点等等。爬完了数据一脸懵逼的,可以参考他们。
当然,这显然有一些潜在的风险点,比如数据清洗从入门到放弃、爬虫从入门到坐牢之类的,希望大家到时候要警惕!
如果你懒得弄,可以看看下面的办法,使用现成的数据集
二、数据集+可视化+分析&结论
优点:目标及提升路径明确
缺点:依赖资源
相较于上面随便开脑洞,在违法边缘疯狂试探的操作,这种就显得非常的佛系。你可以上kesci或者随便哪儿找公开的数据集,其中有一些会明确需要探究的问题,有一些不会,看着用就行。
eg3 NBA可视化与模型分析
这个例子使用了《NBA数据集》,包含了从上世纪90年代开始到16-17赛季,NBA所有球员、球队的常规赛,季后赛数据。伴随着数据集的问题是:谁是NBA历史上的王者战队,就是要比较不同时期的夺冠战队哪支更强。
我天,还能有比这更好的输出环境嘛!你学成了之后要面对的,不也就是此类问题嘛!OMG!所有数据分析师,盘他!
在设定比较规则、定义参数、建模之后,最终得出的结论是2001年的湖人队是荣耀王者。


项目链接:用Pyhton么得感情地分析,谁是NBA历史的王者战队
eg4 北京Airbnb数据分析及可视化
这个数据集,来自airbnb的网站,本来只是公开一部分数据给大家瞅瞅,没有定义问题。但我把脑袋拍扁了也没拍出点什么新问题,所以就只是简单地做了一个可视化。

项目链接:Python分析Airbnb北京房源,去北京旅游到底应该住哪里?
eg5, 6
Python分析12345市民服务热线数据:哪个职能部门回复最慢?
再随手丢一点数据集给你:
拍拍贷互联网金融数据训练营,判断一个用户是否会按时还款
链家二手房数据集,从房市看懂城市
剩下的就等你疯狂输出了
三、打数据科学类比赛
优点:对大数据分析、数据挖掘有更深刻的理解
缺点:难
我觉得大数据分析、数据挖掘,和模型算法是密不可分的,比如上面我提到的楼市、NBA,他最后都经过了一步建模,以及对特征重要性的分析才得到了问题的答案。
举个例子老板问你AA功能上线以后,BB数据上升了还是下降了?为什么?怎么继续提高?
会回答第一个问题的,只能叫做么的感情的取数机器,能回答后面2问的,才是王者。
对大数据分析、数据挖掘来说,往往结果不是最重要的,归因才是。怎么归因?用肉眼看?当然是建模咯。所以有余力的话,建议你试试数据科学类比赛。
eg7 Titanic
经典的不能更经典的例子了,泰坦尼克号生存预测,给定部分乘客的性别、年龄、仓位等信息,以及是否存活的结果,让你根据另外一部分乘客的个人信息预测他们是否存活。
随便挑一个大佬的notebook

都是干货满满,最后还附送总结反思,分分钟就能打开新世界的大门

项目链接:https://www.kesci.com/home/project/5af18c294b7639369e6c289c
受到我的安利zqsg地想打比赛?推你这个教程系列机器学习之旅-kaggle竞赛专题
以上~