新闻中心

大数据分析、数据挖掘用什么例子来练习?(大数据分析及挖掘技术的案例)

2023-09-16
浏览次数:
返回列表

这题我会!

为大家介绍3条不一样的路径,从简单到复杂,你可以根据自己学习的目标来确定到底选择哪一种

一、爬虫+可视化+分析&结论

优点:快且直接的正反馈

缺点:需要额外学习爬虫知识

这个部分呢,主要是靠你自己开脑洞,想到什么有趣的选题,就动手开干。

给你几个已有的例子抛砖引玉

eg1 深圳二手楼市热度如何?(数据爬取、分析&建模)

这个项目爬取了深圳已成交二手房数据,进行了数据可视化,并进行建模

数据可视化产出:深圳二手房房价分布建模产出:对二手房房价影响最大的十个因素

项目链接:https://www.kesci.com/home/project/5d5e4ca78499bc002c05b75e

eg2 爬取范冰冰微博评论,看看我们还是不是我们

这个项目爬取了范冰冰李晨分手的微博评论,做了词云并分析了情感倾向

数据可视化产出:评论词云情感分析产出:评论情感分布,越接近1越正面

项目链接:https://www.kesci.com/home/project/5d18a4131951a9002c862043

另外,此类项目已经有一些商用产品出现,输入一个词,就给你自动出词云以及情感分布图,还有传播爆发点等等。爬完了数据一脸懵逼的,可以参考他们。

当然,这显然有一些潜在的风险点,比如数据清洗从入门到放弃、爬虫从入门到坐牢之类的,希望大家到时候要警惕!

如果你懒得弄,可以看看下面的办法,使用现成的数据集

二、数据集+可视化+分析&结论

优点:目标及提升路径明确

缺点:依赖资源

相较于上面随便开脑洞,在违法边缘疯狂试探的操作,这种就显得非常的佛系。你可以上kesci或者随便哪儿找公开的数据集,其中有一些会明确需要探究的问题,有一些不会,看着用就行。

eg3 NBA可视化与模型分析

这个例子使用了《NBA数据集》,包含了从上世纪90年代开始到16-17赛季,NBA所有球员、球队的常规赛,季后赛数据。伴随着数据集的问题是:谁是NBA历史上的王者战队,就是要比较不同时期的夺冠战队哪支更强。

我天,还能有比这更好的输出环境嘛!你学成了之后要面对的,不也就是此类问题嘛!OMG!所有数据分析师,盘他!

在设定比较规则、定义参数、建模之后,最终得出的结论是2001年的湖人队是荣耀王者。

可视化产出:分差热力图模型产出:参数权重

项目链接:用Pyhton么得感情地分析,谁是NBA历史的王者战队

eg4 北京Airbnb数据分析及可视化

这个数据集,来自airbnb的网站,本来只是公开一部分数据给大家瞅瞅,没有定义问题。但我把脑袋拍扁了也没拍出点什么新问题,所以就只是简单地做了一个可视化。

可视化产出:热门房源关键词

项目链接:Python分析Airbnb北京房源,去北京旅游到底应该住哪里

eg5, 6

Python分析奥运会120年历史,谁才是奥运历史的王者?

Python分析12345市民服务热线数据:哪个职能部门回复最慢?

再随手丢一点数据集给你:

拍拍贷互联网金融数据训练营,判断一个用户是否会按时还款

中华古诗数据集一枝红杏出墙来

链家二手房数据集,从房市看懂城市

……

剩下的就等你疯狂输出了

三、打数据科学类比赛

优点:对大数据分析、数据挖掘有更深刻的理解

缺点:难

我觉得大数据分析、数据挖掘,和模型算法是密不可分的,比如上面我提到的楼市、NBA,他最后都经过了一步建模,以及对特征重要性的分析才得到了问题的答案。

举个例子老板问你AA功能上线以后,BB数据上升了还是下降了?为什么?怎么继续提高?

会回答第一个问题的,只能叫做么的感情的取数机器,能回答后面2问的,才是王者。

对大数据分析、数据挖掘来说,往往结果不是最重要的,归因才是。怎么归因?用肉眼看?当然是建模咯。所以有余力的话,建议你试试数据科学类比赛。

eg7 Titanic

经典的不能更经典的例子了,泰坦尼克号生存预测,给定部分乘客的性别、年龄、仓位等信息,以及是否存活的结果,让你根据另外一部分乘客的个人信息预测他们是否存活。

随便挑一个大佬的notebook

目录

都是干货满满,最后还附送总结反思,分分钟就能打开新世界的大门

总结目录

项目链接:https://www.kesci.com/home/project/5af18c294b7639369e6c289c

受到我的安利zqsg地想打比赛?推你这个教程系列机器学习之旅-kaggle竞赛专题

以及相关网站:国外的kaggle和国内的科赛

以上~

搜索