大数据分析、数据挖掘用什么例子来练习？

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

大数据分析、数据挖掘用什么例子来练习？（大数据分析及挖掘技术的案例）

2023-09-16

浏览次数：次

返回列表

这题我会！

为大家介绍3条不一样的路径，从简单到复杂，你可以根据自己学习的目标来确定到底选择哪一种

一、爬虫+可视化+分析&结论

优点：快且直接的正反馈

缺点：需要额外学习爬虫知识

这个部分呢，主要是靠你自己开脑洞，想到什么有趣的选题，就动手开干。

给你几个已有的例子抛砖引玉

eg1 深圳二手楼市热度如何？(数据爬取、分析&建模)

这个项目爬取了深圳已成交二手房数据，进行了数据可视化，并进行建模

数据可视化产出：深圳二手房房价分布

建模产出：对二手房房价影响最大的十个因素

项目链接：https://www.kesci.com/home/project/5d5e4ca78499bc002c05b75e

eg2 爬取范冰冰微博评论，看看我们还是不是我们

这个项目爬取了范冰冰李晨分手的微博评论，做了词云并分析了情感倾向

数据可视化产出：评论词云

情感分析产出：评论情感分布，越接近1越正面

项目链接：https://www.kesci.com/home/project/5d18a4131951a9002c862043

另外，此类项目已经有一些商用产品出现，输入一个词，就给你自动出词云以及情感分布图，还有传播爆发点等等。爬完了数据一脸懵逼的，可以参考他们。

当然，这显然有一些潜在的风险点，比如数据清洗从入门到放弃、爬虫从入门到坐牢之类的，希望大家到时候要警惕！

如果你懒得弄，可以看看下面的办法，使用现成的数据集

二、数据集+可视化+分析&结论

优点：目标及提升路径明确

缺点：依赖资源

相较于上面随便开脑洞，在违法边缘疯狂试探的操作，这种就显得非常的佛系。你可以上kesci或者随便哪儿找公开的数据集，其中有一些会明确需要探究的问题，有一些不会，看着用就行。

eg3 NBA可视化与模型分析

这个例子使用了《NBA数据集》，包含了从上世纪90年代开始到16-17赛季，NBA所有球员、球队的常规赛，季后赛数据。伴随着数据集的问题是：谁是NBA历史上的王者战队，就是要比较不同时期的夺冠战队哪支更强。

我天，还能有比这更好的输出环境嘛！你学成了之后要面对的，不也就是此类问题嘛！OMG！所有数据分析师，盘他！

在设定比较规则、定义参数、建模之后，最终得出的结论是2001年的湖人队是荣耀王者。

可视化产出：分差热力图

模型产出：参数权重

项目链接：用Pyhton么得感情地分析，谁是NBA历史的王者战队

eg4 北京Airbnb数据分析及可视化

这个数据集，来自airbnb的网站，本来只是公开一部分数据给大家瞅瞅，没有定义问题。但我把脑袋拍扁了也没拍出点什么新问题，所以就只是简单地做了一个可视化。

可视化产出：热门房源关键词

项目链接：Py thon分析Airbnb北京房源，去北京旅游到底应该住哪里？

eg5, 6

Python分析奥运会120年历史，谁才是奥运历史的王者？

Python分析12345市民服务热线数据：哪个职能部门回复最慢？

再随手丢一点数据集给你：

拍拍贷互联网金融数据训练营，判断一个用户是否会按时还款

中华古诗数据集，一枝红杏出墙来？

链家二手房数据集，从房市看懂城市

……

剩下的就等你疯狂输出了

三、打数据科学类比赛

优点：对大数据分析、数据挖掘有更深刻的理解

缺点：难

我觉得大数据分析、数据挖掘，和模型算法是密不可分的，比如上面我提到的楼市、NBA，他最后都经过了一步建模，以及对特征重要性的分析才得到了问题的答案。

举个例子老板问你AA功能上线以后，BB数据上升了还是下降了？为什么？怎么继续提高？

会回答第一个问题的，只能叫做么的感情的取数机器，能回答后面2问的，才是王者。

对大数据分析、数据挖掘来说，往往结果不是最重要的，归因才是。怎么归因？用肉眼看？当然是建模咯。所以有余力的话，建议你试试数据科学类比赛。

eg7 Titanic

经典的不能更经典的例子了，泰坦尼克号生存预测，给定部分乘客的性别、年龄、仓位等信息，以及是否存活的结果，让你根据另外一部分乘客的个人信息预测他们是否存活。

随便挑一个大佬的notebook

都是干货满满，最后还附送总结反思，分分钟就能打开新世界的大门

总结目录

项目链接：https://www.kesci.com/home/project/5af18c294b7639369e6c289c

受到我的安利zqsg地想打比赛？推你这个教程系列机器学习之旅-kaggle竞赛专题

以及相关网站：国外的kaggle和国内的科赛

以上~

上一篇：大数据分析处理及挖掘技术（大数据分析处理及挖掘技术论文）

下一篇：大数据与数据挖掘是否有关系？是怎样的关系？（简述数据挖掘与大数据的关系）

首页

关于我们

新闻中心

产品展示

留言板

咨询研究

联系我们