新闻中心
如何评价2022大学生数据分析大赛?(大学生数据分析比赛题目)
建模小白,这是我今年参加美赛的解题过程2022美赛C题,最后拿的M奖,毕竟只是抽空参赛,并不专业。
2022大学生数据分析大赛我只做了B题,A题简单一些不是计算机专业的同学可以选择A来提交。
Q1:对数据中的评价内容进行分析,制作词云图,分别给出积极情绪、消极情绪评价次数最多的 10 个词。
问题很简单。这个题可以分两问来解答是最好的。
首先对对数据中的评价内容进行分析。
可以做一些基本功,对数据进行预处理查看是否有缺失值与异常值等问题。虽然没有这些问题,但是题目要求你分析了呀(不管是竞赛还是正常写论文,废话多了才让人觉得这篇论文有点东西)~
简单做些分析,部分分析如图所示

其次就是做词语图。 使用jieba+wordCloud。我看了一下其他的解题过程,想说一句,简单的使用这两个包做出来的效果肯定不行。
要审题呀,只需要10个词,你词云图搞那么多图用来作什么。
还有我觉得词云图能够体现出你是积极还是消极的词云图吧。你看看你画出来的词云图,消极的词云图里夹杂着积极的词,搞不明白呀!
以消极词云为例。
先计算词出现的频率。

这些小时之类的词对于情绪的展现没有用,要有啥用,不得剔除一下词?
最后的词云图有:

过滤词你自己设置就行,觉得什么合适就留什么。
Q2: 分析数据中用户评价的积极情绪、消极情绪与评价时间是否存在关系,请说明理由。
简单一些提取变量画热力图,自己在巴拉巴拉说一堆话。
获奖技巧,quarter与week的相关度高一些,自己在仔细分析一下这两个变量,画柱状图啥的都行。

Q3:积极情绪最多的是哪个商家,并总结这个商家的优点有哪些?
各种画图~
目前5个问题代码均已写出,最近需要作报告,没工夫弄这个,需要代码,私信~。有空在补充~

祝大家取得好成绩,美赛再见!