新闻中心
数据分析十大知识点(数据分析∨10)
最近,我正在读《深入浅出数据分析》这本书。
上期跟大家分享的书中主题是「如何整理数据?」,是正文部分的最后一章。
今天,我来聊聊「正文未及的十大要诀」。
除了之前的章节外,尚有一些密切相关的知识未予介绍,我们将在这部分浏览十大知识点。
一、统计知识大全
统计学领域拥有大量数据分析工具和技术,通过本书,你在假设和建模意识方面获得了长足进步,不仅为使用各种统计工具做好了准备,也了解到了各种统计工具的局限性。
二、Excel技巧
娴熟的数据分析师应该是一个电子表格忍者。
三、耶鲁大学教授的图形原则
下面是他(Edward Tufte 爱德华·塔夫特)提出的关于分析设计的基本原则:
体现出比较、对比、差异。体现出因果关系、机制、理由、系统结构。体现出多元数据,即体现出1个或2个变量。将文字、数字、图片、图形全面结合起来。充分描述证据。数据分析报告的成败在于报告内容的质量、相关性和整体性。四、数据透视表
数据透视表是电子表格和数据分析软件中极其有效的数据分析工具,是探索性数据分析和相关数据库数据汇总的梦幻之作。
五、R社区
R不只是一个出色的软件程序,它还是一个出色的软件平台。其威力来源于全球用户和作者社区,这些用户和作者向社区提交免费软件包,其他人可借助这些成果进行数据分析。
通过运行神奇的数据图形化数据包——lattice中的“xyplot”函数,你已经体验过这个社区。
六、非线性与多元回归
即使数据未呈现线性外观,在某些情况下,也可以使用回归进行预测。一种办法是将数字变形,最终使数据线性化;另一种办法是穿过图上的点画一条多项式回归线,以此取代线性回归线。
同样,不必限定自己通过唯一的自变量预测一个因变量。有时候,影响变量的因素多种多样,为了进行有效预测,可以使用多元回归技术。
七、原假设-备择假设检验
尽管之前介绍的假设检验技术用途广泛,能涵盖各种分析问题,但是,不少人(尤其是学术界和科学界)一听到“假设检验”这几个字,就会想到统计技术中的原假设-备择假设检验。
八、随机性
随机性是数据分析的重头戏。
原因是随机性几乎无迹可寻。当人们试图解释事件时,通过以模型套证据,可以解释得很好;但在做决定的时候,仅用解释模型就收效不佳。
要是客户问你为什么会发生某件事,在经过最精心的分析之后,你往往只能老老实实地回答:“这件事可以用结果的随机性来解释”。
九、Google Docs
Google Docs 不仅有功能完备的在线电子表格,还可通过Gadget特性提供大量图形。
另外,Google Docs 有很多功能都能帮助你访问实时在线数据资源。这款免费软件绝对值得一试。
十、你的专业技能
你将结合自己的专业技能,凭借这些工具去发现世界、改造世界。
END
其他比较受欢迎的内容,希望对你有帮助:
看完点个赞,以后分享更多。