新闻中心

谁说菜鸟不会数据分析(入门篇)(谁说菜鸟不会数据分析笔记)

2023-04-25
浏览次数:
返回列表

谁说菜鸟不会数据分析

入门篇

1 浅谈

1.1建立分析框架,

营销方面的理论模型:4P,用户使用行为,STP理论,SWOT等。

管理方面的理论模型:PEST,5W2H,时间管理,生命周期,逻辑树,金字塔,SMART原则等。

1.2数据来源:数据库,公开出版物,互联网,市场调查。

1.3数据处理:数据清洗,数据转化,数据提取,数据计算

1.4 一般的数据分析:EXCEL,高级数据分析:SPSS Statistics等

1.5 职业要求:

(1)懂业务:熟悉公司业务及流程。比如公司运营收入为1000万,要明白由哪些业务收入构成

(2)懂管理:搭建框架,提建议

(3)懂分析:基本方法:对比,分组,交叉,结构,漏斗图。高级方法:相关,回归,聚类,判别,因子分析法,时间序列等。

(4)懂工具:Excel,Access,SPSS,SAS

(5)懂设计:设计图表

2 确定分析思路

常用的数据方法论:

(1)PEST:用于对宏观环境的分析,包括政治,经济,技术,社会环境的分析

(2)5W2H:Why,What,Who,When,Where,How,How much。比如可以用来分析用户行为

(3)逻辑树:把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题有关

(4)4P营销理论:Product,Price(影响定价的因素:需求,成本与竞争),Place,Promotion。如果需要了解公司的整体运营情况,可以使用该方法论

(5)用户行为理论:

3 数据准备

3.1 数据表:数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的。此时应将二维表转化为一维表的形式存储数据。

二维表转一维表的方法:PDF所在:57/250

3.2 数据来源

3.2.1导入数据

(1)导入文本数据:https://zhinan.sogou.com/guide/detail/?id=316512980745

(2)自动导入网站数据:WPS表格不支持直接将网页数据导入到表格之中,可用微软的excel

(3)手工录入

例如问卷录入要求

数值题:录入数值即可

单选题:用1,2,3,4代表A,B,C,D,选择什么就录入相应的数字

多选题:

a二分法:选择的项视为1,未选的视为0.比如选择了ACF,则录入A,B,C,D,E,F,的数字为1,0,1,0,0,1

b 多重分类法:有限选个数要求。事先定义录入个数的数值

排序题:与多重分类法类似

4 数据处理:分为数据清洗(将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除)数据加工(提取想要的数据)

4.1 数据清洗

4.1.1 重复数据的处理

(1)函数法:COUNTIF函数

(2)高级筛选法

(3)条件格式法:标记出重复数据

删除重复数据:数据-删除重复项

4.1.2缺失数据处理

找出空值区域:Ctrl+G,选择“空值”

处理缺失值的四种方法:

(1)用一个样本统计量代替缺失值

(2)用一个统计模型计算出来的值代替

(3)删除

(4)保留,仅在相应的分析中做必要的删除

检查数据逻辑错误

IF函数进行条件判断

4.2 数据加工

4.2.1 数据抽取:保留原数据表中的某些字段的部分信息,组成一个新的字段

(1)字段分列:菜单法(数据-数据工具-分列),函数法(LEFT,RIGHT)

(2)字段合并:CONCATENATE函数

(3)字段匹配:VLOOKUP函数

4.2.2 数据计算

4.2.3 数据分组:VLOOKUP函数

4.2.4 数据转换

行列转换:https://jingyan.baidu.com/article/7c6fb428d0226c80642c90c4.html

4.3 数据抽样:主要涉及到RAND()函数的使用

5 数据分析

5.1 数据分析方法

现状分析(对比):对比分析,平均分析,综合评价分析等

原因分析(细分):分组分析,结构分析,交叉分析,杜邦分析,漏斗图分析,矩阵关联分析,聚类分析等

预测分析(预测):回归分析,时间序列,决策树,神经网络等

5.1.1 对比分析法:

静态比较:同一时间条件下对不同总体指标的比较。如不同部门,不同地区,不同国家等。简称横比。

动态比较:在同一总体条件下对不同时期数值指标的比较。简称纵比。

主要有几个维度:(1)与目标对比(2)不同时期的对比(3)同级部门,单位,地区对比(4)行业内对比(5)活动效果对比,即活动前活动后

5.1.2 分组分析法

确定组数,组距,根据组距大小对数据进行分类整理

5.1.3 结构分析法

指被分析总体内的各部分与总体之间进行对比分析。

结构相对指标(比例)=(总体某部分的数值/总体总量)*100%

如市场占有率的计算

5.1.4 平均分析法

5.1.5 交叉分析法

通常用于分析两个变量之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,是各变量值成为不同变量的交叉节点,形成交叉表。

5.1.6 综合评价分析表

基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析。

(1)数据标准化---0-1标准也叫离差标准化,对原始数据作线性变换,使结果落在[0,1]区间

第N个经标准化处理的值=(第N个原始值-最小值)/(最大值-最小值)

(2)权值确定方法

目标优化矩阵表:将纵轴上的项目依次与横轴上的项目对比,如果纵轴上的项目比横轴上的项目重要,那么在两个项目相交的格子中填“1”,否则填“0”,最后将每行数字相加,根据合计的数值进行排序。

某指标权重=(某指标新的重要性合计得分/所有指标的重要性合计得分)*100%

5.1.7 杜邦分析法

见杜邦分析体系图,将若干个用以评价企业经营效率和财务状况的比率按其内在联系有机地结合起来,形成一个完整的指标体系,并最终通过权益收益率来综合反映。

5.1.8 漏斗图分析法

最有用的分析方法,可以告诉我们用户在业务中的转化率和流失率,也可以知道各业务在网站中的受欢迎程度或重要程度。

5.1.9 矩阵关联分析法

(1)矩阵

根据事务的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法。(画矩阵图)

(2)发展矩阵

(3)改进难易矩阵

5.2 数据分析工具

5.2.1 数据透视表的使用

例如使用数据透视表实现多选题的分析

6 数据展现

图表:表格,饼图,条形图,柱形图,折线图,散点图

平均线图:在原来的柱形图或折线图的基础上添加一条平均线

双坐标图:图表中有两个系列及其以上的数据,并且他们的量纲不同或者数据的差别很大时,在同一纵坐标轴无法展示数据原本的面貌时使用双坐标图。

竖形折线图:主要用在市场研究,咨询等。用它来展示产品功能,品牌形象在消费者中的评价。

瀑布图:在企业的经营分析,财务分析中使用较多。用于表示企业成本的构成,变化等情况。

帕累托图:按照发生频率的高低顺序绘制的直方图。

旋风图:

(1)同一事物在某个活动影响前后不同指标的变化。

(2)同一事物在某个条件下(指标A的变化),指标B受影响随之变化,具有因果关系。

(3)两个类别之间不同指标的比较。

漏斗图:

第N环节占位数据=(第1环节进入人数-第N环节进入人数)/2

第N环节转化率=第N环节进入人数/第(N-1)环节进入人数

第N环节总体转化率=第N环节进入人数/第1环节进入人数

7 图表美化

一个完整的图应该有:图表标题,单位。脚注,资料来源,图例。

不要把图表撑破,最好一个图表只反应一个问题

8 数据分析报告

结构:标题,目录,前言(主要包括分析北京,目的及思路),正文(系统全面的表述数据分析的过程与结果),结论与建议,附录(提供正文中涉及而未予以阐述的有关资料,有时也包含正文中提到的资料。)

搜索