新闻中心
数据分析实例(数据分析实践课心得体会)
数据分析的基本知识
numpy 一维数组 Arraypandas 一维数组 Seriesnumpy 二维数组 Arraypandas 二维数组 DataFrame
数据分析的基本过程

1.提出问题
分析目标:根据以下三个业务指标分析医院的销售情况:月均消费次数、月均消费金额、客单价。
首先导入数据分析包和数据文件
import pandas as pd fileNameStr=./朝阳医院2018年销售数据.xlsx xls = pd.ExcelFile(fileNameStr, dtype=object) salesDf = xls.parse(Sheet1,dtype=object)2. 理解数据

在这里,我们要了解,需要哪些指标和如何达成分析的目标。
1.月均消费次数=一年的消费次数/月份
一年的消费次数=有消费记录数据的总和(同一个人在一天内只计一次消费)
2.月均消费金额=总实收金额/月份
3.客单价=总消费金额/总消费次数
3. 数据清洗

2. 列名重命名:源数据的命名我们不能改,重命名可以更方便我们的使用。

3. 缺失数据处理:因为数据清洗就是为了让不规则的,各式各样的真实数据变成适合数据分析的数据,所以有必要过滤掉一些没意义的数据,以免影响分析的结果。

4. 数据类型转换: 因为读取进来时为了保持数据的正确完整,统一都是用OBJECT 的数据类型,但某些值是数值型,以后要用来运算的;有些值是日期型,方便排序的,就有必要处理一下。
4.1 字符串转换为数值

4.2 字符串转换为日期类型
日期数据转换

定义函数

分割字符串,获取销售时间

转换为日期格式

删除转换日期格式中的空值

5. 排序:有时为了跟其他数据配对,比如用 SQL join其他table时,有必要对KEY进行排序。又比如对日期进行排序,选取最大值,最小值。


6. 异常值处理: 我们发现销售数量和实收金额的最小值为负数,这在现实中是不合理的,所以我们需要筛选出正数来分析。

4. 构建模型: 计算业务指标
月均消费次数 = 总消费次数 / 月份数

月均消费金额 = 总消费金额 / 月份数

客单价 = 总消费金额 / 总消费次数

5, 数据可视化:留待下一关继续学习
这是一次数据分析整个流程的入门练习,知道数据分析的套路,怎么运用python来一步一步实现目标,分析业务指标。虽然数据分析可以用多种工具实现,比如简单的Excel,适合大量数据处理的python等等,但分析问题的思维方式是一样的。期待进阶后,接触更有意思的项目。