新闻中心
5&6 零售消费数据分析(项目文章+PPT演示)(零售数据分析的方法有哪些?)
第一部分 项目文章

本次分析数据来自Kaggle的某零售商店的销售数据。(数据集已被下架)https://www.kaggle.com/mehdidag/black-friday
1.分析背景和目的
如今企业在进行决策时,越来越认识到通过相对客观的数据分析来支持企业决策的重要性。通过分析这份零售业的数据集,可以初步了解这家零售店目标客户的特征,并为下一步经营活动提供一些决策方面的支持。
2.提出问题
哪一类产品的销售量最高?这家零售店的用户画像是怎样的?核心消费者人群是怎样的?如何提高这家零售店的销售额?(参见文末“建议”部分)3.理解数据(指标)
用户ID(User_ID):每个消费者的ID。同一个ID有多次购买行为,对同一个ID的销售额进行汇总,并对购买次数进行计数。商品ID(Product_ID):每个商品的ID。发现一个商品ID可以对应多个产品分类,而且同一个产品分类下面对应复数个值。可以认为该商品ID是捆绑销售。比如ID号为P00248942的商品,对应的产品分类1-3分别是1、6、14,可以理解为该商品有1个产品分类1,6个产品分类2,14个产品分类3组成。性别(Gender):F为女性;M为男年龄(Age):分为0-17岁,18-25岁,26-35岁,36-45岁,46-50岁,51-55岁,55岁+共7段。职业(Occupation):0-20共21类居住城市(City Category):A、B、C三个该城市居住期间(Stay In Current City Years):1年,2年,3年,4年及以上婚姻状况(Marital Status):0未婚,1已婚产品分类1(Product Category 1)产品分类2(Product Category 2)产品分类3(Product Category 3)消费额(Purchase)
结合现有数据,可以从营运指标(问题1)和会员类指标(问题2-4)和两个角度去分析数据。
4.数据清洗
4-1 选择子集
由于这里分析的对象是用户ID,因此把商品ID字段隐藏起来。通过数据透视表,制作一张新表。合并同一用户ID的消费信息,对消费额以及产品1-3进行求和。然后用vlookup匹配用户ID的其他信息。对用户ID使用计数项分析,可以得到每位用户的消费次数。(图3)

4-2 列名重命名
在之前的分析中,已经把列名修改成了中文4-3 删除重复值
对唯一的用户ID进行重复值的删除,未发现重复值。因为之前用数据透视表时已经对用户ID进行了汇总,正常情况下不会再有重复值。4-4 缺失值处理
假定唯一性的字段用户ID没有缺省值。用户ID共有5892条信息除了产品分类3,其他字段的信息均完整。在产品分类3中,只有5869条信息。缺失值处理。这里的空值应该表示没有购买任何分类3的产品,在该列中找出所有空值,用0替代。4-5 一致化处理
居住期间的格式统一。由于居住期间在四年以上的4+的加号容易对分析会产生不便,这里统一替换成4年。对追加或者修改过的“居住期间”字段用“筛选”方法检查,结果显示所有值都正常显示。4-6 数据排序
首先对“消费额”用降序排列。消费额最高的前30位用户都超过了5万美元。虽然之前做的假设中只是一段不明确的期间,不能得出确定的结论,不过还是可以认为这家零售店还是有一批较为忠诚的用户的。其次对“消费次数”用降序排列。消费次数的前50都超过了500次。(图5)


4-7 异常值处理
之前使用了vlookup进行匹配后,这里所有的用户都是唯一的,且从刚才的消费额、消费次数等字段中,也没有发现异常值。所以可以认为这个数据集中无异常值。5.构建模型
5.1 哪一类产品销售量最高?

5.2 这家零售店的用户画像是怎样的?

5.2.1描述性统计分析
通过excel内置的分析工具库,计算整体消费人群的描述统计分析指标。平均值是8518美元,中位数是5126美元,标准差是9330元。同理,对消费次数以及单次消费额的整体情况加以把握。消费次数的平均值是91次,中位数是53次,标准差是106次。而单次消费额的平均值是97美元,中位数是96美元,标准差是19美元。可以发现单次消费额的平均值和中位数非常接近,而且标准差较小,再次证明了单次消费额的分布比较平均而且接近。5.2.2用数据透视表对各字段进行分析
通过数据透视表,计算各个人群的消费情况。对男女的消费情况进行分析。发现男性消费额的平均值比女性高出两千多美元。对消费额的构成细分(消费额=单次消费额*消费次数)进一步发现,男性消费额更高主要体现在消费次数上。而对产品分类进行比较,发现每一类的男性的平均购买数量都要比女性多。(图10)




5.3 核心消费者人群是怎样的?
图19:问题3的分析思路用vlookup函数对消费额进行分组。分为3类,分别是消费能力高(1万5美元以上)、中(5千-1万5美元)、低(5千美元以下)。假定核心消费者人群为消费能力高的18%人群。接下来对核心消费者做进一步分析。(图20)图20从高消费人群的性别分布来看,男性占到了8成,与之前得出的消费者性别构成基本一致。从高消费人群年龄构成中,之前占比最高的26-35岁从35%进一步上升到了44%,而18-25岁和36-45岁的人群构成与之前相比无太大变化。表明18-45岁是这家零售店的主力消费人群,尤其是26-35岁。从高消费人群职业分布来看,超过10%的有职业0、4、7,与总体人群分布一致。从高消费人群居住城市占比来看,和之前分析得出的结论一致,虽然C城市居民比重最高,超过了一半,但由于C城市的平均消费额低,所以高消费人群在A和B城市比重要更高,尤其是B城市,超过了一半,可以对B城市加大营销力度,吸引更多B城市的人群光顾。同时也要找出C城市平均消费额较低的原因。(图21)图21从高消费人群居住期间占比来看,和总体人群分布基本一致。(图22)图22婚姻状况也和整体分布基本一致。6.结论:
单次消费额的分布比较接近。大部分顾客的单次消费额都在100美元左右。男性顾客占到总体的七成多,且男性消费额的平均值比女性高出两千多美元。26-35岁年龄段的消费额最高。18-55岁的工作人群要比学生以及退休人群的消费额高。消费额最高的3个职业是20,19,5。消费人群最多的3个职业是0,4,7。超过半数的顾客居住在C城市,但平均消费额相比另两个城市只有一半不到。超过三分之一的顾客的居住区间在1年。在高消费人群中,26-35岁占到了44%。在高消费人群中,B城市消费者占到了58%,而B城市消费者只占到全部消费者的29%。7.建议
为了分析如何提高销售额,首先对该指标进行拆分。销售额=用户数*客单价*购买频率。从各个细分指标分析可以提高销售额的方法。
(用户数)对主力消费人群的26-35岁的男性容易出现的场所加大宣传力度,比如健身房、电器店等。(用户数)有针对性的对职业0、4、7容易出现的场所进行宣传,吸引新的这些职业的消费者。(客单价)主要消费人群为男性,且为18-55岁,由于现在的单次消费额停留在100美元左右,可以考虑针对这部分人群,加入一些大件的产品,比如电子产品、汽车配件等,不过还是需要和原有的产品线有一定关系。(客单价)在B城市加大营销力度,吸引更多高消费者来购物,从而提高客单价