新闻中心

5&6 零售消费数据分析(项目文章+PPT演示)(零售数据分析的方法有哪些?)

2023-11-02
浏览次数:
返回列表

第一部分 项目文章

图1:全文构成

本次分析数据来自Kaggle的某零售商店的销售数据。(数据集已被下架)https://www.kaggle.com/mehdidag/black-friday

1.分析背景和目的

如今企业在进行决策时,越来越认识到通过相对客观的数据分析来支持企业决策的重要性。通过分析这份零售业的数据集,可以初步了解这家零售店目标客户的特征,并为下一步经营活动提供一些决策方面的支持。

2.提出问题

哪一类产品的销售量最高?这家零售店的用户画像是怎样的?核心消费者人群是怎样的?如何提高这家零售店的销售额?(参见文末“建议”部分)

3.理解数据(指标)

用户ID(User_ID):每个消费者的ID。同一个ID有多次购买行为,对同一个ID的销售额进行汇总,并对购买次数进行计数。商品ID(Product_ID):每个商品的ID。发现一个商品ID可以对应多个产品分类,而且同一个产品分类下面对应复数个值。可以认为该商品ID是捆绑销售。比如ID号为P00248942的商品,对应的产品分类1-3分别是1、6、14,可以理解为该商品有1个产品分类1,6个产品分类2,14个产品分类3组成。性别(Gender):F为女性;M为男年龄(Age):分为0-17岁,18-25岁,26-35岁,36-45岁,46-50岁,51-55岁,55岁+共7段。职业(Occupation):0-20共21类居住城市(City Category):A、B、C三个该城市居住期间(Stay In Current City Years):1年,2年,3年,4年及以上婚姻状况(Marital Status):0未婚,1已婚产品分类1(Product Category 1)产品分类2(Product Category 2)产品分类3(Product Category 3)消费额(Purchase)图2:与该数据集相关的零售业指标体系。绿框内的为已有的或者可以得出的数据指标

结合现有数据,可以从营运指标(问题1)和会员类指标(问题2-4)和两个角度去分析数据。

4.数据清洗

4-1 选择子集

由于这里分析的对象是用户ID,因此把商品ID字段隐藏起来。通过数据透视表,制作一张新表。合并同一用户ID的消费信息,对消费额以及产品1-3进行求和。然后用vlookup匹配用户ID的其他信息。对用户ID使用计数项分析,可以得到每位用户的消费次数。(图3)图3:使用数据透视表,对用户ID进行汇总。得到每个用户ID所购买的每个产品分类以及消费额的总和,以及总共采购了的次数汇总得到的数据中,不论是产品分类,还是消费额,就算认为这个用户是代表一家人,都明显偏大。而且一个用户ID在一个黑色星期五中购物了上百次,显然也不符合实际情况。为了分析的合理性,这里假定消费额的单位是美分,而购物的期限不再局限于黑色星期五,而是某一段时间,比如1年。把原表的消费额的单位从美分转换为美元。把数据透视表的表格复制到新的表单中,用vlookup对每个用户ID的性别、年龄、职业、居住城市、居住期间、婚姻状况进行匹配。对各个字段进行匹配后得到了新的完整表单(图4)图4:汇总用户ID以后得到的新表单

4-2 列名重命名

在之前的分析中,已经把列名修改成了中文

4-3 删除重复值

对唯一的用户ID进行重复值的删除,未发现重复值。因为之前用数据透视表时已经对用户ID进行了汇总,正常情况下不会再有重复值。

4-4 缺失值处理

假定唯一性的字段用户ID没有缺省值。用户ID共有5892条信息除了产品分类3,其他字段的信息均完整。在产品分类3中,只有5869条信息。缺失值处理。这里的空值应该表示没有购买任何分类3的产品,在该列中找出所有空值,用0替代。

4-5 一致化处理

居住期间的格式统一。由于居住期间在四年以上的4+的加号容易对分析会产生不便,这里统一替换成4年。对追加或者修改过的“居住期间”字段用“筛选”方法检查,结果显示所有值都正常显示。

4-6 数据排序

首先对“消费额”用降序排列。消费额最高的前30位用户都超过了5万美元。虽然之前做的假设中只是一段不明确的期间,不能得出确定的结论,不过还是可以认为这家零售店还是有一批较为忠诚的用户的。其次对“消费次数”用降序排列。消费次数的前50都超过了500次。(图5)图5:对消费次数字段进行降序排列此外,用消费额除以消费次数可以得到单次消费的平均额。对单次消费的平均额进行降序排列,可以发现前50,乃至前100的差距相比消费额和消费次数都不太大,可以推测一次消费上千美元的情况应该非常少,可以猜测这家零售店的产品基本不包括大件商品(大型电器、家具)。图6:对单次消费额字段进行降序排列而从对单次消费额进行升序排列,除了单次消费最低的5位低于40美元,其他所有用户的消费额都在40美元以上。可以看出单次消费额的分布应该是比较集中的。可以想象来这家零售店的用户应该都是有较为明确的购物清单,而且是有一定数量的。而不只是像便利店买几样小东西的。(图7)图7:对单次消费额字段进行升序排列

4-7 异常值处理

之前使用了vlookup进行匹配后,这里所有的用户都是唯一的,且从刚才的消费额、消费次数等字段中,也没有发现异常值。所以可以认为这个数据集中无异常值。

5.构建模型

5.1 哪一类产品销售量最高?

图8产品分类2是销售量最高的,其次是产品分类1。不过由于数据集中没有每一类产品销售额的数据,所以无法进一步分析。(图8)

5.2 这家零售店的用户画像是怎样的?

图9:问题2的分析思路

5.2.1描述性统计分析

通过excel内置的分析工具库,计算整体消费人群的描述统计分析指标。平均值是8518美元,中位数是5126美元,标准差是9330元。同理,对消费次数以及单次消费额的整体情况加以把握。消费次数的平均值是91次,中位数是53次,标准差是106次。而单次消费额的平均值是97美元,中位数是96美元,标准差是19美元。可以发现单次消费额的平均值和中位数非常接近,而且标准差较小,再次证明了单次消费额的分布比较平均而且接近。

5.2.2用数据透视表对各字段进行分析

通过数据透视表,计算各个人群的消费情况。对男女的消费情况进行分析。发现男性消费额的平均值比女性高出两千多美元。对消费额的构成细分(消费额=单次消费额*消费次数)进一步发现,男性消费额更高主要体现在消费次数上。而对产品分类进行比较,发现每一类的男性的平均购买数量都要比女性多。(图10)图10此外,男性用户占到了全部用户的7成多,表示这家零售店的目标顾客有很明显的性别倾向。(图11)图11对各年龄段的消费情况进行分析。发现消费额最高的是26-35岁,其次是18-25岁和36-45岁。18岁以下消费额较低是因为消费能力相对较弱,而55岁以上人群较少可能是因为产品不符合这群人的需要。结合性别和年龄段,发现18-55岁的男性的消费额超过了8000美元,是这家零售店的主要顾客。此外,各年龄段的单次消费额差距不大,都在95美元左右。(图12)图12同时,来这家零售店光顾最多的年龄段同样是26-35岁最多,超过了三分之一。18-25岁、36-45岁以及46-55岁都在20%左右。(图13)图13对各年龄段各产品分类消费量进行分析。光顾最多且平均消费额最高的26-35岁人群,在各类产品的消费量都是最多的。(图14)图14对各职业的消费情况进行分析。发现消费额在1万美元以上的有职业5、19、20。不过这三个职业相对人群数量较少,三个总和也只有8%不到。而且并没有比其他职业的消费额高出太多。消费次数基本也是同样的排名。而单次消费额各个职业差距不大。各类产品分类的排名基本和总体消费额的排名基本一致。来零售店消费的各个职业中,职业0、4、7最多,都超过了10%,这三个职业的消费额位于平均值附近,在8-9千美元。如果有职业和消费品的细节,可以对这三类职业做进一步分析。(图15)图15对各城市的消费情况进行分析。从居住城市的分布来看,超过半数的顾客居住在C城市,但是消费额相比其他两个城市只有一半不到。(图16、17)图16从消费额的构成(消费次数*单次消费额)来看,C城市顾客消费额偏少主要体现在消费次数明显少于另两个城市,单次消费额其实还略高于另两个城市。(图17)各个产品分类也是C城市的消费量明显少于另两个城市。接下来有相关数据的话,可以从地理位置和消费习惯的角度来分析为什么C城市居民来消费的占比最高,然而消费次数却是最低的。图17对居住期间字段进行消费行为分析。从数据构成来看,居住期间比重最高为1年,而四年及其以上的比重只有15%。接下来可以根据前两年的情况进行比较,进一步的分析居住期间为1年的消费者明显高于其他人群,是因为有一大批新的消费者进入,还是由于居住2年以上的消费者有一定流失。(图18)图18对婚姻状况字段进行消费行为分析。从数据构成来看,未婚人群的比重略高于已婚人群,大约为6成。考虑到消费者的主要年龄段在26-35岁,所以未婚人群的比例基本在预想之内。j结合消费额相关字段进行分析,发现未婚人群的消费额虽然略高于已婚人群,但只有相差5%左右。

5.3 核心消费者人群是怎样的?

图19:问题3的分析思路用vlookup函数对消费额进行分组。分为3类,分别是消费能力高(1万5美元以上)、中(5千-1万5美元)、低(5千美元以下)。假定核心消费者人群为消费能力高的18%人群。接下来对核心消费者做进一步分析。(图20)图20从高消费人群的性别分布来看,男性占到了8成,与之前得出的消费者性别构成基本一致。从高消费人群年龄构成中,之前占比最高的26-35岁从35%进一步上升到了44%,而18-25岁和36-45岁的人群构成与之前相比无太大变化。表明18-45岁是这家零售店的主力消费人群,尤其是26-35岁。从高消费人群职业分布来看,超过10%的有职业0、4、7,与总体人群分布一致。从高消费人群居住城市占比来看,和之前分析得出的结论一致,虽然C城市居民比重最高,超过了一半,但由于C城市的平均消费额低,所以高消费人群在A和B城市比重要更高,尤其是B城市,超过了一半,可以对B城市加大营销力度,吸引更多B城市的人群光顾。同时也要找出C城市平均消费额较低的原因。(图21)图21从高消费人群居住期间占比来看,和总体人群分布基本一致。(图22)图22婚姻状况也和整体分布基本一致。

6.结论:

单次消费额的分布比较接近。大部分顾客的单次消费额都在100美元左右。男性顾客占到总体的七成多,且男性消费额的平均值比女性高出两千多美元。26-35岁年龄段的消费额最高。18-55岁的工作人群要比学生以及退休人群的消费额高。消费额最高的3个职业是20,19,5。消费人群最多的3个职业是0,4,7。超过半数的顾客居住在C城市,但平均消费额相比另两个城市只有一半不到。超过三分之一的顾客的居住区间在1年。在高消费人群中,26-35岁占到了44%。在高消费人群中,B城市消费者占到了58%,而B城市消费者只占到全部消费者的29%。

7.建议

为了分析如何提高销售额,首先对该指标进行拆分。销售额=用户数*客单价*购买频率。从各个细分指标分析可以提高销售额的方法。

(用户数)对主力消费人群的26-35岁的男性容易出现的场所加大宣传力度,比如健身房、电器店等。(用户数)有针对性的对职业0、4、7容易出现的场所进行宣传,吸引新的这些职业的消费者。(客单价)主要消费人群为男性,且为18-55岁,由于现在的单次消费额停留在100美元左右,可以考虑针对这部分人群,加入一些大件的产品,比如电子产品、汽车配件等,不过还是需要和原有的产品线有一定关系。(客单价)在B城市加大营销力度,吸引更多高消费者来购物,从而提高客单价

第二部分 项目演示

搜索