新闻中心

美国消费者金融投诉数据分析(美国消费者协会官网)

2023-11-01
浏览次数:
返回列表

美国金融行业发达,金融产品种类繁多,但同时公司也收到了来自消费者对这些产品的投诉、反馈。通过分析美国消费者金融投诉的相关数据 ,可以了解到美国金融产品的大致状况。各家金融机构通过这些信息也可以更好的了解投诉情况,帮助消费者解决问题、同时改进自己的业务。

美国消费者金融投诉数据集描述了消费者对金融产品和服务的投诉情况,包括投诉者的个人信息及投诉金融产品的相关问题。数据来源于Kaggle:

US Consumer Finance Complaintswww.kaggle.com/cfpb/us-consumer-finance-complaints

本文思路结构:

一、描述数据

数据预览:

美国消费者金融投诉数据集

字段含义:

date_received 表示公司收到投诉的日期product 表示投诉的金融产品sub_product 子产品issue 表示投诉的金融产品出现的问题sub_issue 子问题consumer_complaint_narrative 消费者投诉叙述company_public_response 公司的公共回应company 公司state 表示投诉者所在的州zipcode 邮政编码tags 标签consumer_consent_provided 是否经消费者同意submitted_via 投诉者提交投诉的途径date_sent_to_company 表示投诉者发送投诉信息日期company_response_to_consumer 公司给消费者的回应timely_response 表示公司是否及时回应consumer_disputed 表示是否有消费者争议complaint_id 投诉者的ID

二、提出问题

观察数据,提出了以下问题:

1.投诉在数量上是否有时间上的周期规律?

2.收到投诉最多的是哪些产品?

3.投诉最多的问题有哪些?

4.哪些公司收到的投诉最多?

5.投诉者的地区分布?

6.投诉者喜欢用什么途径进行投诉?

7.各因素间相关性?

三、数据分析

#导入数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt from collections import Counter complaintsDf=pd.read_csv(./consumer_complaints.csv) #查看数据基本信息 complaintsDf.head()complaintsDf.shape (555957, 18) complaintsDf.dtypes date_received object product object sub_product object issue object sub_issue object consumer_complaint_narrative object company_public_response object company object state object zipcode object tags object consumer_consent_provided object submitted_via object date_sent_to_company object company_response_to_consumer object timely_response object consumer_disputed? object complaint_id int64 dtype: object #重命名 complaintsDf.rename(columns={date_received:收到投诉的日期, product:产品, sub_product:子产品, issue:问题, sub_issue:子问题, consumer_complaint_narrative:消费者投诉叙述, company_public_response:公司的公共回应, company:公司, state:, zipcode:邮政编码, tags:标签, consumer_consent_provided:是否经消费者同意, submitted_via:提交途径, date_sent_to_company:发送给公司的日期, company_response_to_consumer:公司给消费者的回应, timely_response:是否及时回应, consumer_disputed?:是否有消费者争议, complaint_id:投诉ID},inplace=True) complaintsDf.head()#清洗数据 print(complaintsDf.isnull().sum()) 收到投诉的日期 0 产品 0 子产品 158322 问题 0 子问题 343335 消费者投诉叙述 489151 公司的公共回应 470833 公司 0 4887 邮政编码 4505 标签 477998 是否经消费者同意 432499 提交途径 0 发送给公司的日期 0 公司给消费者的回应 0 是否及时回应 0 是否有消费者争议 0 投诉ID 0 dtype: int64 complaintsDf.drop([子产品,子问题,消费者投诉叙述,公司的公共回应,邮政编码,标签,是否经消费者同意],axis=1,inplace=True) complaintsDf.dropna(subset=["州"],inplace=True) complaintsDf.isnull().sum() 收到投诉的日期 0 产品 0 问题 0 公司 0 0 提交途径 0 发送给公司的日期 0 公司给消费者的回应 0 是否及时回应 0 是否有消费者争议 0 投诉ID 0 dtype: int64 complaintsDf.shape (551070, 11) #清除不需要的信息 complaintsDf.drop([发送给公司的日期,公司给消费者的回应,投诉ID],axis=1,inplace=True) #给日期排序 complaintsDf[收到投诉的日期]=pd.to_datetime(complaintsDf[收到投诉的日期]) complaintsDf=complaintsDf.sort_values(by=收到投诉的日期,ascending=True,na_position=first) complaintsDf.head()

问题分析:

1.投诉在数量上是否有时间上的周期规律?DateDf=complaintsDf[收到投诉的日期] DateDf=sorted(DateDf) DateDf_number=dict(Counter(DateDf)) DateDf_number.values()dict_values=Counter(DateDf) dict_values.most_common(1) 结果:[(Timestamp(2015-08-27 00:00:00), 955)] #绘图 plt.plot(DateDf_number.values(),linewidth=0.3) plt.title(Change in the number of complaints,fontsize=17) plt.tick_params(axis=both,labelsize=14) plt.show()

如上图所示,随着时间的变化,投诉数量整体上呈上升趋势,一天之内收到投诉数量的上限越来越高,最高一天之内收到了955条投诉。

2.收到投诉最多的是哪些产品?ProductComplaints=round(complaintsDf["产品"].value_counts() / len(complaintsDf["产品"]) * 100,2) ProductComplaints Mortgage 33.60 Debt collection 18.21 Credit reporting 16.56 Credit card 11.95 Bank account or service 11.13 Consumer Loan 3.78 Student loan 2.85 Payday loan 0.70 Money transfers 0.67 Prepaid card 0.44 Other financial service 0.10 Name: 产品, dtype: float64 ProductComplaints.plot(kind=bar)import matplotlib.pyplot as plt from wordcloud import WordCloud import jieba Df1=list(complaintsDf["产品"]) word_cloud = WordCloud().generate(str(Df1)) plt.axis("off") plt.imshow(word_cloud) plt.show()

收到投诉最多的是抵押、债务催收、个人征信、信用卡、银行帐号和相关服务等金融产品或服务。美国的金融机构应着重注意这些产品或服务的缺陷,及时改进,提升服务水平。

3.投诉最多的问题有哪些?Productissue=round(complaintsDf["问题"].value_counts() / len(complaintsDf["问题"]) * 100,2) Productissue Loan modification,collection,foreclosure 17.50 Incorrect information on credit report 12.04 Loan servicing, payments, escrow account 10.89 Contd attempts collect debt not owed 7.62 Account opening, closing, or management 4.73 Disclosure verification of debt 3.30 Communication tactics 3.28 Deposits and withdrawals 3.06 Application, originator, mortgage broker 2.40 Billing disputes 1.98 Other 1.94 Credit reporting companys investigation 1.90 Managing the loan or lease 1.79 Problems caused by my funds being low 1.62 ... Convenience checks 0.02 Excessive fees 0.01 Unexpected/Other fees 0.01 Lender repossessed or sold the vehicle 0.01 Advertising, marketing or disclosures 0.01 Overdraft, savings or rewards features 0.01 Disclosures 0.01 Lost or stolen check 0.00 Lost or stolen money order 0.00 Incorrect exchange rate 0.00 Lender sold the property 0.00 Lender damaged or destroyed vehicle 0.00 Lender damaged or destroyed property 0.00 Name: 问题, Length: 95, dtype: float64 Productissue[0:10].plot(kind=bar)

贷款修改、收集、取消抵押品赎回权,信用报告上的信息不正确,贷款、付款、托管帐户服务,尝试收取欠款等问题最容易被投诉。

4.哪些公司收到的投诉最多?company=complaintsDf["公司"].value_counts() company Bank of America 55402 Wells Fargo & Company 41547 JPMorgan Chase & Co. 33506 Equifax 31610 Experian 30720 TransUnion Intermediate Holdings, Inc. 25344 Citibank 25248 Ocwen 20855 Capital One 15478 Nationstar Mortgage 13168 U.S. Bancorp 9481 Synchrony Financial 9355 Ditech Financial LLC 8627 ... Maryville Collection Service Incorporated 1 Crossman Portfolio Management 1 Upstate Collection Center, Inc. 1 Pohler and Associates, LLC 1 Name: 公司, Length: 3599, dtype: int64 company[0:10].plot(kind=bar)

美国银行、国富银行 、摩根大通、艾可飞 、益百利、环联、花旗银行等收到的投诉最多。

5.投诉者的地区分布?stateDf=round(complaintsDf[州].value_counts()/len(complaintsDf[州]) * 100,2) stateDf CA 14.83 FL 9.74 TX 7.50 NY 6.94 GA 4.45 NJ 4.07 PA 3.63 IL 3.56 VA 3.29 ... WY 0.10 ND 0.09 AE 0.04 AP 0.03 VI 0.03 GU 0.01 FM 0.01 MH 0.00 MP 0.00 AS 0.00 AA 0.00 PW 0.00 Name: 州, Length: 62, dtype: float64 stateDf[0:10].plot(kind=bar)

加利福尼亚州、佛罗里达州、德克萨斯州、纽约州、乔治亚州等投诉人数较多。

6.投诉者爱用什么途径进行投诉?channelDf=round(complaintsDf[ 提交途径].value_counts()/len(complaintsDf[ 提交途径]) * 100,2) channelDf Web 65.30 Referral 19.56 Phone 7.07 Postal mail 6.58 Fax 1.43 Email 0.05 Name: 提交途径, dtype: float64

投诉者大部分使用网络进行投诉,还有使用电话、传真、邮政、电子邮件等方式进行投诉。

7.相关性分析#给投诉的产品进行one-hot编码 Product_mapDict={Mortgage:Mortgage,Debt collection:Debt collection, Credit reporting:Credit reporting,Credit card:Credit card, Bank account or service:Bank account or service, Consumer Loan:Loan, Student Loan:Loan, Payday Loan:Loan, Money transfers:Other, Prepaid card:Other, Other financial service:Other} ProductDf=complaintsDf["产品"].map(Product_mapDict) ProductDf=pd.get_dummies(ProductDf) ProductDf.head()#投诉的问题根据投诉量多少分为三个等级 issueDf=pd.DataFrame() issue_mapDict=dict(complaintsDf["问题"].value_counts()) complaintsDf["问题"]=complaintsDf["问题"].map(issue_mapDict) issueDf["issue_A"]=complaintsDf["问题"].map(lambda s:1 if s >10000 else 0 ) issueDf["issue_B"]=complaintsDf["问题"].map(lambda s:1 if 5000<s<10000 else 0 ) issueDf["issue_C"]=complaintsDf["问题"].map(lambda s:1 if s<5000 else 0 ) issueDf.head()#收到投诉的公司根据投诉量多少分为三个等级 companyDf=pd.DataFrame() company_mapDict=dict(complaintsDf["公司"].value_counts()) complaintsDf["公司"]=complaintsDf["公司"].map(company_mapDict) companyDf["company_A"]=complaintsDf["公司"].map(lambda s:1 if s >10000 else 0 ) companyDf["company_B"]=complaintsDf["公司"].map(lambda s:1 if 5000<s<10000 else 0 ) companyDf["company_C"]=complaintsDf["公司"].map(lambda s:1 if s<5000 else 0 ) companyDf.head()#给是否及时回应进行one-hot编码 responseDf=pd.DataFrame() responseDf=pd.get_dummies(complaintsDf[是否及时回应],prefix=response) responseDf.head()#给投诉者是否有争议进行one-hot编码 disputeDf=pd.DataFrame() disputeDf=pd.get_dummies(complaintsDf[是否有消费者争议],prefix=dispute) disputeDf.head()#给投诉途径进行one-hot编码 channelDf=pd.DataFrame() channelDf=pd.get_dummies(complaintsDf[提交途径]) channelDf.head()#合并 full=pd.concat([ProductDf,issueDf,companyDf,responseDf,disputeDf,channelDf],axis=1) full.head()#得出相关矩阵 corrDf=full.corr() corrDfcorrDf[company_A].sort_values(ascending =False)

收到投诉最多的公司机构可能是规模大、业务繁多、售后机制健全的大公司,这些公司机构普遍个人征信和抵押方面的业务被投诉最多,并且这些公司收到的大多是常见的投诉问题,而且有积极的做出回应。给这些投诉接收度高的公司投诉的人喜爱用邮寄的方式。

corrDf[company_C].sort_values(ascending =False)

接收投诉少的公司机构面临的主要问题是欠款征收和贷款方面的问题,他们接收到的问题并不是非常常见,且没有对投诉及时回应,给这些投诉接收度高的公司投诉的人喜爱通过用网络等线上方式进行投诉。

四、结论

各大金融机构应注意在贷款、债务回收、个人征信、信用卡银行帐号等产品上存在的问题,尤其是贷款的修改、收集、取消抵押品赎回权,信用报告上的信息不正确,贷款、付款、托管帐户服务,尝试收取欠款等问题投诉情况最为严重,应投入更多精力改进这些方面的服务。美国银行、国富银行 、摩根大通、艾可飞 、益百利、环联、花旗银行等收到的投诉最多,加利福尼亚州、佛罗里达州、德克萨斯州、纽约州、乔治亚州等地区投诉人数较多,这些公司、投诉高发地区的金融机构都应注意自己的服务质量,加以改进。网络是投资者最喜欢使用的投诉渠道,金融公司可以多多利用网络途径,了解消费者意见,以改进自己的服务,不断进步。

搜索