新闻中心

妙不可言!这4款Python自动数据分析神器真香啊!(怎么用python数据分析分析)

2023-11-21
浏览次数:
返回列表

作者:渡码,来自:4款自动数据分析神器

欢迎关注 @Python与数据挖掘 ,专注 Python、数据分析、数据挖掘、好玩工具!

我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。

了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Exploratory Data Analysis,探索性数据分析)。

如果用pandas一行行写代码,那么太痛苦了!

在本文中,我将给大家介绍 4 款常用的EDA工具,他们可以自动产出统计数据和图表,为我们节省大量时间。喜欢本文点赞、收藏、关注哦

交流群

想要进数据分析技术交流群的同学,可以直接加微信号:dkl88191。加的时候备注一下:研究方向+学校/公司+,即可。然后就可以拉你进群了。

正式介绍这些工具之前,先来加载数据集

import numpy as np import pandas as pd iris = pd.read_csv(iris.csv) iris

iris是下面用到的数据集,是一个150行 * 4列的 DataFrame。

1. PandasGUI

PandasGUI提供数据预览、筛选、统计、多种图表展示以及数据转换。

# 安装 # pip install pandasgui from pandasgui import show show(iris)

PandasGUI操作界面

PandasGUI更侧重数据展示,提供了10多种图表,通过可视的方式配置。

但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据转换部分也只开放了一小部分接口。

2. Pandas Profiling

Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

# 安装: # pip install -U pandas-profiling # jupyter nbextension enable --py widgetsnbextension from pandas_profiling import ProfileReport profile = ProfileReport(iris, title=iris Pandas Profiling Report, explorative=True) profile

Pandas Profiling操作界面

每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

与 PandasGUI 相反,Pandas Profiling没有丰富的图表,但提供了非常多的统计指标以及相关系数。

3. Sweetviz

Sweetviz与Pandas Profiling类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

# 安装 # pip install sweetviz import sweetviz as sv sv_report = sv.analyze(iris) sv_report.show_html()

Sweetviz操作界面

Sweetviz还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

Sweetviz数据集对比

蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

4. dtale

最后重磅介绍dtale,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、转换。

dtale操作界面

dtale的功能主要分为三部分:数据操作、数据可视化、高亮显示。

4.1 数据操作(Actions)

dtale将pandas的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。

# pip install dtale import dtale d = dtale.show(iris) d.open_browser()

Actions

右半部分图是左边图的中文翻译,用的是 Chrome 自动翻译,有些不是很准确。

举一个数据操作的例子。

Summarize Data

上图是Actions菜单中Summarize Data的功能,它提供了对数据集汇总操作的接口。

上图我们选择按照species列分组,计算sepal_width列的平均值,同时可以看到左下角dtale已经自动为该操作生成了pandas代码。

4.2 数据可视化(Visualize)

提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。

Visualize

举一个数据可视化的例子。

Describe

上图是Visualize菜单中Describe的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。

右侧的Code Export可以查看生成这些数据的代码。

4.3 高亮显示(Highlight)

对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。

Highlight

上图显示了将sepal_width字段的异常值。

dtale非常强大,功能也非常多,大家可以多多探索、挖掘。

最后,简单总结一下。如果探索的数据集侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas Profiling和Sweetviz;如果需要做深度的数据探索,那就选择dtale。

如果本文对你有用就点个 在看 鼓励一下吧。

文章推荐

Camelot:三行 Python 代码轻松提取 PDF 表格数据

训练模型时,如何便捷地保存日志信息?

深度盘点:8000字详细介绍 Python 中的 7 种交叉验证方法

效率倍增!PyCaret:一个开源、低代码的 Python 机器学习工具!

盘点数据挖掘中常见的5种 AutoEDA 工具

效率倍增!5 个提高生产力的 Jupyter notebook插件!

太爱了!networkx:一款构建图网络可视化的 Python 工具包!

20+时序模型!GluonTS:一个专门为时间序列建模而设计的工具包!

妙不可言!使用 Python 管道 Pipe 编写代码如此优雅!

只需三五行代码即可产出完美数据分析报告,这四大 AutoEDA 工具包真的太棒了!

深度盘点:机器学习中常见的7种 AutoML 工具库!

超详细!Python 制作一个优雅的词云其实特简单!

微软出品!FLAML:一款可以自动化机器学习过程的神器!

整理不易,有所收获,点个赞和爱心❤️,更多精彩欢迎关注

搜索