新闻中心

介绍一个效率爆表的探索性数据分析插件

2023-03-21
浏览次数:
返回列表

作者:俊欣

来源:关于数据分析与可视化

今天给大家介绍一款十分强大的数据集探索性分析插件,D-Tale,供我们分析和了解数据集的基本情况,并且支持对数据进行进一步的可视化分析,首先我们先要安装好该模块

pip install dtale

用D-Tale插件打开数据集

我们在D-Tale中打开数据集,代码如下

import dtale import pandas as pd df = pd.read_csv(rgapminder_full.csv) d = dtale.show(df) d

output

数据集来源于Kaggle,当中包含了全世界每个国家的人口总数、人均GDP以及人口寿命等数据,下面我们就来尝试使用一下该插件的各项功能吧。

筛选数据

我们来看一下如何用D-Tale插件来进行数据的筛选,例如我们想要筛选出年份是2002年的内容,步骤如下

我们点击Action当中的Custom Filter,然后填上对应的year==2002,然后点击Apply即可实现,当然我们还可以点击对应的某一列,然后鼠标拉到底,同样也能进行操作,步骤如下

其他的数据基本操作

我们同样地可以对数据进行排序,在我们点击到某一列的时候,会弹出如下的选项框,

其中就包括了对数据进行排序的按钮,例如我们对gdp_cap这一列进行降序排序,步骤如下

我们还能够对数据集当中的每一列进行重命名,使用的是Rename这个选项按钮,步骤如下

那么如果是想要删除某一列的话,对应的则是Delete这个选项按钮了,相当于是Pandas当中的drop方法

而当我们点击Describe这个按钮之后,会出现针对某一列的统计性分析,如下图所示

并且可以通过图表可视化的形式来更加直观地展现统计分析的最终结果

如果我们要是想要查看各个特征变量之间的相关性,D-Tale插件会通过热力图的方式来呈现,步骤如下

图表的可视化功能

该插件还能够进行图表的绘制,我们点击图中Visualize按钮,并且在下拉框中选中Charts这个按钮

接下来我们便是进入到可视化的界面了,如下图所示

这里包含了折线图、散点图、直方图、词云图、热力图等各种图表的绘制,我们只需要指定好X轴上放置的变量、Y轴上放置的变量以及相对应的统计的方式即可,感兴趣的读者可以空的时候加以尝试

要是数据集当中存在缺失值,同样也可以通过图表的形式来展现,因为之前引用的数据集不存在缺失值,因为这里更改成另外的数据集来操作,步骤如下图所示

设置选项

我们来看一下工具栏中的setting按钮,点击之后再出现的下拉框中我们可以对界面设置是否为“深色模式”,以及对语言也可以进行设置

界面的宽度和高度我们要是觉得不行也能进行调整

分组统计

我们点击图表上方工具栏中的Actions按键,在下拉框中点击Summarize Data按键,出现如下的界面

我们点击GroupBy按钮,例如我们将要针对continent列来进行每一个大洲人均寿命的统计,步骤如下

最后我们可以导出上述操作的代码,步骤如下

搜索