使用Python Seaborn和Pandas进行数据可视化
今天,我们将发布一个非常有趣的Python模块-Seaborn Module,并将了解它对数据可视化的贡献。
需要Seaborn模块
数据可视化是以图形格式表示数据值。
数据的可视化有助于获得更好的理解,并有助于从数据中得出完美的结论。
Python Matplotlib库为Python中存在的所有数据可视化模块提供了基础。
Python Seaborn模块建立在Matplotlib模块之上,并提供了效率更高的功能和其中包含的绘图功能。
使用Seaborn,可以用不同的可视化效果呈现数据,并可以向其中添加不同的功能来增强图形表示。
使用Python Seaborn可视化数据
为了开始使用Seaborn进行数据可视化,需要在Python环境中安装和导入以下模块。
- NumPy
- Pandas
- Matplotlib
- SciPy
注意:我已将以上模块(在项目符号中)与文章链接链接起来,以供参考。
此外,我们需要将Python Seaborn模块安装并加载到环境中。
pip install seaborn import seaborn
现在我们已经在工作环境中安装并导入了Seaborn模块,让我们开始使用Seaborn中的数据可视化。
Seaborn统计数据可视化
Python Seaborn模块可帮助我们以统计术语可视化和描述数据,即借助以下图表了解数据值之间的关系:
- 线图
- 散点图
让我们在接下来的部分中详细了解它们。
Seaborn线图
Seaborn线图描述了一组数据点之间的数据值之间的关系。
线图有助于描述数据变量/值对其他数据值的依赖性。
" seaborn.lineplot()函数"从数据点绘制一条线,以可视化数据变量与其他参数数据变量的相关性。
语法:
seaborn.lineplot(x,y)
范例1:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.lineplot(data['hp'],data['cyl']) plt.show()
输出:
Seaborn线图的数据可视化
范例2:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.lineplot(data['hp'],data['cyl'],hue=data['am'],style=data['am']) plt.show()
在上面的示例中,我们使用参数"色调"和"样式"描述了各种数据值之间的关系,以使用不同的绘图样式描述了它们之间的关系。
输出:
Seaborn多线图的数据可视化
Seaborn散点图
Seaborn散点图也有助于描述各种数据值与连续/分类数据值(参数)之间的关系。
散点图广泛用于检测数据可视化和数据清理领域中的异常值。
离群值是偏离所有数据值正常范围的数据值。
散点图有助于可视化数据点并突出显示其异常值。
语法:
seaborn.scatterplot()
seaborn.scatterplot()函数在数据点簇中绘制数据点,以描绘和可视化数据变量之间的关系。
在可视化数据模型时,我们需要将因变量或者响应变量值放在y轴上,将自变量值放在x轴上。
范例1:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.scatterplot(data['hp'],data['cyl']) plt.show()
输出:
Seaborn散点图的数据可视化
范例2:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.scatterplot(data['hp'],data['cyl'],hue=data['am'],style=data['am']) plt.show()
使用参数" hue"和" style",我们可以可视化具有不同绘图样式的多个数据变量。
使用Seaborn和Pandas进行分类数据可视化
在开始分类数据分发之前,我们有必要了解与数据分析和可视化有关的某些术语。
- 连续变量:这是一个包含连续值和数值的数据变量。
例如:Age是一个连续变量,其值可以介于1到100之间 - 分类变量:它是一个数据变量,包含离散值,即以组或者类别的形式。
例如:性别可分为两类:"男性","女性"和"其他"。
了解了基本术语后,让我们深入研究分类数据变量的可视化。
箱形图
Seaborn Boxplot用于可视化分类/数值数据变量,并广泛用于检测数据清理过程中的异常值。
使用" seaborn.boxplot()方法"为特定数据变量创建箱线图。
箱形结构表示该图的主要四分位数。
语法:
seaborn.boxplot()
两条线代表上下限。
低于下限范围或者高于上限范围的任何数据点均被视为异常值。
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.boxplot(data['mpg']) plt.show()
在上面的箱线图中,位于上限范围上方的数据点被标记为数据点,并被视为数据集的异常值。
箱形图
Seaborn Boxenplot与Boxplot类似,但在情节显示方面略有不同。
" seaborn.boxenplot()函数"绘制带有扩大的四分位数块的数据变量,描绘了数据值的详细表示。
语法:
seaborn.boxenplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.boxenplot(data['hp']) plt.show()
小提琴图
Seaborn小提琴图用于表示数据变量跨其数据值的基础数据分布。
语法:
seaborn.violinplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.violinplot(data['hp']) plt.show()
群图
Seaborn Swarmplot就分类数据变量之间的关系描述提供了更好的描述。
seaborn.swarmplot()函数在数据值周围创建了一大堆数据点,这些数据点恰好表示两个分类数据变量/列之间的关系。
语法:
seaborn.swarmplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.swarmplot(data['am'],data['cyl']) plt.show()
使用Seaborn估算类别数据
在数据分析和可视化领域,我们经常需要数据图来帮助我们估计某些调查/重新研究的频率或者计数等。
以下图可用于实现相同目的:
- 条形图
- 点图
- 计数图
1.条形图
Seaborn Barplot将数据变量之间的数据分布表示为中心趋势值的频率分布。
语法:
seaborn.barplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.barplot(data['cyl'],data['carb']) plt.show()
2.点图
Seaborn点图是统计Seaborn线图和散点图的组合。
" seaborn.pointplot()函数"以散点和连接它们的线的形式表示数据变量之间的关系。
语法:
seaborn.pointplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.pointplot(data['carb'],data['cyl']) plt.show()
3.计数图
Seaborn Countplot表示传递给它的数据变量的计数或者频率。
因此,可以将其视为单变量数据分布图。
语法:
seaborn.countplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.countplot(data['carb']) plt.show()
使用Seaborn Distplot进行单变量分布
Seaborn Distplot被广泛用于单变量数据分发和可视化,即可视化单个数据变量的数据值。
" seaborn.distplot()函数"描述了连续变量的数据分布。
它用一条线表示为直方图。
语法:
seaborn.distplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.distplot(data['mpg']) plt.show()
使用Seaborn Kdeplot进行双变量分布
Seaborn Kdeplot描绘了多个连续变量的统计概率分布表示。
语法:
seaborn.kdeplot()
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") res = sn.kdeplot(data['mpg'],data['qsec']) plt.show()
使用Seaborn设置不同的背景
" seaborn.set()函数"可用于为绘图设置不同的背景,例如"暗","白格网","达格里德"等。
语法:
seaborn.set(style)
例:
import seaborn as sn import matplotlib.pyplot as plt import numpy as np import pandas data = pandas.read_csv("C:/mtcars.csv") sn.set(style='darkgrid',) res = sn.lineplot(data['mpg'],data['qsec']) plt.show()