如何在R中找到中位数

时间:2020-02-23 14:43:49  来源:igfitidea点击:

在本教程中,让我们学习如何在R中找到中位数。
中位数定义为数据中集中趋势的度量。
简单来说,您可以将其称为"中间"值。

该过程包括对值进行分组或者排序,然后其中找到中间的数字。
如果遇到多个中间值,则可以取这些值的平均值或者"平均值"。

中位数–优缺点

优点:

  • 计算中位数非常容易。
    在某些简单情况下,您只需分析值即可找到中位数。

  • 中位数在开放式数据分发中有实际用途。
    因为中位数比数字的值更重视数字的位置。

  • 中位数的主要优点之一是它不受数据中存在的异常值的影响。

离群值:离群值描述为极值,与数据中的其余值不同。

例如:退休年龄值为–(52,53,54,54,55,56,57,58,79)

其中79是一个极值,它不同于其余的值或者数据。
它将严重影响均值和众数。
但是中位数不会受到影响,因为它只处理头寸而不是价值。

缺点:

  • 中位数不会寻找准确的值,因为它不会利用全部数据。

  • 中位数不能进行进一步的统计或者数学运算。

查找给定值的中位数

在本节中,我们将创建一个值列表,并尝试查找这些值的中位数。

#creates a list 
x <- c(45,76,56,87,65,45,34,56,78,98,87,65,34,48,76)  

#displays the values
show(x)     
---> 45 76 56 87 65 45 34 56 78 98 87 65 34 48 76

#calculates the median of the values in the list 'x'
median(x)

输出:65

您可能想知道65如何成为中间值。
好吧,中位数函数首先将值分组或者按升序或者降序排列,然后将计算中间值或者中心值。

注意:如果发现一个或者多个值是中心值,则将它们的平均值视为中位数。

查找"国家的用电量数据"的中位数。

在本部分中,我们导入CSV文件,其中包含上述国家(旧金山,罗马尼亚,美国和牙买加)在2019年的"电力/能源消耗"数据。

执行以下代码,查找这些国家/地区在2019年消耗的"电压"的中值。

注意:在此处查看或者下载"能源消耗"数据集

#reads the value present in the file. 
df <- read.csv("energydata.csv")

#displays the values.
df

#calculates the median of the 'voltage' values. 
median(df$Voltage)

输出:220伏

注意:在此数据集中,结果显示中位数为220,即数据的集中趋势为220伏。

借助箱形图可视化数据的中位数

在R中,您可以创建一个箱形图以了解中位数的分布,如下图所示。

boxplot:R中使用Boxplots来了解数据的分布。
R提供函数boxplot()创建箱形图。
图中的粗线代表中位数。

使用直方图了解"电压"的中值

在本节中,我们将借助Rstudio中的直方图来绘制电压分布图。

执行以下代码以绘制直方图,该直方图显示电压分布和电压中值。

#reads the value present in the file. 
df <- read.csv("energydata.csv")
#displays the values.
df
#calculates the median of the 'voltage' values. 
median(df$Voltage)
#plots the histogram
hist(df$Voltage, col='orange', xlab='voltage', ylab='frequency', main='Voltage distribution')
#adds the median line
abline(v=median(df$Voltage), col='black', lwd='3')
#adds the legend 
legend(x='topright', c('median'),col = 'black', lwd = '3')

在上图中,您可以看到"黑"线,它实际上是显示中位数。
通过直方图,我们还可以轻松地显示均值,中值和密度曲线。