如何在R中找到中位数
在本教程中,让我们学习如何在R中找到中位数。
中位数定义为数据中集中趋势的度量。
简单来说,您可以将其称为"中间"值。
该过程包括对值进行分组或者排序,然后其中找到中间的数字。
如果遇到多个中间值,则可以取这些值的平均值或者"平均值"。
中位数–优缺点
优点:
计算中位数非常容易。
在某些简单情况下,您只需分析值即可找到中位数。中位数在开放式数据分发中有实际用途。
因为中位数比数字的值更重视数字的位置。中位数的主要优点之一是它不受数据中存在的异常值的影响。
离群值:离群值描述为极值,与数据中的其余值不同。
例如:退休年龄值为–(52,53,54,54,55,56,57,58,79)
其中79是一个极值,它不同于其余的值或者数据。
它将严重影响均值和众数。
但是中位数不会受到影响,因为它只处理头寸而不是价值。
缺点:
中位数不会寻找准确的值,因为它不会利用全部数据。
中位数不能进行进一步的统计或者数学运算。
查找给定值的中位数
在本节中,我们将创建一个值列表,并尝试查找这些值的中位数。
#creates a list x <- c(45,76,56,87,65,45,34,56,78,98,87,65,34,48,76) #displays the values show(x) ---> 45 76 56 87 65 45 34 56 78 98 87 65 34 48 76 #calculates the median of the values in the list 'x' median(x)
输出:65
您可能想知道65如何成为中间值。
好吧,中位数函数首先将值分组或者按升序或者降序排列,然后将计算中间值或者中心值。
注意:如果发现一个或者多个值是中心值,则将它们的平均值视为中位数。
查找"国家的用电量数据"的中位数。
在本部分中,我们导入CSV文件,其中包含上述国家(旧金山,罗马尼亚,美国和牙买加)在2019年的"电力/能源消耗"数据。
执行以下代码,查找这些国家/地区在2019年消耗的"电压"的中值。
注意:在此处查看或者下载"能源消耗"数据集
#reads the value present in the file. df <- read.csv("energydata.csv") #displays the values. df #calculates the median of the 'voltage' values. median(df$Voltage)
输出:220伏
注意:在此数据集中,结果显示中位数为220,即数据的集中趋势为220伏。
借助箱形图可视化数据的中位数
在R中,您可以创建一个箱形图以了解中位数的分布,如下图所示。
boxplot:R中使用Boxplots来了解数据的分布。
R提供函数boxplot()创建箱形图。
图中的粗线代表中位数。
使用直方图了解"电压"的中值
在本节中,我们将借助Rstudio中的直方图来绘制电压分布图。
执行以下代码以绘制直方图,该直方图显示电压分布和电压中值。
#reads the value present in the file. df <- read.csv("energydata.csv") #displays the values. df #calculates the median of the 'voltage' values. median(df$Voltage) #plots the histogram hist(df$Voltage, col='orange', xlab='voltage', ylab='frequency', main='Voltage distribution') #adds the median line abline(v=median(df$Voltage), col='black', lwd='3') #adds the legend legend(x='topright', c('median'),col = 'black', lwd = '3')
在上图中,您可以看到"黑"线,它实际上是显示中位数。
通过直方图,我们还可以轻松地显示均值,中值和密度曲线。