R中的union()函数–消除重复值

时间:2020-02-23 14:43:57  来源:igfitidea点击:

R语言中的Union()函数用于统一数据并消除其中的重复值。
该功能可用于从数据中删除重复的记录。

union()函数的语法

Union():联合函数用于完成数据联合,例如向量或者数据帧。

union(x,y)

其中:

X =输入数据集或者向量。

Y =输入数据集或者向量。

union()函数的基本示例

我们了解什么是联合函数,现在让我们看看它在R语言中的工作方式。

#Creating vectors
x<-c(1,2,3,4,5)
y<-c(3,4,5,6,7)

#Removes the duplicates from data 
union(x,y)

1 2 3 4 5 6 7

如您在上面的输出中看到的,我们创建了两个向量,然后将它们作为输入传递给union()函数,它返回了没有重复项的统一值。

union()函数与数据帧

让我们利用并集功能统一两个数据框,并删除其中的重复值。

为此,我们必须创建两个数据框。
我正在为此目的创建学生成绩数据。

#Creating a data frame 
df_one <- data.frame(Student_ID =c(1,2,3,4,5,6),Marks=c(81,80,78,85,91,94),Subject=c('Maths','English','Science','Economics','Computers','Geography')) 
df_one

Student_ID Marks   Subject
1          1    81     Maths
2          2    80     English
3          3    78     Science
4          4    85     Economics
5          5    91     Computers
6          6    94     Geography

df_two <- data.frame(Student_ID=c(4,5,6,7,8,9),Marks=c(85,91,94,93,80,83),Subject=c('Economics','Maths','Computers','Science','Stats','Chemistry'))
df_two

Student_ID Marks   Subject
1          4    85     Economics
2          5    91     Maths
3          6    94     Computers
4          7    93     Science
5          8    80     Stats
6          9    83     Chemistry

现在,我们有了数据帧,让我们使用merge()函数完成数据帧的并集。

让我们看看它是如何工作的。

#Uninfy the data frames 
my_union <-merge(df_one,df_two,all = T)
my_union

Student_ID   Marks   Subject
1           1        81     Maths
2           2        80     English
3           3        78     Science
4           4        85     Economics
5           5        91     Computers
6           5        91     Maths
7           6        94     Computers
8           6        94     Geography
9           7        93     Science
10          8        80     Stats
11          9        83     Chemistry

通过这种方法,您可以轻松地统一数据并删除其中存在的重复值。

在何处以及如何使用union()函数

  • 合并数据集时。

  • 删除数据中的重复值。

  • 使用" Dplyr"软件包时。

  • 在探索性数据和业务分析中。