I'm trying to solve a tricky R problem that I haven't been able to solve via Googling keywords. Specifically, I'm trying to take a subset one data frame whose values don't appear in another. Here is an example: <pre class="prettyprint"><code>> test number fruit ID1 ID2 item1 "number1" "apples" "22" "33" item2 "number2" "oranges" "13" "33" item3 "number3" "peaches" "44" "25" item4 "number4" "apples" "12" "13" > test2 number fruit ID1 ID2 item1 "number1" "papayas" "22" "33" item2 "number2" "oranges" "13" "33" item3 "number3" "peaches" "441" "25" item4 "number4" "apples" "123" "13" item5 "number3" "peaches" "44" "25" item6 "number4" "apples" "12" "13" item7 "number1" "apples" "22" "33" </code></pre> I have two data frames, test and test2, and the goal is to select all entire rows in test2 that don't appear in test, even though some of the values may be the same. The output I want would look like: <pre class="prettyprint"><code>item1 "number1" "papayas" "22" "33" item2 "number3" "peaches" "441" "25" item3 "number4" "apples" "123" "13" </code></pre> There may be an arbitrary amount of rows or columns, but in my specific case, one data frame is a direct subset of the other. I've used the R subset(), merge() and which() functions extensively, but couldn't figure out how to use these in combination, if it's possible at all, to get what I want. edit: Here is the R code I used to generate these two tables. <pre class="prettyprint"><code>test <- data.frame(c("number1", "apples", 22, 33), c("number2", "oranges", 13, 33), c("number3", "peaches", 44, 25), c("number4", "apples", 12, 13)) test <- t(test) rownames(test) = c("item1", "item2", "item3", "item4") colnames(test) = c("number", "fruit", "ID1", "ID2") test2 <- data.frame(data.frame(c("number1", "papayas", 22, 33), c("number2", "oranges", 13, 33), c("number3", "peaches", 441, 25), c("number4", "apples", 123, 13),c("number3", "peaches", 44, 25), c("number4", "apples", 12, 13) )) test2 <- t(test2) rownames(test2) = c("item1", "item2", "item3", "item4", "item5", "item6") colnames(test2) = c("number", "fruit", "ID1", "ID2") </code></pre> Thanks in advance!

There are two ways to solve this, using data.table and sqldf <pre class="prettyprint"><code>library(data.table) test<- fread(' item number fruit ID1 ID2 item1 "number1" "apples" "22" "33" item2 "number2" "oranges" "13" "33" item3 "number3" "peaches" "44" "25" item4 "number4" "apples" "12" "13" ') test2<- fread(' item number fruit ID1 ID2 item1 "number1" "papayas" "22" "33" item2 "number2" "oranges" "13" "33" item3 "number3" "peaches" "441" "25" item4 "number4" "apples" "123" "13" item5 "number3" "peaches" "44" "25" item6 "number4" "apples" "12" "13" item7 "number1" "apples" "22" "33" ') </code></pre> data.table approach, this enables you to select which columns you want to compare <pre class="prettyprint"><code>setkey(test,item,number,fruit,ID1,ID2) setkey(test2,item,number,fruit,ID1,ID2) test[!test2] item number fruit ID1 ID2 1: item1 number1 apples 22 33 2: item3 number3 peaches 44 25 3: item4 number4 apples 12 13 </code></pre> Sql approach <pre class="prettyprint"><code>sqldf('select * from test except select * from test2') item number fruit ID1 ID2 1: item1 number1 apples 22 33 2: item3 number3 peaches 44 25 3: item4 number4 apples 12 13 </code></pre>

R selecting all rows from a data frame that don't appear in another

Tags:

dataframe

r

subset

I'm trying to solve a tricky R problem that I haven't been able to solve via Googling keywords. Specifically, I'm trying to take a subset one data frame whose values don't appear in another. Here is an example:

> test
      number    fruit     ID1  ID2 
item1 "number1" "apples"  "22" "33"
item2 "number2" "oranges" "13" "33"
item3 "number3" "peaches" "44" "25"
item4 "number4" "apples"  "12" "13"
> test2
      number    fruit     ID1   ID2 
item1 "number1" "papayas" "22"  "33"
item2 "number2" "oranges" "13"  "33"
item3 "number3" "peaches" "441" "25"
item4 "number4" "apples"  "123" "13"
item5 "number3" "peaches" "44"  "25"
item6 "number4" "apples"  "12"  "13"
item7 "number1" "apples"  "22"  "33"

I have two data frames, test and test2, and the goal is to select all entire rows in test2 that don't appear in test, even though some of the values may be the same.

The output I want would look like:

item1 "number1" "papayas" "22"  "33"
item2 "number3" "peaches" "441" "25"
item3 "number4" "apples"  "123" "13"

There may be an arbitrary amount of rows or columns, but in my specific case, one data frame is a direct subset of the other.

I've used the R subset(), merge() and which() functions extensively, but couldn't figure out how to use these in combination, if it's possible at all, to get what I want.

edit: Here is the R code I used to generate these two tables.

test <- data.frame(c("number1", "apples", 22, 33), c("number2", "oranges", 13, 33),
    c("number3", "peaches", 44, 25), c("number4", "apples", 12, 13))

test <- t(test)
rownames(test) = c("item1", "item2", "item3", "item4")
colnames(test) = c("number", "fruit", "ID1", "ID2")

test2 <- data.frame(data.frame(c("number1", "papayas", 22, 33), c("number2", "oranges", 13, 33),
    c("number3", "peaches", 441, 25), c("number4", "apples", 123, 13),c("number3", "peaches", 44, 25), c("number4", "apples", 12, 13)  ))

test2 <- t(test2)
rownames(test2) = c("item1", "item2", "item3", "item4", "item5", "item6")
colnames(test2) = c("number", "fruit", "ID1", "ID2")

Thanks in advance!

849

asked Jul 02 '13 14:07

so13eit

2 Answers

Here's another way:

x <- rbind(test2, test)
x[! duplicated(x, fromLast=TRUE) & seq(nrow(x)) <= nrow(test2), ]
#        number   fruit ID1 ID2
# item1 number1 papayas  22  33
# item3 number3 peaches 441  25
# item4 number4  apples 123  13

Edit: modified to preserve row names.

185

answered Oct 24 '22 16:10

Matthew Plourde

There are two ways to solve this, using data.table and sqldf

library(data.table)
test<- fread('
item number fruit ID1 ID2 
item1 "number1" "apples"  "22" "33"
item2 "number2" "oranges" "13" "33"
item3 "number3" "peaches" "44" "25"
item4 "number4" "apples"  "12" "13"
')
test2<- fread('
item number fruit ID1 ID2 
item1 "number1" "papayas" "22"  "33"
item2 "number2" "oranges" "13"  "33"
item3 "number3" "peaches" "441" "25"
item4 "number4" "apples"  "123" "13"
item5 "number3" "peaches" "44"  "25"
item6 "number4" "apples"  "12"  "13"
item7 "number1" "apples"  "22"  "33"
')

data.table approach, this enables you to select which columns you want to compare

setkey(test,item,number,fruit,ID1,ID2)
setkey(test2,item,number,fruit,ID1,ID2)
test[!test2]
item  number   fruit ID1 ID2
1: item1 number1  apples  22  33
2: item3 number3 peaches  44  25
3: item4 number4  apples  12  13

Sql approach

sqldf('select * from test except select * from test2')
item  number   fruit ID1 ID2
1: item1 number1  apples  22  33
2: item3 number3 peaches  44  25
3: item4 number4  apples  12  13

answered Oct 24 '22 18:10

usct01

Related questions
                            
                                Getting the column names of a Data Frame with sapply
                            
                                Different legends and fill colours for facetted ggplot?
                            
                                foreach %dopar% - guarantee on order of results?
                            
                                Where are the vertex names in an iGraph graph
                            
                                How to avoid writing a row.names column when saving a data.frame using the xlsx package
                            
                                How to set strip label font size in lattice graphics in R
                            
                                How to write to json with children from R
                            
                                Ordering date/time in descending order in R
                            
                                How do I suppress the warning from including a library when using knitr in R?
                            
                                How does `ggplotGrob` work? [closed]
                            
                                ggplot2: Adding sample size information to x-axis tick labels
                            
                                Use curved lines in bumps chart
                            
                                Prevent dplyr from joining on NA's
                            
                                Recommendations for developing Sweave documents
                            
                                How do I generate a document (.rtf, .doc, .odt) from R
                            
                                Dealing with very small numbers in R
                            
                                STL decomposition of time series with missing values for anomaly detection
                            
                                Real part of complex number?
                            
                                Enter passwords interactively in R or R Studio (Server)?
                            
                                Error opening SHP file in R using maptools readShapePoly

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With