dplyr包提供了几个核心“动词”函数来快速方便的处理数据,包括filter、arrange、select、distinct、mutate以及summarise等函数。下面以nycflights包中的flights数据集为例演示dplyr包处理数据的一系列操作。flights数据集包含了2013年从纽约起飞的336776架航班的飞行数据。 数据概览 library(dplyr) library(nycflights13) dim(...
select(3,7,9) %>% head(n =10) 2)用运算符确定目标列 用:选择连续的若干列 用!选择变量集合的余集 &和|选择变量的交集或者并集 c合并多个选择 代码演示 mpg %>% select(year:drv) %>% head(n =10) mpg %>% select(!year:drv) %>% head(n =10) mpg %>% select(c(year, drv, hwy)) ...
在上述代码中,我们首先加载dplyr包,然后创建一个包含重复列的数据框df。接下来,使用distinct()函数删除重复列,并将结果保存在df_unique中。通过设置.keep_all参数为TRUE,我们保留了所有的列,而不仅仅是删除了重复的列。最后,我们输出了结果df_unique。 方法二:使用select()函数 select()函数用于选择数据框中的列,...
select和filter函数对标于base包中的同一个函数subset subset(x, subset, select, ...) subset参数实现filter函数的功能,select参数实现select函数的功能。 subset(mtcars, subset = mpg > 20 | cyl == 6) subset(mtcars, select = c(mpg, drat)) # 变量名需使用c()合并 slice系列函数用于抽取样本(行) ...
select()按名称选取变量 mutate()使用现有变量的函数创建新变量 summarize()将多个值总结为一个摘要统计量 这些函数都可以和group_by()函数联合起来使用,group_by()可以改变以上每个函数的作用范围,让其在整个数据集上的操作变为在每个分组上分别操作,这五个函数的工作方式都是相同的: ...
使用distinct函数,我们可以去除数据框中有重复的行: # 去除GeneId中有重复的行distinct(gene_exp_tidy,GeneId) image (6)添加新变量:mutate mutate函数用于根据已有的变量,产生一个新的变量: # 产生一个表达量是现有表达量10倍的变量mutate(gene_exp_tidy,"10Exp"=Expression*10) ...
1、select() Dplyr包有下列辅助函数,用于在select()中选择变量: starts_with("X"): 以 "X"开头的变量名 ends_with("X"): 以 "X"结束的变量名 contains("X"): 包含 "X"的变量名 matches("X"): 匹配正则表达式“x"的变量名 num_range("x", 1:5): 变量名为 x01, x02, x03, x04 and x05...
n_distinct():返回不同的观测个数 first():返回第一个观测 last():返回最后一个观测 nth():返回n个观测 分组: group_by() 当对数据集通过group_by()添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作。
2select(name, order, awake) %>% 3glimpse 3.2 选择连续的列 1msleep%>% 2select(name:order,awake:bodywt)%>% 3glimpse 3.3 列选择的逆向操作,使用-号,删除不要的列,也就实现了所选择的列 1msleep%>% 2select(-name, -(awake:bodywt)) %>% ...
x3 <- dplyr::distinct(mydata, Index, Y2010, .keep_all= TRUE) 实例6:选择变量(或列) 假设你被要求只选择几个变量。 下面的代码选择变量“Index”,从“State”到“Y2008”的列。 mydata2 <- select(mydata, Index, State:Y2008) 实例7:删除变量 ...