生 信 分 析基本功——R语言基本数据结构——因子、数据框和列表(视频文档)

在R语言中,因子(factor)是一种特殊的数据类型,主要用于表示分类变量或定性变量。因子本质上是一个整数向量,但与一组标签相关联,使得每个整数代表一个特定的类别标 签。这有助于在统计分析中正确地处理分类数据。

创建一个字符向量  

fruit <- c(“apple”, “banana”, “apple”, “orange”, “banana”, “orange”)  

将字符向量转换为因子  

fruit_factor <- factor(fruit)  

打印因子  

print(fruit_factor)  

查看因子的水平(类别)  

levels(fruit_factor)  

将因子转换为数值  

as.numeric(fruit_factor)  

查看因子的结构  

str(fruit_factor)

fruit_factor[1]   中括号索引

数据框是R中用于存储表格数据的一种数据结构,它可以包含不同类型的列

创建一个数据框  

data_frame <- data.frame(  

  Name = c(“Alice”, “Bob”, “Charlie”),  

  Age = c(25, 30, 35),  

  Gender = c(“Female”, “Male”, “Male”)  

)  

print(data_frame)

str(data_frame)

data_frame[1,]  第一行数据,可看作生信的样本的不同属性的值

data_frame$Name 与上一行代码等价

data_frame[,2]  第二列数据,可看作不同样本相同属性的值

列表是R中非常灵活的一种数据结构,它可以包含不同类型的元素,包括向量、矩阵、数据#框等。

创建一个列表  

list_data <- list(  

  name = “David”,  

  age = 28,  

  scores = c(85, 90, 92),  

  is_student = TRUE  )  

print(list_data)

str(list_data)

#列表索引

list_data$name;list_data[[1]]  #两种索引方式

资源下载: