订阅
纠错
加入自媒体

如何使用TCGAbiolinks进行数据预处理?

2021-01-07 09:31
科研菌
关注

###设置barcodes参数,筛选符合要求的371个肿瘤样本数据和50正常组织数据

queryDown <- GDCquery(project = "TCGA-LIHC",

data.category = "Transcriptome Profiling",

data.type = "Gene Expression Quantification",

workflow.type = "HTSeq - Counts",

barcode = c(dataSmTP, dataSmNT))

#barcode参数:根据传入barcodes进行数据过滤

上图为 queryDown<-GDCquery()的结果,仅选择了选择371个正常组织和50个肿瘤组织样本。

第二步:GDCdownload()下载GDCquery()得到的结果

# 下载数据,默认存放位置为当前工作目录下的GDCdata文件夹中。

GDCdownload(queryDown,method = "api", directory = "GDCdata",

files.per.chunk = 10)

#method ;"API"或者"client"。"API"速度更快,但是容易下载中断。

#directory:下载文件的保存地址。Default: GDCdata。

#files.per.chunk = NULL:使用API下载大文件的时候,可以把文件分成几个小文件来下载,可以解决下载容易中断的问题。

GDCdownload(query = queryDown)

说明:由于小编前面已经下载过该TCGA数据,所以这里显示的是421个文件已存在。如果还没有下载的话,可能需要根据自己的网速等待一些时间。

显示这样的结果,就算下载成功啦!文件默认保存在 Rstudio默认路径下的GDCdata中。前面就是我们利用第一期知识进行数据下载环节,权当温习功课吧——接下来我们就开始此期的数据处理~~

二、数据处理

第三步:GDCprepare()将前面GDCquery()的结果准备成R语言可处理的SE(SummarizedExperiment)文件。

#读取下载的数据并将其准备到R对象中,在工作目录生成(save=TRUE)LIHC_case.rda文件

# GDCprepare():Prepare GDC data,准备GDC数据,使其可用于R语言中进行分析

dataPrep1 <- GDCprepare(query = queryDown, save = TRUE, save.filename =

"LIHC_case.rda")

GDCprepare()中的参数:

参数用法query来自GDCquery的结果save是否将结果保存为RData object,默认为TRUEsave.filename文件名,如果没有设置,系统将默认设置directory文件数据的文件夹,默认为“GDCdata”summarizedExperiment是否生成summarizedExperiment对象,默认TRUE

第四步:TCGAanalyze_Preprocessing()对数据进行预处理:使用spearman相关系数去除数据中的异常值

# 去除dataPrep1中的异常值,dataPrep1数据中含有肿瘤组织和正常组织的数据

# TCGAanalyze_Preprocessing(object, cor.cut = 0, filename = NULL,

width = 1000, height = 1000, datatype = names(assays(object))[1])

# 函数功能描述:Array Array Intensity correlation (AAIC) and correlation boxplot to define outlier

dataPrep2 <- TCGAanalyze_Preprocessing(object = dataPrep1,

cor.cut = 0.6,

datatype = "HTSeq - Counts")

#将预处理后的数据dataPrep2,写入新文件“LIHC_dataPrep.csv”

write.csv(dataPrep2,file = "LIHC_dataPrep.csv",quote = FALSE)

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号