如何在最新版本的 R 中导入 GTF 文件

How to import GTF file in recent versions of R

提问人:user2954167 提问时间:10/31/2022 更新时间:11/1/2022 访问量:867

问:

我正在尝试将 GTF 文件上传到 R,但似乎之前的所有方法都已失效。

import(file.gtf)
importgtf(file.gtf)
read.gtf(file.gtf)

每一个,当我尝试安装该函数的包时,我得到“包'包'不适用于此版本的 R” GTF 文件是否有更新的方法?通常的 read.table() 也不起作用,因为 GTF 文件不是一个简单的 TSV。

r 导入 生物信息学

评论

0赞 Nick ODell 10/31/2022
您使用的是哪个版本的 R?哪些软件包安装失败?
0赞 Dan Adams 10/31/2022
我认为它只是一个制表符分隔的文本文件,所以你只需要跳过前两行,它应该会读。我通常使用.vroom::vroom()
0赞 user2954167 10/31/2022
正如我在最初的问题中所说,它不是 TSV。最后一列基本上是附加值的字典,手动解压缩会很乏味
0赞 Dan Adams 11/1/2022
对不起 - 我被误读了,正在考虑一个 .gct 文件。
0赞 Dan Adams 11/1/2022
可以试试.rtracklayer::import()

答:

3赞 Dan Adams 11/1/2022 #1

它对我有用:rtracklayer::readGFF()

library(rtracklayer)

g <- readGFF("https://raw.githubusercontent.com/vsbuffalo/bds-files/master/chapter-09-working-with-range-data/mm_GRCm38.75_protein_coding_genes.gtf")

head(g)
#>   seqid         source type   start     end score strand phase
#> 1     1 protein_coding gene 3205901 3671498    NA      -    NA
#> 2     1 protein_coding gene 4343507 4360314    NA      -    NA
#> 3     1 protein_coding gene 4490928 4496413    NA      -    NA
#> 4     1 protein_coding gene 4773206 4785739    NA      -    NA
#> 5     1 protein_coding gene 4807788 4886770    NA      +    NA
#> 6     1 protein_coding gene 4857814 4897909    NA      +    NA
#>              gene_id gene_name    gene_source   gene_biotype
#> 1 ENSMUSG00000051951      Xkr4 ensembl_havana protein_coding
#> 2 ENSMUSG00000025900       Rp1        ensembl protein_coding
#> 3 ENSMUSG00000025902     Sox17        ensembl protein_coding
#> 4 ENSMUSG00000033845    Mrpl15 ensembl_havana protein_coding
#> 5 ENSMUSG00000025903    Lypla1 ensembl_havana protein_coding
#> 6 ENSMUSG00000033813     Tcea1 ensembl_havana protein_coding

创建于 2022-11-01 with reprex v2.0.2

评论

0赞 user2954167 11/2/2022
这奏效了!GFF和GTF有什么区别?
0赞 Dan Adams 11/2/2022
GTF 与 GFF ver. 2 相同 参见维基百科