发现氨基酸序列中的突变(错义、移码)

Finding mutations (missense, frameshift) in an amino acid sequence

提问人:Manuela Ceccarelli 提问时间:8/6/2023 最后编辑:Manuela Ceccarelli 更新时间:8/7/2023 访问量:60

问:

我有一个列表,列出了同一蛋白质不同长度的近 4k 个氨基酸序列,我想找到任何错义或移码的差异(突变)。

需要明确的是,我从这个开始:

seqs <- c("FLGKIWPSYKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGRIWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKVWPSHKGRPGNF", "FLGKVWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKIWPSHKGRPGN", "FLGKIWPSQNKGRPGNF")
ref <- seqs[1]

(除了 seqs 是 AAstrings 类的对象,ref 也是)

对于错义突变,我在堆栈溢出上找到了一个非常有用的代码(从 R 中的局部比对中识别氨基酸替换)。

但是,此代码不会识别序列中的任何删除或插入,只是在长度相同时比较 ref 和 queries。 当它们不是时,它不会识别对齐丢失的位置(我想知道是否存在导致它的删除或插入)。

为了更清楚,我想得到这样的东西:

#>      ID Reference_AA Sample_AA Pos
...
#>15 query9           F         -  16
...
#>30 query10          H         QN  8

#>30 query10          -         Q   8
#>31 query10          H         N   9
R 生物信息学 突变

评论

0赞 Andre Wildberg 8/6/2023
您是否尝试过任何现有的生物信息学工具?它们缺少任何功能吗?
0赞 Manuela Ceccarelli 8/6/2023
据我所知,没有一个允许我一次将我拥有的所有序列与参考序列进行比较。

答: 暂无答案