提问人:Manuela Ceccarelli 提问时间:8/6/2023 最后编辑:Manuela Ceccarelli 更新时间:8/7/2023 访问量:60
发现氨基酸序列中的突变(错义、移码)
Finding mutations (missense, frameshift) in an amino acid sequence
问:
我有一个列表,列出了同一蛋白质不同长度的近 4k 个氨基酸序列,我想找到任何错义或移码的差异(突变)。
需要明确的是,我从这个开始:
seqs <- c("FLGKIWPSYKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGRIWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKVWPSHKGRPGNF", "FLGKVWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKIWPSHKGRPGN", "FLGKIWPSQNKGRPGNF")
ref <- seqs[1]
(除了 seqs 是 AAstrings 类的对象,ref 也是)
对于错义突变,我在堆栈溢出上找到了一个非常有用的代码(从 R 中的局部比对中识别氨基酸替换)。
但是,此代码不会识别序列中的任何删除或插入,只是在长度相同时比较 ref 和 queries。 当它们不是时,它不会识别对齐丢失的位置(我想知道是否存在导致它的删除或插入)。
为了更清楚,我想得到这样的东西:
#> ID Reference_AA Sample_AA Pos
...
#>15 query9 F - 16
...
#>30 query10 H QN 8
或
#>30 query10 - Q 8
#>31 query10 H N 9
答: 暂无答案
评论