发现氨基酸序列中的突变（错义、移码）-解网

问：

我有一个列表，列出了同一蛋白质不同长度的近 4k 个氨基酸序列，我想找到任何错义或移码的差异（突变）。

需要明确的是，我从这个开始：

seqs <- c("FLGKIWPSYKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGRIWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKVWPSHKGRPGNF", "FLGKVWPSHKGRPGNF", "FLGKIWPSHKGRPGNF", "FLGKIWPSHKGRPGN", "FLGKIWPSQNKGRPGNF")
ref <- seqs[1]

（除了 seqs 是 AAstrings 类的对象，ref 也是）

对于错义突变，我在堆栈溢出上找到了一个非常有用的代码（从 R 中的局部比对中识别氨基酸替换）。

但是，此代码不会识别序列中的任何删除或插入，只是在长度相同时比较 ref 和 queries。当它们不是时，它不会识别对齐丢失的位置（我想知道是否存在导致它的删除或插入）。

为了更清楚，我想得到这样的东西：

#>      ID Reference_AA Sample_AA Pos
...
#>15 query9           F         -  16
...
#>30 query10          H         QN  8

或

#>30 query10          -         Q   8
#>31 query10          H         N   9

R 生物信息学突变

发现氨基酸序列中的突变（错义、移码）

Finding mutations (missense, frameshift) in an amino acid sequence

评论