我应该如何在 fasta 文件中实现条件字符串替换？-解网

问：

我有一个大的fasta文件，每个序列标题中都有各种细菌物种名称，如下所示：

文件.fasta

>Bacteria;Actinobacteria;Actinobacteria;Streptomyces;Streptomycetaceae;Streptomyces;Streptomyces_sp._AA4;
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG
>Bacteria;Actinobacteria;Actinobacteria;Pseudonocardiales;Pseudonocardiaceae;Amycolatopsis;Amycolatopsis_niigatensis;
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG

我想做的是搜索单个物种链霉菌的每个标题，如果列出，则仅将整个标题替换为“链霉菌”，否则替换整个标题“非链霉菌”：

new_file.fasta

>Streptomyces
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG
>Not Streptomyces
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG

我的第一反应是使用 awk 或 sed 之类的东西来做这个替换，但我在弄清楚如何替换整个字符串时遇到了麻烦。

我应该怎么做？

bash awk sed 生物信息学 fasta

awk '
/^>/ { if ($0 ~ /;Streptomyces;/)          # if header line and contains Streptomyces then ...
          $0 = ">Streptomyces"             # redefine current line
       else                                # else ...
           $0 = ">Not Streptomyces"        # redefine current line
     }
1                                          # print current line
' fasta.dat

另一个使用 shell 变量动态定义要搜索的物种的想法：awk

spec='Streptomyces'                        # shell variable assignment

awk -v species="${spec}" '                 # set awk variable "species" to value of shell variable "spec"
/^>/  { if ($0 ~ ";" species ";")          # if header contains our species then ...
           $0 = ">" species
        else
            $0 = ">Not " species
      }
1
' fasta.dat

这两者都会生成：

>Streptomyces
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG
>Not Streptomyces
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG

1赞 potong 11/16/2023 #3

这可能对你有用（GNU sed）：

sed -E 's/^>.*\b(Streptomyces)\b.*/>\1/I;t;s/^>.*/>Not Streptomyces/' file

如果以和开头的行包含单词，请将其替换为。>Streptomyces>Streptomyces

否则，如果以开头的行，请将其替换为。>>Not Streptomyces

0赞 ufopilot 11/16/2023 #4

$ awk -F';' -v spec=Streptomyces '/^>/{print($0~spec ? ">"spec : ">Not "spec); next}1' file
>Streptomyces
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG
>Not Streptomyces
TTGGCAGTCTCTCCCGCGAACCAGGCCACTGCTGCGACCACCTCGGCTGAATCCCGCGCGCAGGCCACGGGAATCCCCGG

上一个：将 awk 输出字段合并为相应的整数

下一个：在 KIOSK 模式或替代模式下使用任务计划程序进行任务计划程序的 Robocopy [已关闭]

我应该如何在 fasta 文件中实现条件字符串替换？

How should I go about implementing conditional string replacements in a fasta file?

评论