合并具有相同基本名称但不同特定 ID 集的文件

Combine files with same basename but different, specific set of IDs

提问人:snowflower 提问时间:7/24/2023 更新时间:7/24/2023 访问量:13

问:

我有超过 800,000 个 fastq.gz 文件,我正在尝试合并。下面是我的数据示例。每个文件都有一个基本名称 (sample#) 和一个 BC1 标识符 (BC_#)

sample1_BC1_1_R1.fastq.gz
sample1_BC1_49_R1.fastq.gz
sample1_BC1_2_R1.fastq.gz
sample1_BC1_50_R1.fastq.gz

sample2_BC1_1_R1.fastq.gz
sample2_BC1_49_R1.fastq.gz
sample2_BC1_2_R1.fastq.gz
sample2_BC1_50_R1.fastq.gz

我想合并具有相同基本名称和一组特定 BC1 标识符的文件,以便合并以下 BC1 标识符。

1 and 49
2 and 50 
3 and 51 
...
48 and 96

对于上面有 8 个文件的示例,我的输出将是 4 个文件......

sample1_BC1_1-49_R1.fastq.gz
sample1_BC1_2-50_R1.fastq.gz
sample2_BC1_1-49_R1.fastq.gz
sample2_BC1_2-50_R1.fastq.gz

如何在 linux 或 python 中执行此操作?先谢谢你!我还没有完全熟练掌握 linux 或 python,所以欢迎任何帮助。

我尝试遍历文件以识别具有相似基名的文件,但由于文件具有正确的 BC1 标识符,因此无法连接文件。

循环 连接 标识符 basename

评论


答: 暂无答案