对于flash的原理和单个样本双端序列合并过程可以参考
https://www.jianshu.com/p/641c74b52b2d
但事实上,我们的样本一般不止一个,而是几十个,怎么批量合并呢? 首先看一下我们的序列文件长啥样:我这给出两个样本,正反序列,一共四个 A.R1.fastq.gz,A.R2.fastq.gz;B.R1.fastq.gz, B.R2.fastq.gzflash我是通过conda安装的 cd到序列的目录下输入代码:
#flash合并
for r1_file in *R1.fastq.gz; do
r2_file="${r1_file%R1.fastq.gz}R2.fastq.gz" # 根据 R1 文件名构造 R2 文件名
output_prefix="${r1_file%_R1.fastq.gz}" # 构造输出文件名前缀
flash --min-overlap 10 --max-mismatch-density 0.25 -t 6 \
"$r1_file" "$r2_file" \
--output-prefix="$output_prefix" \