在 Bash 中循环遍历文件的内容

Looping through the content of a file in Bash

提问人:Peter Mortensen 提问时间:10/6/2009 最后编辑:Meraj al MaksudPeter Mortensen 更新时间:10/23/2023 访问量:2685304

问:

如何使用 Bash 遍历文本文件的每一行?

使用此脚本:

echo "Start!"
for p in (peptides.txt)
do
    echo "${p}"
done

我在屏幕上得到这个输出:

Start!
./runPep.sh: line 3: syntax error near unexpected token `('
./runPep.sh: line 3: `for p in (peptides.txt)'

(稍后我想做一些更复杂的事情,而不仅仅是输出到屏幕。$p


环境变量 SHELL 是 (from env):

SHELL=/bin/bash

/bin/bash --version输出:

GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu)
Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version输出:

Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

文件肽 .txt 包含:

RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL
Linux Bash 循环 UNIX IO

评论

45赞 fedorqui 8/30/2016
哦,我看到这里发生了很多事情:所有评论都被删除了,问题被重新打开了。仅供参考,逐行读取文件并将值分配给变量的已接受答案以规范方式解决了问题,并且应优先于此处已接受的答案。
0赞 Peyman Mohamadpour 4/5/2021
请参阅 IFS=$'\n' 的确切含义是什么$IFS
0赞 Chris 2/17/2022
不要使用 bash 使用 gnu.org/software/gawk/manual/gawk.htmlawk

答:

762赞 Warren Young 10/6/2009 #1
cat peptides.txt | while read line 
do
   # do something with $line here
done

和单行变体:

cat peptides.txt | while read line; do something_with_$line_here; done

如果没有尾随换行符,这些选项将跳过文件的最后一行。

您可以通过以下方法避免这种情况:

cat peptides.txt | while read line || [[ -n $line ]];
do
   # do something with $line here
done

评论

95赞 JesperE 10/6/2009
一般来说,如果你只使用一个参数的“cat”,你就做错了(或次优)。
34赞 Warren Young 10/6/2009
是的,它只是不如布鲁诺的效率高,因为它不必要地启动了另一个程序。如果效率很重要,那就按照布鲁诺的方式去做。我记得我的方式,因为您可以将它与其他命令一起使用,其中“重定向自”语法不起作用。
95赞 Gordon Davisson 10/6/2009
这还有另一个更严重的问题:因为 while 循环是管道的一部分,所以它在子 shell 中运行,因此在循环内部设置的任何变量在退出时都会丢失(参见 bash-hackers.org/wiki/doku.php/mirroring/bashfaq/024)。这可能非常烦人(取决于您在循环中尝试执行的操作)。
34赞 mat kelcey 2/27/2014
我使用“cat file | ”作为我很多命令的开头,纯粹是因为我经常用“head file |”来制作原型
108赞 Savage Reader 12/22/2014
这可能没有那么有效,但它比其他答案更具可读性。
2893赞 Bruno De Fraine 10/6/2009 #2

一种方法是:

while read p; do
  echo "$p"
done <peptides.txt

正如评论中所指出的,这有修剪前导空格、解释反斜杠序列以及如果缺少终止换行符而跳过最后一行的副作用。如果存在这些问题,您可以执行以下操作:

while IFS="" read -r p || [ -n "$p" ]
do
  printf '%s\n' "$p"
done < peptides.txt

在特殊情况下,如果循环正文可能从标准输入中读取,则可以使用不同的文件描述符打开文件:

while read -u 10 p; do
  ...
done 10<peptides.txt

在这里,10 只是一个任意数字(与 0、1、2 不同)。

评论

13赞 Peter Mortensen 10/6/2009
我应该如何解释最后一行?文件肽 .txt 被重定向到标准输入,并以某种方式重定向到整个 while 块?
14赞 Warren Young 10/6/2009
“将肽.txt啜饮到这个while循环中,所以'read'命令有一些东西可以使用。我的“cat”方法类似,将命令的输出发送到 while 块中以供“读取”使用,只是它启动另一个程序来完成工作。
12赞 xastor 11/7/2013
此方法似乎跳过文件的最后一行。
7赞 Mike Q 8/20/2014
双引号!echo “$p” 和文件..相信我,如果你不这样做,它会咬你!!我知道!哈哈
29赞 dawg 9/7/2016
如果最后一行未以换行符结尾,则两个版本都无法读取该行。始终使用while read p || [[ -n $p ]]; do ...
242赞 Stan Graves 10/6/2009 #3

选项 1a:While 循环:一次单行:输入重定向

#!/bin/bash
filename='peptides.txt'
echo Start
while read p; do 
    echo "$p"
done < "$filename"

选项 1b:While 循环:一次单行:
打开文件,从文件描述符读取(在本例中为文件描述符 #4)。

#!/bin/bash
filename='peptides.txt'
exec 4<"$filename"
echo Start
while read -u4 p ; do
    echo "$p"
done

注意:选项 2 已删除。忽略引用选项 2 的评论,因为它作为反模式被正确地删除了(如果您确实需要知道,请参阅编辑)

评论

0赞 Peter Mortensen 10/6/2009
对于选项 1b:是否需要再次关闭文件描述符?例如,循环可以是内部循环。
4赞 Stan Graves 10/6/2009
文件描述符将随着进程出口而清理。可以进行显式关闭以重用 fd 编号。要关闭 fd,请使用另一个语法为 &- 的 exec,如下所示:exec 4<&-
1赞 masgo 6/4/2014
感谢您提供选项 2。我在使用选项 1 时遇到了巨大的问题,因为我需要在循环中从 stdin 读取;在这种情况下,选项 1 将不起作用。
4赞 Egor Hans 11/13/2017
您应该更明确地指出,强烈建议不要使用选项 2。@masgo 在这种情况下,选项 1b 应该有效,并且可以通过替换 (如果要从命令参数中读取文件名,这很有用,在这种情况下,只需替换为 )。done < $filenamedone 4<$filename$filename$1
0赞 user5359531 11/13/2018
我需要循环访问文件内容,例如 ,同时在循环中运行 ssh 命令(消耗 stdin);选项 2 这里似乎是唯一的方法?tail -n +2 myfile.txt | grep 'somepattern' | cut -f3
151赞 mightypile 10/4/2013 #4

这并不比其他答案更好,但在没有空格的文件中完成工作的另一种方法(请参阅注释)。我发现我经常需要单行来挖掘文本文件中的列表,而无需使用单独的脚本文件的额外步骤。

for word in $(cat peptides.txt); do echo $word; done

这种格式允许我将其全部放在一个命令行中。将“echo $word”部分更改为您想要的任何内容,您可以发出多个用分号分隔的命令。以下示例将文件的内容用作您可能已编写的另外两个脚本的参数。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者,如果您打算像流编辑器一样使用它(学习 sed),您可以将输出转储到另一个文件,如下所示。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我使用了上面写的这些,因为我使用了文本文件,我创建了它们,每行一个单词。(见评论)如果您有不想拆分单词/行的空格,它会变得有点难看,但相同的命令仍然按如下方式工作:

OLDIFS=$IFS; IFS=$'\n'; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉 shell 只拆分换行符,而不是空格,然后将环境恢复到以前的状态。不过,在这一点上,您可能需要考虑将其全部放入 shell 脚本中,而不是将其全部压缩到一行中。

祝你好运!

评论

6赞 maxpolk 12/9/2013
bash $(<peptides.txt) 可能更优雅,但它仍然是错误的,Joao 说的没错,您正在执行命令替换逻辑,其中空格或换行符是一回事。如果一行中有空格,则循环对该行执行两次或更多次。因此,您的代码应正确读取:for word in $(<peptides.txt);做。。。。如果你知道一个事实没有空格,那么一行等于一个词,你就没事了。
2赞 mightypile 12/22/2013
@JoaoCosta,maxpolk : 我没有考虑过的好点。我已经编辑了原始帖子以反映它们。谢谢!
3赞 mklement0 12/23/2013
使用会使输入标记/行受到 shell 扩展的影响,这通常是不可取的;试试这个: - 正如你所看到的,--即使最初是带引号的文字--也会扩展到当前目录中的文件。forfor l in $(echo '* b c'); do echo "[$l]"; done*
2赞 mightypile 11/24/2015
@dblanchard:最后一个示例,使用 $IFS,应该忽略空格。你试过那个版本吗?
5赞 Egor Hans 11/12/2017
随着关键问题的解决,此命令如何变得更加复杂,这很好地说明了为什么使用迭代文件行是一个坏主意。另外,@mklement0提到的扩展方面(尽管这可以通过引入转义引号来规避,这再次使事情变得更加复杂和难以阅读)。for
6赞 Sine 11/14/2013 #5
#!/bin/bash
#
# Change the file name from "test" to desired input file 
# (The comments in bash are prefixed with #'s)
for x in $(cat test.txt)
do
    echo $x
done

评论

8赞 Toby Speight 6/9/2015
这个答案需要 mightypile 的答案中提到的警告,如果任何行包含 shell 元字符(由于未加引号的“$x”),它可能会严重失败。
9赞 Egor Hans 11/12/2017
我真的很惊讶人们还没有想出通常的不要读台词......
0赞 ingyhere 6/12/2021
这真的不能以任何一般的方式工作。Bash 将每一行拆分到空格上,这不太可能是理想的结果。
53赞 Jahid 6/9/2015 #6

使用 while 循环,如下所示:

while IFS= read -r line; do
   echo "$line"
done <file

笔记:

  1. 如果设置不正确,将丢失缩进。IFS

  2. 您几乎总是应该将 -r 选项与 read 一起使用。

  3. 不要读带有 for 的

评论

3赞 Jahid 6/23/2015
@DavidC.Rankin -r 选项可防止反斜杠解释。 是一个链接,其中详细描述了它......Note #2
0赞 Florin Andrei 2/17/2017
将它与另一个答案中的“read -u”选项结合起来,然后它就完美了。
0赞 Jahid 2/17/2017
@FlorinAndrei : 上面的例子不需要这个选项,你说的是另一个例子吗?-u-u
0赞 Egor Hans 11/13/2017
浏览了您的链接,并惊讶地发现没有答案可以简单地链接您在注释 2 中的链接。该页面提供了您需要了解的有关该主题的所有信息。还是不鼓励仅链接答案或其他什么?
0赞 Jahid 11/13/2017
@EgorHans:仅链接答案通常会被删除。
3赞 Whome 6/30/2015 #7

这是我的真实示例,如何循环另一个程序输出的行,检查子字符串,从变量中删除双引号,在循环外使用该变量。我想很多人迟早会问这些问题。

##Parse FPS from first video stream, drop quotes from fps variable
## streams.stream.0.codec_type="video"
## streams.stream.0.r_frame_rate="24000/1001"
## streams.stream.0.avg_frame_rate="24000/1001"
FPS=unknown
while read -r line; do
  if [[ $FPS == "unknown" ]] && [[ $line == *".codec_type=\"video\""* ]]; then
    echo ParseFPS $line
    FPS=parse
  fi
  if [[ $FPS == "parse" ]] && [[ $line == *".r_frame_rate="* ]]; then
    echo ParseFPS $line
    FPS=${line##*=}
    FPS="${FPS%\"}"
    FPS="${FPS#\"}"
  fi
done <<< "$(ffprobe -v quiet -print_format flat -show_format -show_streams -i "$input")"
if [ "$FPS" == "unknown" ] || [ "$FPS" == "parse" ]; then 
  echo ParseFPS Unknown frame rate
fi
echo Found $FPS

在循环外声明变量,设置值并在循环外使用它需要<<<“$(...)”语法完成。应用程序需要在当前控制台的上下文中运行。命令两边的引号保留输出流的换行符。

子字符串的循环匹配然后读取 name=value pair,拆分 last = 字符的右侧部分,删除第一个引号,删除最后一个引号,我们有一个干净的值可以在其他地方使用。

评论

3赞 Egor Hans 11/12/2017
虽然答案是正确的,但我确实理解它是如何在这里结束的。基本方法与许多其他答案提出的方法相同。另外,它完全淹没在您的 FPS 示例中。
1赞 Alan Jebakumar 8/30/2015 #8

@Peter:这可能对你有用——

echo "Start!";for p in $(cat ./pep); do
echo $p
done

这将返回输出-

Start!
RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

评论

12赞 fedorqui 6/16/2016
这是非常糟糕的!为什么不读带有“for”的行
3赞 codeforester 1/14/2017
这个答案违背了上面好答案所设定的所有原则!
3赞 dawg 5/3/2017
请删除此答案。
5赞 Egor Hans 11/12/2017
现在伙计们,不要夸大其词。答案很糟糕,但它似乎有效,至少对于简单的用例是这样。只要提供了这一点,成为一个糟糕的答案并不会剥夺答案的存在权。
4赞 Charles Duffy 9/21/2018
@EgorHans,我强烈反对:答案的重点是教人们如何编写软件。教人们以你知道对他们有害的方式做事,而使用他们软件的人(引入错误/意外行为/等)是在故意伤害他人。一个已知有害的答案在精心策划的教学资源中没有“存在权”(而策划它正是我们这些投票和标记的人应该在这里做的事情)。
17赞 dawg 2/4/2016 #9

假设你有这个文件:

$ cat /tmp/test.txt
Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR

有四个元素会改变许多 Bash 解决方案读取的文件输出的含义:

  1. 空白行 4;
  2. 两条线上的前导或尾随空格;
  3. 保持单行的含义(即每行都是一条记录);
  4. 第 6 行未以 CR 结尾。

如果希望文本文件逐行包含空行和终止行,则必须使用 while 循环,并且必须对最后一行进行替代测试。

以下是可能更改文件的方法(与返回的内容相比):cat

1) 丢失最后一行以及前导和尾随空格:

$ while read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'

(如果这样做,则保留前导和尾随空格,但如果最后一行未以 CR 结尾,则仍会丢失最后一行)while IFS= read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt

2)使用带有will的进程替换可以一口气读取整个文件,并失去单个行的含义:cat

$ for p in "$(cat /tmp/test.txt)"; do printf "%s\n" "'$p'"; done
'Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR'

(如果删除 ,则逐字阅读文件,而不是一口吞咽。也可能不是预期的......"$(cat /tmp/test.txt)


逐行读取文件并保留所有间距的最可靠和最简单的方法是:

$ while IFS= read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'    Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space    '
'Line 6 has no ending CR'

如果要剥离前导空格和交易空格,请删除以下部分:IFS=

$ while read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'
'Line 6 has no ending CR'

(没有终止符的文本文件虽然很常见,但在 POSIX 下被认为是损坏的。如果你能指望尾随,你就不需要在循环中。\n\n|| [[ -n $line ]]while

更多内容请见 BASH 常见问题解答

19赞 Anjul Sharma 3/9/2016 #10

如果您不希望您的读取被换行符打断,请使用 -

#!/bin/bash
while IFS='' read -r line || [[ -n "$line" ]]; do
    echo "$line"
done < "$1"

然后以文件名作为参数运行脚本。

评论

0赞 muthuh 7/26/2023
自我注意:“-r”选项“防止反斜杠解释”;mywiki.wooledge.org/BashFAQ/001
112赞 codeforester 1/14/2017 #11

其他答案未涵盖的还有几件事:

从分隔文件中读取

# ':' is the delimiter here, and there are three fields on each line in the file
# IFS set below is restricted to the context of `read`, it doesn't affect any other code
while IFS=: read -r field1 field2 field3; do
  # process the fields
  # if the line has less than three fields, the missing fields will be set to an empty string
  # if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)
done < input.txt

使用进程替换从另一个命令的输出中读取

while read -r line; do
  # process the line
done < <(command ...)

这种方法比因为这里的 while 循环在当前 shell 中运行,而不是像后者那样在子 shell 中运行更好。请参阅相关文章 A variable modified within a while loop is not remembered.command ... | while read -r line; do ...

例如,从空分隔的输入中读取find ... -print0

while read -r -d '' line; do
  # logic
  # use a second 'read ... <<< "$line"' if we need to tokenize the line
done < <(find /path/to/dir -print0)

相关阅读:BashFAQ/020 - 如何查找并安全地处理包含换行符、空格或两者兼而有之的文件名?

一次读取多个文件

while read -u 3 -r line1 && read -u 4 -r line2; do
  # process the lines
  # note that the loop will end when we reach EOF on either of the files, because of the `&&`
done 3< input1.txt 4< input2.txt

根据 @chepner 的回答:

-u是一个 bash 扩展。对于 POSIX 兼容性,每个调用都类似于 .read -r X <&3

将整个文件读入数组(Bash 版本早至 4)

while read -r line; do
    my_array+=("$line")
done < my_file

如果文件以不完整的行结尾(末尾缺少换行符),则:

while read -r line || [[ $line ]]; do
    my_array+=("$line")
done < my_file

将整个文件读入数组(Bash 版本 4x 及更高版本)

readarray -t my_array < my_file

mapfile -t my_array < my_file

然后

for line in "${my_array[@]}"; do
  # process the lines
done

相关文章:

评论

0赞 masterxilo 3/7/2019
请注意,而不是你总是可以做或command < input_filename.txtinput_generating_command | commandcommand < <(input_generating_command)
1赞 frank_108 3/6/2020
感谢您将文件读入数组。这正是我需要的,因为我需要每行解析两次,添加到新变量,进行一些验证等。
1赞 user5359531 6/25/2020
这是迄今为止我认为最有用的版本
0赞 Erwann 3/20/2022
'read -r -d ''' 适用于与 结合使用的 null 分隔输入,而不是独立 ()。请看这里whileread -r d '' foo bar
1赞 madD7 8/8/2019 #12

这来得相当晚,但考虑到它可能会帮助某人,我正在添加答案。此外,这可能不是最好的方法。 命令可以与参数一起使用,从文件的开头读取 N 行,同样,命令可用于从底部读取。现在,要从文件中获取第 n 行,我们以 n 行为首,将数据从管道数据中仅尾部 1 head-ntail

   TOTAL_LINES=`wc -l $USER_FILE | cut -d " " -f1 `
   echo $TOTAL_LINES       # To validate total lines in the file

   for (( i=1 ; i <= $TOTAL_LINES; i++ ))
   do
      LINE=`head -n$i $USER_FILE | tail -n1`
      echo $LINE
   done

评论

7赞 tripleee 2/7/2020
别这样。循环行号并通过 or + 获取每一行的效率非常低,当然,这就引出了一个问题,为什么你不在这里简单地使用其他解决方案之一。如果需要知道行号,请在循环中添加计数器,或用于在循环之前为每行添加行号前缀。sedheadtailwhile read -rnl -ba
0赞 tripleee 8/11/2021
另请参阅现在 stackoverflow.com/questions/65538947/...
0赞 madD7 10/21/2021
@tripleee我已经明确提到“这可能不是最好的方法”。我没有将讨论局限于“最佳或最有效的解决方案”。
0赞 scandel 4/1/2022
在某些情况下,使用 for 循环循环遍历文件的行可能很有用。例如,某些命令可以使 while 循环中断。查看 stackoverflow.com/a/64049584/2761700
1赞 tripleee 8/27/2023
@phil294 一遍又一遍地读取和丢弃相同的数据是 O(n^2),在几乎所有重要的情况下,它都会比循环中的 O(n) 慢。我的第二条评论中的链接问题有更多细节。read
13赞 elghazal-a 6/7/2020 #13

我喜欢用 . 功能强大且命令行友好xargswhilexargs

cat peptides.txt | xargs -I % sh -c "echo %"

使用 ,您还可以添加详细程度 with 和 验证xargs-t-p

评论

0赞 Charles Duffy 5/1/2022
这种方法存在严重的安全问题。如果你包含的东西无法逃脱,甚至更糟,怎么办?peptides.txt$(rm -rf ~)$(rm -rf ~)'$(rm -rf ~)'
12赞 Jieiku 1/11/2021 #14

这可能是最简单的答案,也许它并非在所有情况下都有效,但它对我来说效果很好:

while read line;do echo "$line";done<peptides.txt

如果需要将空格括在括号中:

while read line;do echo \"$line\";done<peptides.txt

啊,这与获得最多赞成票的答案几乎相同,但它都在一行上。

0赞 abhishek nair 3/1/2022 #15

使用 xargs 的另一种方式

<file_name | xargs -I {} echo {}

echo 可以替换为其他命令或进一步通过管道传输。

评论

0赞 Daniel 9/13/2022
根本不起作用,文件很大,echo 什么都没有
0赞 pont 4/4/2023
这在 ZSH 中有效,并且是执行此操作的最干净的方法,尽管在 bash 中命令是cat file_name | xargs -I {} echo {}
-1赞 mazman 11/16/2022 #16

对于“猫肽.txt”中的 P 做 回声 “${p}” 做

评论

0赞 tripleee 2/2/2023
不要读带有 for 的