提问人:MrLungo 提问时间:11/16/2023 最后编辑:Mark RotteveelMrLungo 更新时间:11/19/2023 访问量:90
从前两列中的任何一列中提取 N 行,没有重复的字符串
Extract N lines with no duplicate strings from either of the two first columns
问:
我有一个巨大的 CSV 文件,其中包含成对的独特组合。我需要提取此文件的 N 行随机行,但我需要 col 1&2 中的字符串是唯一的,以便 col 1&2 字符串中的唯一字符串列表组合等于 2*N。
例如,给定的以下输入文件:
A,B,0.1747
B,C,0.373
C,D,0.585
E,J,0.8585
E,A,0.5657
F,A,0.5656
3 条随机线的可能期望输出为:
A,B,0.1747
C,D,0.585
E,J,0.8585
或
B,C,0.373
E,J,0.8585
F,A,0.5656
到目前为止,我已尝试使用以下方法将文件分别减少为列 1 和 2 中的唯一字符串:
shuf file.csv | awk -F',' '!a[$1]++' | awk -F',' '!a[$2]++'
获取
B,C,0.373
E,A,0.5657
A,B,0.1747
C,D,0.585
我不认为这是正确的方法。有没有办法遍历行,如果字符串已经存在于两列中的任何一列中,则不考虑该行?
答:
1赞
Renaud Pacalet
11/16/2023
#1
当您使用两次时,通常只有一个脚本的更好解决方案。您可以尝试:awk
awk
shuf file.csv |
awk -F, '!(a[$1]+a[$2]) {a[$1]++; a[$2]++; n++; print} n==200 {exit}'
变体使用 和 :in
next
shuf file.csv |
awk -F, '$1 in a || $2 in a {next} {a[$1]; a[$2]; n++; print} n==200 {exit}'
注意:您的示例中没有具有相同第一个和第二个字段的输入行。但是,如果发生这种情况并且您想跳过这些行,则可以使用:
shuf file.csv |
awk -F, '($1!=$2) && !(a[$1]+a[$2]) {a[$1]++; a[$2]++; n++; print}
n==200 {exit}'
艺术
shuf file.csv |
awk -F, '$1==$2 || $1 in a || $2 in a {next} {a[$1]; a[$2]; n++; print}
n==200 {exit}'
评论
0赞
MrLungo
11/16/2023
Merci beaucoup!
评论
shuf
awk -F',' '!a[$1]++'
shuf