提问人:Bianca 提问时间:9/8/2020 最后编辑:Bianca 更新时间:4/5/2021 访问量:798
有没有办法使用 Java 检查文件中的重复行?
Is there a way to check for duplicate lines within a file using Java?
问:
我正在尝试读取 .inp 文件中的每一行,对于每个非重复项,将该行写入一个新文件。到目前为止,我在使用代码时遇到的问题是所有行都写入输出文件中,无论它们是否与前一行重复。我使用 Scanner 对象读取文件,使用 BufferedReader/FileWriter 对象写入输出文件。
如何避免重复写入?
String book = reader.nextLine();
boolean duplicate = false;
while (reader.hasNext() == true) {
try {
duplicate = reader.hasNext(book);
if (duplicate == true) {
book = reader.nextLine();
} else {
writer.write(book + "\n");
book = reader.nextLine();
}
} catch (NoSuchElementException ex) {
break;
}
}
答:
1赞
Robby Cornelissen
9/8/2020
#1
视情况而定:
- 如果重复的行是连续的,请维护一个变量来存储前一行并与之进行比较。
- 如果重复的行不是连续的,并且有相对较少的 (*) 短行,请将您已经处理过的行存储在 a 中,并在处理行时检查该行是否已经设置了行。
HashSet
contains()
- 如果重复的行不是连续的,并且有相对较少但很长的行,而不是将完整的行存储在 a 中,存储每行的哈希值(例如 SHA1),并与之进行比较。
HashSet
- 如果重复的行不是连续的,并且有很多长行,请将上述技术与某种形式的持久性数据库或数据存储相结合。
(*)相对于可用内存
评论