提问人:Victor Lyuboslavsky 提问时间:2/28/2013 最后编辑:Abderrahmene Rayene MihoubVictor Lyuboslavsky 更新时间:11/14/2023 访问量:14358
判断两个字符串或二进制文件是否不同的最快方法是什么?
What's the fastest way to tell whether two strings or binary files are different?
问:
我正在编写单元测试,需要将结果文件与黄金文件进行比较。最简单的方法是什么?
到目前为止,我有(对于Linux环境):
int result = system("diff file1 file2");
如果 .result != 0
答:
这应该有效:
#include <string>
#include <fstream>
#include <streambuf>
#include <iterator>
bool equal_files(const std::string& a, const std::string& b) {
std::ifstream stream{a};
std::string file1{std::istreambuf_iterator<char>(stream),
std::istreambuf_iterator<char>()};
stream = std::ifstream{b};
std::string file2{std::istreambuf_iterator<char>(stream),
std::istreambuf_iterator<char>()};
return file1 == file2;
}
我怀疑这没有 那么快,但它避免了调用。不过,对于一个测试用例来说,这应该足够了。diff
system
评论
iterator
防止读取这两个文件的一种方法是将黄金文件预先计算为哈希值,例如 MD5。然后,您只需要检查测试文件即可。请注意,这可能比仅读取两个文件慢!
或者,对检查进行分层 - 查看文件大小,如果它们不同,则文件不同,您可以避免冗长的读取和比较操作。
如果你想要一个纯 c++ 解决方案,我会做这样的事情
#include <algorithm>
#include <iterator>
#include <string>
#include <fstream>
template<typename InputIterator1, typename InputIterator2>
bool
range_equal(InputIterator1 first1, InputIterator1 last1,
InputIterator2 first2, InputIterator2 last2)
{
while(first1 != last1 && first2 != last2)
{
if(*first1 != *first2) return false;
++first1;
++first2;
}
return (first1 == last1) && (first2 == last2);
}
bool compare_files(const std::string& filename1, const std::string& filename2)
{
std::ifstream file1(filename1);
std::ifstream file2(filename2);
std::istreambuf_iterator<char> begin1(file1);
std::istreambuf_iterator<char> begin2(file2);
std::istreambuf_iterator<char> end;
return range_equal(begin1, end, begin2, end);
}
它避免将整个文件读入内存,并在文件不同时(或在文件末尾)停止。range_equal因为第二个范围不需要一对迭代器,如果第二个范围较短,则不安全。std::equal
评论
ios::binary
有意义吗?P.S.:我要指出的是,这不是最快的,因为它一次也会检查一个字节,以防大文件。但作为一个简单的解决方案似乎很棒。end
std::ifstream
可能有点矫枉过正,但您可以使用 boost/bimap 和 boost/scope_exit 构建哈希表 SHA-256。
以下是 Stephan T Lavavej 的视频(从 8.15 开始): http://channel9.msdn.com/Series/C9-Lectures-Stephan-T-Lavavej-Advanced-STL/C9-Lectures-Stephan-T-Lavavej-Advanced-STL-5-of-n
有关算法的详细信息,请 http://en.wikipedia.org/wiki/SHA-2
#include <fstream>
#include <algorithm>
bool compare_files(const std::string& filename1, const std::string& filename2)
{
std::ifstream file1(filename1, std::ifstream::ate | std::ifstream::binary); //open file at the end
std::ifstream file2(filename2, std::ifstream::ate | std::ifstream::binary); //open file at the end
const std::ifstream::pos_type fileSize = file1.tellg();
if (fileSize != file2.tellg()) {
return false; //different file size
}
file1.seekg(0); //rewind
file2.seekg(0); //rewind
std::istreambuf_iterator<char> begin1(file1);
std::istreambuf_iterator<char> begin2(file2);
return std::equal(begin1,std::istreambuf_iterator<char>(),begin2); //Second argument is end-of-range iterator
}
(我想知道在倒带之前,是否可以用来创建一个更有效的流迭代器结束,通过知道流的长度,它允许在当时处理更多的字节)。fileSize
std::equal
评论
if (file2.tellg() != file2.tellg())
fileSize
评论
diff
system
cmp
diff
mmap()
memcmp()