MySQL 中的 utf8mb4 和 utf8 字符集有什么区别？-解网

问：

MySQL中的字符集和字符集有什么区别？utf8mb4utf8

我已经知道 ASCII、UTF-8、UTF-16 和 UTF-32 编码; 但我很想知道编码组与MySQL Server中定义的其他编码类型有什么区别。utf8mb4

使用 utf8mb4 而不是 utf8 有什么特别的好处/建议吗？

MySQL UTF-8 字符编码 UTF8MB4

3赞 shiwanginio 3/14/2021

好读才能理解差异：eversql.com/......

9赞 Sławomir Lenart 8/26/2021

utf-8只能存储 1、2 或 3 个字节的字符，同时也可以存储 4 个字节的字符。是给出的字符的子集。句点。utf8mb4utf-8utf8mb4

答：

564赞 CodeCaster 5/6/2015 #1

UTF-8 是一种可变长度编码。对于 UTF-8，这意味着存储一个代码点需要 1 到 4 个字节。但是，MySQL的编码称为“utf8”（别名“utf8mb3”），每个代码点最多只存储三个字节。

所以字符集“utf8”/“utf8mb3”不能存储所有Unicode码位：它只支持0x000到0xFFFF的范围，称为“基本多语言平面”。另请参阅 Unicode 编码的比较。

这是MySQL文档中关于它的内容（同一页面的先前版本）：

名为 utf8[/utf8mb3] 的字符集每个字符最多使用三个字节，并且仅包含 BMP 字符。从 MySQL 5.5.3 开始，utf8mb4 字符集每个字符最多使用四个字节，支持补充字符：

对于 BMP 字符，utf8[/utf8mb3] 和 utf8mb4 具有相同的存储特征：相同的代码值、相同的编码、相同的长度。

对于补充字符，utf8[/utf8mb3] 根本无法存储该字符，而 utf8mb4 需要四个字节来存储它。由于 utf8[/utf8mb3] 根本无法存储该字符，因此 utf8[/utf8mb3] 列中没有任何补充字符，并且从旧版本的 MySQL 升级 utf8[/utf8mb3] 数据时无需担心转换字符或丢失数据。

因此，如果您希望您的列支持存储位于 BMP 之外的字符（您通常希望这样做），例如表情符号，请使用“utf8mb4”。另请参阅实际使用中最常见的非 BMP Unicode 字符是什么？。

18赞 Rick James 5/7/2015

到目前为止，我遇到的唯一“需要”utf8mb4的情况是中文和表情符号。有些晦涩难懂的字母需要它。

22赞 Mojtaba Rezaeian 1/20/2016

如果您用于在数据库中保存加密的密码和数据，它也是必需的。我使用普通的utf8格式在mysql中保存加密密码，这给我带来了很多随机密码的麻烦，并且很难调试，所以最后我尝试使用base64编码并暂时解决了这个问题。但是，现在我知道原因了。

62赞 CodeCaster 1/20/2016

@idealidea加密数据是二进制的，不应将二进制数据存储在 varchar 列中。:)

10赞 502_Geek 3/27/2018

@thomasrutter 尝试使用UTF-8保存此（𡞰）字符。:)

7赞 Jasen 6/15/2018

@MojtabaRezaeian它在某种程度上依赖于密码算法 - bcrypt2 将产生 ASCII。

93赞 Jimmy Kane 10/31/2016 #2

字符集很有用，因为现在我们不仅需要支持存储语言字符，还需要支持存储符号、新引入的表情符号等。utf8mb4

Mathias Bynens 撰写的一篇关于如何在 MySQL 数据库中支持完整 Unicode 的好书也可以对此有所启发。

19赞 Ahmed Rezk 5/29/2018

MySQL 8.0 现在默认为 utf8mb4 字符集。[mysql.com/products/enterprise/techspec.html]

89赞 simhumileco 9/15/2018 #3

摘自 MySQL 8.0 参考手册：

utf8mb4：Unicode 字符集的 UTF-8 编码，使用每个字符 4 个字节。

utf8mb3：Unicode 字符集的 UTF-8 编码，使用每个字符 3 个字节。

在MySQL中，目前是一个别名，其别名已被弃用，并将在将来的MySQL版本中删除。此时将成为对的引用。utf8utf8mb3utf8utf8mb4

因此，无论此别名如何，您都可以有意识地为自己设置编码。utf8mb4

为了完成答案，我想在下面添加@WilliamEntriken的评论（也取自手册）：

为避免的含义产生歧义，请考虑显式指定字符集引用，而不是。utf8utf8mb4utf8

5赞 AppCloudData 7/23/2020 #4

MySQL 在 5.5.3 之后添加了这个 utf8mb4 代码，Mb4 是最多字节 4 的意思，专门设计为兼容四字节 Unicode。幸运的是，UTF8MB4 是 UTF8 的超集，只是不需要将编码转换为 UTF8MB4。当然，为了节省空间，一般使用UTF8就足够了。

原始 UTF-8 格式使用 1 到 6 个字节，最多可以编码 31 个字符。最新的 UTF-8 规范仅使用 1 到 4 个字节，最多可以编码 21 位，仅表示所有 17 个 Unicode 平面。UTF8 是 Mysql 中的字符集，最多只支持三个字节的 UTF-8 字符，这是 Unicode 中基本的多文本平面。

要在 Mysql 中保存 4 字节长的 UTF-8 字符，您需要使用 UTF8MB4 字符集，但只能使用 5.5。支持3个版本后（查看版本：选择版本（）;)。我认为为了获得更好的兼容性，您应该始终使用 UTF8MB4 而不是 UTF8。对于 char 类型数据，UTF8MB4会占用更多空间，并且根据 Mysql 的官方建议，使用 VARCHAR 而不是 char。

在MariaDB中，utf8mb4作为默认的CHARSET，当它没有在服务器配置中明确设置时，因此使用COLLATE utf8mb4_unicode_ci。

参考 MariaDB 字符集 & 整理点击

CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

1赞 SedriX 10/21/2020

不。在 MariaDB 中，默认的 CHARSET 是 latin1。（除非您的发行版为您修补了此内容。mariadb.com/kb/en/character-set-and-collation-overview/......

1赞 thomasrutter 11/3/2022

使用有缺陷的实现而不是 utf8mb4 不会节省空间。对于任何可变长度列，同一字符串将占用相同数量的字节。对于像 CHAR 这样的固定长度列，这取决于所使用的存储引擎是否像 VARCHAR 那样进行空间优化（我认为 innodb 默认这样做）还是它保留最大字节数，例如（每个字符的最大字节数）x（字符数）。

43赞 thomasrutter 10/5/2020 #5

utf8是 MySQL 较旧的、有缺陷的 UTF-8 实现，正在被弃用。
utf8mb4这是他们命名的固定 UTF-8 实现，也是您现在应该使用的。

在他们有缺陷的版本中，只有第一个 64k 字符平面（基本的多语言平面）中的字符有效，其他字符被视为无效。该平面内的码位值 - 0 到 65535（其中一些是出于特殊原因保留的）可以用最多 3 个字节的 UTF-8 多字节编码来表示，而 MySQL 的早期版本的 UTF-8 任意决定将其设置为限制。这种限制在任何时候都不是对 UTF-8 规则的正确解释，因为 UTF-8 从未被定义为每个字符最多只允许 3 个字节。事实上，UTF-8 的最早定义将其定义为最多 6 个字节（后来修订为 4 个字节）。MySQL的原始版本总是被任意削弱。

当MySQL发布这个时，这个限制的后果还不错，因为大多数Unicode字符都在第一个平面上。从那时起，越来越多的新定义的字符范围被添加到Unicode中，其值超出了第一个平面。Unicode 本身定义了 17 个平面，但到目前为止只使用了其中的 7 个。

为了不破坏旧代码做出任何特定的假设，MySQL保留了损坏的实现，并调用了更新的固定版本。这导致了一些混淆，该名称被误解为它是 UTF-8 的某种扩展或 UTF-8 的替代形式，而不是 MySQL 对真正 UTF-8 的实现。utf8mb4

MySQL的未来版本最终将逐步淘汰旧版本，目前可以将其视为已弃用。在可预见的未来，您需要使用来确保正确的 UTF-8 编码。在足够的时间过去后，电流将被删除，并在未来的某个日期再次上升，这次指的是固定版本，尽管将继续明确地引用固定版本。utf8mb4utf8utf8utf8mb4

0赞 Ben P.P. Tung 6/7/2022

缺陷！？我不这么认为。我在将表升级到 utf8mb4 方面遇到了糟糕的经验。知道发生了什么吗？有一天我遇到了不正确的密钥文件错误。为了纠正你的答案，utf8mb4 是扩展 utf8，但它是有缺陷的。

5赞 thomasrutter 6/22/2022

这是错误信息。utf8mb4 现在应该用于正确的 UTF-8 支持。如果您的数据库已损坏，并且收到不正确的密钥文件错误，则此无关。

1赞 Michael Currie 1/21/2023

这是最好的答案，因为它澄清了“utf8mb3”“utf8mb4”只是MySQL内部用于其“有缺陷的实现”的名称，正如Thomas Rutter所说，这种版本控制与Unicode联盟维护的UTF-8标准无关。

上一个：在字符集之间转换文本文件的最佳方法？

下一个：UTF-8 和 ISO-8859-1 有什么区别？[已结束]

MySQL 中的 utf8mb4 和 utf8 字符集有什么区别？

What is the difference between utf8mb4 and utf8 charsets in MySQL?

评论

评论

评论

评论

评论