提问人:Mojtaba Rezaeian 提问时间:5/6/2015 最后编辑:simhumilecoMojtaba Rezaeian 更新时间:1/15/2021 访问量:317026
MySQL 中的 utf8mb4 和 utf8 字符集有什么区别?
What is the difference between utf8mb4 and utf8 charsets in MySQL?
问:
MySQL中的字符集和字符集有什么区别?utf8mb4
utf8
我已经知道 ASCII、UTF-8、UTF-16 和 UTF-32 编码;
但我很想知道编码组与MySQL Server中定义的其他编码类型有什么区别。utf8mb4
使用 utf8mb4
而不是 utf8
有什么特别的好处/建议吗?
答:
UTF-8 是一种可变长度编码。对于 UTF-8,这意味着存储一个代码点需要 1 到 4 个字节。但是,MySQL的编码称为“utf8”(别名“utf8mb3”),每个代码点最多只存储三个字节。
所以字符集“utf8”/“utf8mb3”不能存储所有Unicode码位:它只支持0x000到0xFFFF的范围,称为“基本多语言平面”。 另请参阅 Unicode 编码的比较。
这是MySQL文档中关于它的内容(同一页面的先前版本):
名为 utf8[/utf8mb3] 的字符集每个字符最多使用三个字节,并且仅包含 BMP 字符。从 MySQL 5.5.3 开始,utf8mb4 字符集每个字符最多使用四个字节,支持补充字符:
对于 BMP 字符,utf8[/utf8mb3] 和 utf8mb4 具有相同的存储特征:相同的代码值、相同的编码、相同的长度。
对于补充字符,utf8[/utf8mb3] 根本无法存储该字符,而 utf8mb4 需要四个字节来存储它。由于 utf8[/utf8mb3] 根本无法存储该字符,因此 utf8[/utf8mb3] 列中没有任何补充字符,并且从旧版本的 MySQL 升级 utf8[/utf8mb3] 数据时无需担心转换字符或丢失数据。
因此,如果您希望您的列支持存储位于 BMP 之外的字符(您通常希望这样做),例如表情符号,请使用“utf8mb4”。另请参阅实际使用中最常见的非 BMP Unicode 字符是什么?。
评论
字符集很有用,因为现在我们不仅需要支持存储语言字符,还需要支持存储符号、新引入的表情符号等。utf8mb4
Mathias Bynens 撰写的一篇关于如何在 MySQL 数据库中支持完整 Unicode 的好书也可以对此有所启发。
评论
摘自 MySQL 8.0 参考手册:
utf8mb4
:Unicode 字符集的 UTF-8 编码,使用 每个字符 4 个字节。
utf8mb3
:Unicode 字符集的 UTF-8 编码,使用 每个字符 3 个字节。
在MySQL中,目前是一个别名,其别名已被弃用,并将在将来的MySQL版本中删除。此时将成为对 的引用。utf8
utf8mb3
utf8
utf8mb4
因此,无论此别名如何,您都可以有意识地为自己设置编码。utf8mb4
为了完成答案,我想在下面添加@WilliamEntriken的评论(也取自手册):
为避免 的含义产生歧义,请考虑显式指定字符集引用,而不是 。
utf8
utf8mb4
utf8
MySQL 在 5.5.3 之后添加了这个 utf8mb4 代码,Mb4 是最多字节 4 的意思,专门设计为兼容四字节 Unicode。幸运的是,UTF8MB4 是 UTF8 的超集,只是不需要将编码转换为 UTF8MB4。当然,为了节省空间,一般使用UTF8就足够了。
原始 UTF-8 格式使用 1 到 6 个字节,最多可以编码 31 个字符。最新的 UTF-8 规范仅使用 1 到 4 个字节,最多可以编码 21 位,仅表示所有 17 个 Unicode 平面。UTF8 是 Mysql 中的字符集,最多只支持三个字节的 UTF-8 字符,这是 Unicode 中基本的多文本平面。
要在 Mysql 中保存 4 字节长的 UTF-8 字符,您需要使用 UTF8MB4 字符集,但只能使用 5.5。支持3个版本后(查看版本:选择版本();)。我认为为了获得更好的兼容性,您应该始终使用 UTF8MB4 而不是 UTF8。对于 char 类型数据,UTF8MB4会占用更多空间,并且根据 Mysql 的官方建议,使用 VARCHAR 而不是 char。
在MariaDB中,utf8mb4作为默认的CHARSET,当它没有在服务器配置中明确设置时,因此使用COLLATE utf8mb4_unicode_ci。
CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
评论
utf8
是 MySQL 较旧的、有缺陷的 UTF-8 实现,正在被弃用。utf8mb4
这是他们命名的固定 UTF-8 实现,也是您现在应该使用的。
在他们有缺陷的版本中,只有第一个 64k 字符平面(基本的多语言平面)中的字符有效,其他字符被视为无效。该平面内的码位值 - 0 到 65535(其中一些是出于特殊原因保留的)可以用最多 3 个字节的 UTF-8 多字节编码来表示,而 MySQL 的早期版本的 UTF-8 任意决定将其设置为限制。这种限制在任何时候都不是对 UTF-8 规则的正确解释,因为 UTF-8 从未被定义为每个字符最多只允许 3 个字节。事实上,UTF-8 的最早定义将其定义为最多 6 个字节(后来修订为 4 个字节)。MySQL的原始版本总是被任意削弱。
当MySQL发布这个时,这个限制的后果还不错,因为大多数Unicode字符都在第一个平面上。从那时起,越来越多的新定义的字符范围被添加到Unicode中,其值超出了第一个平面。Unicode 本身定义了 17 个平面,但到目前为止只使用了其中的 7 个。
为了不破坏旧代码做出任何特定的假设,MySQL保留了损坏的实现,并调用了更新的固定版本。这导致了一些混淆,该名称被误解为它是 UTF-8 的某种扩展或 UTF-8 的替代形式,而不是 MySQL 对真正 UTF-8 的实现。utf8mb4
MySQL的未来版本最终将逐步淘汰旧版本,目前可以将其视为已弃用。在可预见的未来,您需要使用来确保正确的 UTF-8 编码。在足够的时间过去后,电流将被删除,并在未来的某个日期再次上升,这次指的是固定版本,尽管将继续明确地引用固定版本。utf8mb4
utf8
utf8
utf8mb4
评论
utf-8
只能存储 1、2 或 3 个字节的字符,同时也可以存储 4 个字节的字符。 是 给出的字符的子集。句点。utf8mb4
utf-8
utf8mb4