Copyright © 2022-2024 aizws.net · 网站版本: v1.2.6·内部版本: v1.23.3·
页面加载耗时 0.00 毫秒·物理内存 63.6MB ·虚拟内存 1299.8MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
UTF-8(8-bit Unicode Transformation Format)是一种变长编码方式,使用 1 到 4 个字节对字符进行编码,并可以扩展到 8 个字节。
UTF-8 是 Unicode 一种具体的编码实现,在互联网上使用最为广泛。
UTF-8 编码规则:
UTF-8 字节布局:
字节数 | 编码位数 | UTF-8字节流 |
---|---|---|
1 | 7 | 0xxxxxxx |
2 | 11 | 110xxxxx 10xxxxxx |
3 | 16 | 1110xxxx 10xxxxxx 10xxxxxx |
4 | 21 | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
5 | 26 | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
6 | 31 | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
7 | 36 | 11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
8 | 42 | 11111111 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
BOM 是 Byte Order Mark 的简称,通常出现在 Unicode 流的开头部分,用来说明编码类型。
因为系统可能是 big endian,也可能是 little endian, 或者是多字节的 Unicode 编码。
把BOM放置在文件开头部分,利用它来判断字节序。
在 UTF-8 编码中,BOM 没有太大的意义,并且不推荐使用它。
在 HTML 或 XML 的文件开头放置 BOM,可能会导致无法解析。