为什么嘊字符的URL编码为%E5%98%8A？

2025-06-29 19:29:33 5772

这听起来像是"Unicode“和"UTF-8”在含义上的混淆。Unicode是一种标准，它基本上为每个字符(*)分配一个数字。这就是U+560A : Unicode代码点560A (22026的十六进制)。HTML/XML十进制和十六进制字符实体直接使用该值，而不进行任何编码，这就是为什么可以只提供该数字的原因。

"Unicode“本身还不是一种编码。这意味着它没有定义如何将这些字符映射到字节的唯一映射。

UTF-8就是这样一种映射，它基本上尝试将每个Unicode码点映射到1到4字节之间的任何位置(码点越高，字节序列越长)。

URL编码使用特定的编码来处理文本，因此它必须对UTF-8生成的字节进行编码。

(*)这要复杂得多，它们定义的不仅仅是字符，但对于这个答案来说，这已经足够接近了。