这听起来像是"Unicode“和"UTF-8”在含义上的混淆。Unicode是一种标准,它基本上为每个字符(*)分配一个数字。这就是U+560A : Unicode代码点560A (22026的十六进制)。HTML/XML十进制和十六进制字符实体直接使用该值,而不进行任何编码,这就是为什么可以只提供该数字的原因。
"Unicode“本身还不是一种编码。这意味着它没有定义如何将这些字符映射到字节的唯一映射。
UTF-8就是这样一种映射,它基本上尝试将每个Unicode码点映射到1到4字节之间的任何位置(码点越高,字节序列越长)。
URL编码使用特定的编码来处理文本,因此它必须对UTF-8生成的字节进行编码。
(*)这要复杂得多,它们定义的不仅仅是字符,但对于这个答案来说,这已经足够接近了。