[HTML实体编码和Unicode]

HTML实体编码和Unicode是处理字符和符号的两种常见方法。HTML实体编码用于在HTML文档中显示特殊字符,而Unicode是一种将字符映射为数字的标准。

HTML实体编码

HTML实体编码是一种用特殊字符代替正常字符的方法,以确保在HTML文档中正确显示这些字符。HTML实体以“&”符号开始,以“;”符号结束。例如,HTML实体“<”代表“<”字符,“&”代表“&”字符。

关键字实体

关键字实体涵盖了最常见的字符,并且被大多数浏览器所识别。例如:

1
2
3
4
5
© <!-- 版权符号,产生© -->

™ <!-- 商标符号,产生™ -->

° <!-- 度,产生° -->

十进制实体

并非每个字符都有一个关键字实体。每个字符还具有一个十进制实体:用数字编写的代码。例如:

1
2
3
↺ <!-- 空心圆顺时针箭头,产生↺ -->

⇨ <!-- 右白色箭头,产生⇨ -->

Unicode

Unicode是一种将字符映射为数字的标准。每个字符都有一个唯一的Unicode编码值。例如,字母“A”的Unicode编码值是65,数字“1”的Unicode编码值是49。Unicode兼容多种语言和字符集,使得不同的文本可以在不同的计算机系统和软件中正确显示。

将HTML实体转换为Unicode编码

要将HTML实体转换为Unicode编码,可以使用HTML解码器或函数。以下是一个使用Python的例子:

1
2
3
4
5
6
7
8
9
import html



html_entity = "<p>Hello, World!</p>"

unicode_text = html.unescape(html_entity)

print(unicode_text) # 输出 <p>Hello, World!</p>

将Unicode编码转换为HTML实体

同样地,要将Unicode编码转换为HTML实体,可以使用HTML编码器或函数。以下是一个使用Python的例子:

1
2
3
4
5
6
7
8
9
import html



text = "<p>Hello, World!</p>"

html_entity = html.escape(text)

print(html_entity) # 输出 <p>Hello, World!</p>

通过了解和掌握HTML实体和Unicode编码的转换方法,可以在处理HTML文档时正确显示特殊字符。无论是在网页开发还是在处理HTML文本的应用中,这些知识都是非常重要的。

这些编码都跟ASCII码有着密不可分的关系

浏览器解析顺序

HTML实体编码 -> urlencode -> js unicode

在urlencode 或者decode 的时候 不能编码协议