您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 中文编码 >

XML的编码与中文问题

发布时间:2019-06-15 21:06 来源:未知 编辑:admin

  我们知道,XML文件的开头就以XML声明开始,该声明中指明了XML的版本、编码方式等。比如下面的代码:

  这里指定了编码方式为国标2312码。XML软件不再使用HTML等的字符猜测方式处理文档,它要求文档以明确的方式指定其所使用的字符集(即编码方式)。XML为什么需要知道文档的字符集呢?因为象<、>、/、[、]等符号,本来是XML规范中所保留的符号。而双字节编码的汉字,有可能出现这种情况,如某个汉字的编码A是xy,而y恰巧是 <的编码。假如XML软件不知道文档的字符集,那么XML分析器就会错误地将汉字A的低字节y当作是某个标记的开始符号。所以XML分析器必须知道XML文档的编码方式。只有知道它所属的字符集,才不会出现将某个完整的文字编码断开为单个字节,从而导致某些字节解码成错误的字符。 举个非常简单的例子,一个XML文档有如下的一段中文文字:

  我们可以看到帼字的 Unicode 编码为 (3C 5E),高字节为3C(与尖括号<的

  ASCII码相同),象这样的汉字有许多。同样的这段文字,如果该文件保存为UTF-8格

  单对用于标记的尖括号<,在不同的编码格式下它有不同的编码值。如果分析器简单地按字节流方式,逐字节逐字节地进行处理,那么XML分析器如何识别这个尖括号 <就存在问题。尖括号<在不同字符集的编码不同。更糟糕的是,有些编码方式的某些字符,其编码的高字节/低字节可能为尖括号<的ASCII码,在这种情况下,分析器就会把这些字节误认为是尖括号<。

  上面只是举了一个关于尖括号<的简单例子,还有许许多多其它的问题,这些都说明分析器不可能按这种字节流方式来处理。对于任何的XML文档,XML软件工具(包括分析器)必须知道该XML的文档的字符编码方式。

  分析器比较常见的处理方法是,将所有所有的编码先转换到Unicode,在分析器内部完全针对Unicode进行处理。如SGML/XML分析器符号处理(SP)内部就是这样处理的。XML应该可以支持中文。因为W3C的XML1.0(1998年2月10日)规范里规定所有的XML处理器必须接受ISO 10646中的UTF-8和UTF-16编码,所以符合 XML 规范的软件工具一定都支持 ISO10646编码(这个字符集也就是Unicode)。而该编码是一组庞大的字符集,其中包含了 GB2312 编码及 Big5 编码中所有的字符。其实无论什么编码方式,如果统一转成UTF-8编码,则任何一个符合XML规范的软件工具都可以处理它。

  之所以有中文问题,只是因为 XML 的应用刚刚起步,大多数 XML 软件工具目前都没有考虑到中文,或者说没有针对中文编码进行过测试。

  同时需要注意的是,XML对中文的支持不只是指内容可以是中文,也不只是指支持中文标记(tag), 应该是任何元素名称、属性名称等也可以是中文。

  * 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!

  更多

  还在浪费手机的电源键寿命?OPPO K3让查看未接来电未读信息更方便!

  专业摄影领域集结号 索尼SEL200600G及SEL600F40GM试用体验

  专业摄影领域集结号 索尼SEL200600G及SEL600F40GM试用体验

http://gibsonfabrics.com/zhongwenbianma/9.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有