您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 中文编码 >

如何解决 Stata 14 的中文乱码问题?

发布时间:2019-06-15 21:08 来源:未知 编辑:admin

  不久前遇到一位朋友,诉说使用 Stata 14 出现中文乱码,而不得不退而使用更低版本的 Stata 的烦恼。其实,这只是因为 Stata 14 使用了 Unicode(统一码、万国码)。

  何为 Unicode?根据百度百科的解释,“Unicode 是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求”。

  简而言之,Unicode 使得跨语言交流变得更为方便精准。但这也意味着,Stata 14 引入 Unicode 之后,在 Stata 文件中(dta,do,ado 文件等),使用中文输入的字符就会出现乱码。解决方法也不难,只要进行适当的编码翻译(unicode translate)即可,即使用 Stata 14 提供的 unicode 系列命令,将中国大陆通行的国标码(GB18030)翻译为统一码。

  正好手头有个关于中国姓氏人口的数据集出现了中文乱码,故截取部分变量的前10个观测值作为演示例子。首先,打开此数据集surname_test.dta。

  可以看出,上表的最后一列,变量 character(中文姓氏)出现了乱码,无法正确显示。在使用 Stata 14 命令 unicode 进行编码时,内存中不能有数据,故先删除数据。

  结果显示,有一个字符串变量需要编码翻译(1 str# variable needs translation)。为此,将编码设为国标码(GB18030),再进行翻译。

  结果显示,此文件已编码翻译成功。再次打开此数据集,并通过数据编辑器 “Data Editor (Browse)” 查看:

  上表已能正确显示中国人口最多的十大姓氏依次为:王、李、张、刘、陈、杨、黄、赵、周、吴。相信朋友可以安心使用 Stata 14 了。

http://gibsonfabrics.com/zhongwenbianma/14.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有