UTF-8疑问：zh_CN.UTF-8和en_US.UTF-8有何区别？

dswei · 发表于 2005-6-5 20:17:21

我们通常说的UTF-8有是什么？
真是糊涂了，谢谢指教。
这几天被编码迷惑住了，一定要弄清楚

versace · 发表于 2005-6-5 20:29:32

你说zh_CN和en_US 有什么区别

dswei · 发表于 2005-6-5 20:47:59

是否如此：
en_US.UTF-8、zh_CN.UTF-8叫做字符集，就是说‘A’、‘B’、‘中’、‘国’等对应的整数值，
en_US.UTF-8只包含了ASCII码，zh_CN.UTF-8包含了6000多个汉字？
如果是这样的话，那所谓UTF-8，就是把这些整数，编写成一串字节的方法？
那如何设置linux使用UTF-8编码呢？我在locale中没见到相关设置

阿蟾 · 发表于 2005-6-5 20:51:54

http://www.utf-8.com/

bbbush · 发表于 2005-6-5 21:01:43

Post by dswei
是否如此：
en_US.UTF-8、zh_CN.UTF-8叫做字符集，就是说‘A’、‘B’、‘中’、‘国’等对应的整数值，
en_US.UTF-8只包含了ASCII码，zh_CN.UTF-8包含了6000多个汉字？
如果是这样的话，那所谓UTF-8，就是把这些整数，编写成一串字节的方法？
那如何设置linux使用UTF-8编码呢？我在locale中没见到相关设置

对啊对啊，UTF-8 是编码，en_US 和 zh_CN 是语言环境
en_US.UTF-8 和 zh_CN.UTF-8 包含的字符数量是基本上一样的，大概是七万个汉字,编码都是 UTF-8 编码，字符集是 Unicode，版本是 4.1 吧？zh_CN.GB18030 和 zh_CN.GBK 的字符集都与 Unicode 3 是等价的，记得应该是这样
语言环境的差别就是另一回事了，中国人和外国人表示时间啦，数字啦，习惯都不一样，所以必须区分开。大部分程序根据语言环境变量来选择界面的语言是中文还是英文。

dswei · 发表于 2005-6-5 21:08:50

我以前默认语言是中文，编的一些程序带有中文注释，存为UTF-8格式，
现在默认语言是英文，gcc编译就同不过

bbbush · 发表于 2005-6-5 21:54:29

这样啊…… 大概那个时候的 gcc 对中文支持不完善
其实 perl 之类的语言对中文支持也是后来才加上去的，perl 依赖于 glibc 和 gcc。我只记得 perl 有过很大的进步，却不知道 gcc 会有这样的事情
fc4 的 emacs 在 en_US.UTF-8 时候不支持中文，很让人莫名其妙

dswei · 发表于 2005-6-5 22:02:57

不好意思，bbbush，
gcc的问题解决了，utf-8格式的文件我另存为ASCII格式后，用vi打开发现文件开头多了几个奇怪的字符，删除后即使另存为UTF-8格式的也可以编译通过。

哈哈鬼 · 发表于 2005-6-6 11:31:14

mlterm在utf8下不能激活输入法，很是让人郁闷，就是CTRL+SPACE没用，，
gbk没问题。。。
sigh，而且不是全部这样，我遇到了，还有几个哥们遇到了，不明白原因。。。。

xiaosir · 发表于 2005-6-6 12:03:15

Post by 哈哈鬼
mlterm在utf8下不能激活输入法，很是让人郁闷，就是CTRL+SPACE没用，，
gbk没问题。。。
sigh，而且不是全部这样，我遇到了，还有几个哥们遇到了，不明白原因。。。。

我一向都是utf8,mlterm却一切正常

)

		自动登录	找回密码
密码			注册