LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 2855|回复: 11

UTF-8疑问:zh_CN.UTF-8和en_US.UTF-8有何区别?

[复制链接]
发表于 2005-6-5 20:17:21 | 显示全部楼层 |阅读模式
我们通常说的UTF-8有是什么?
真是糊涂了,谢谢指教。
这几天被编码迷惑住了,一定要弄清楚
发表于 2005-6-5 20:29:32 | 显示全部楼层
你说zh_CN和en_US 有什么区别
回复 支持 反对

使用道具 举报

 楼主| 发表于 2005-6-5 20:47:59 | 显示全部楼层
是否如此:
en_US.UTF-8、zh_CN.UTF-8叫做字符集,就是说‘A’、‘B’、‘中’、‘国’等对应的整数值,
en_US.UTF-8只包含了ASCII码,zh_CN.UTF-8包含了6000多个汉字?
如果是这样的话,那所谓UTF-8,就是把这些整数,编写成一串字节的方法?
那如何设置linux使用UTF-8编码呢?我在locale中没见到相关设置
回复 支持 反对

使用道具 举报

发表于 2005-6-5 20:51:54 | 显示全部楼层
回复 支持 反对

使用道具 举报

发表于 2005-6-5 21:01:43 | 显示全部楼层
Post by dswei
是否如此:
en_US.UTF-8、zh_CN.UTF-8叫做字符集,就是说‘A’、‘B’、‘中’、‘国’等对应的整数值,
en_US.UTF-8只包含了ASCII码,zh_CN.UTF-8包含了6000多个汉字?
如果是这样的话,那所谓UTF-8,就是把这些整数,编写成一串字节的方法?
那如何设置linux使用UTF-8编码呢?我在locale中没见到相关设置

对啊对啊,UTF-8 是编码,en_US 和 zh_CN 是语言环境
en_US.UTF-8 和 zh_CN.UTF-8 包含的字符数量是基本上一样的,大概是七万个汉字,编码都是 UTF-8 编码,字符集是 Unicode,版本是 4.1 吧?zh_CN.GB18030 和 zh_CN.GBK 的字符集都与 Unicode 3 是等价的,记得应该是这样
语言环境的差别就是另一回事了,中国人和外国人表示时间啦,数字啦,习惯都不一样,所以必须区分开。大部分程序根据语言环境变量来选择界面的语言是中文还是英文。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2005-6-5 21:08:50 | 显示全部楼层
我以前默认语言是中文,编的一些程序带有中文注释,存为UTF-8格式,
现在默认语言是英文,gcc编译就同不过
回复 支持 反对

使用道具 举报

发表于 2005-6-5 21:54:29 | 显示全部楼层
这样啊…… 大概那个时候的 gcc 对中文支持不完善
其实 perl 之类的语言对中文支持也是后来才加上去的,perl 依赖于 glibc 和 gcc。我只记得 perl 有过很大的进步,却不知道 gcc 会有这样的事情
fc4 的 emacs 在 en_US.UTF-8 时候不支持中文,很让人莫名其妙
回复 支持 反对

使用道具 举报

 楼主| 发表于 2005-6-5 22:02:57 | 显示全部楼层
不好意思,bbbush,
gcc的问题解决了,utf-8格式的文件我另存为ASCII格式后,用vi打开发现文件开头多了几个奇怪的字符,删除后即使另存为UTF-8格式的也可以编译通过。
回复 支持 反对

使用道具 举报

发表于 2005-6-6 11:31:14 | 显示全部楼层
mlterm在utf8下不能激活输入法,很是让人郁闷,就是CTRL+SPACE没用,,
gbk没问题。。。
sigh,而且不是全部这样,我遇到了,还有几个哥们遇到了,不明白原因。。。。
回复 支持 反对

使用道具 举报

发表于 2005-6-6 12:03:15 | 显示全部楼层
Post by 哈哈鬼
mlterm在utf8下不能激活输入法,很是让人郁闷,就是CTRL+SPACE没用,,
gbk没问题。。。
sigh,而且不是全部这样,我遇到了,还有几个哥们遇到了,不明白原因。。。。

我一向都是utf8,mlterm却一切正常)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表