|
发表于 2003-10-29 00:04:15
|
显示全部楼层
utf-8其实就是一种unicode的变形。unicode在英文地区推行速度很慢,因为英文地区的用户根本不需要用到unicode,而使用unicode将会造成大量的程序、数据重写或更新。于是iso推出一个折衷方案,能够解决这种问题,就是utf-8编码方案。utf-8采用可变长度编码,原来的英文不需要做改变就可以直接用,这时候的utf-8和ansi完全一致。当含有双字节的字符时(比如中文)使用三个字节编码,同时继续保持英文无变化。依据这种编码中文文档将会增加30%的长度,当然也就无法和现在的gb2312/zh编码保持兼容了。不过gb编码转换到utf-8很容易,到时候开发一个程序转一下也不算太麻烦。
另外我觉得不可能只支持utf-8,就算全用unicode至少也要支持utf-16。utf-8对付gb2312还行,gb18030就显得长度不够了。 |
|