|
发表于 2006-2-18 15:26:46
|
显示全部楼层
在unicode的文档里面详细讲解了utf-8编码方式,实际你需要的是unihan码表吧,这在wqy.sourceforge.net里面有.
utf-8是一种变长度的编码方式,所以没有utf8码表的说法,不过unicode给每个各种语言中的符号都有一个唯一的4byte的编码,即ucs(Unicode Code Sheet),根据这个代码表,使用utf-8编码方式,就可以对文本做utf-8编码/解码,对utf-8编码的字符串有专用的搜索和模式匹配算法
参考www.unicode.org的rfc文档 |
|