我简单写写今天中文编码的混乱局面是怎么形成的

来源:互联网 发布:单片机c语言教程视频 编辑:程序博客网 时间:2024/06/10 07:18

我简单写写今天中文编码的混乱局面是怎么形成的:

 

1 1980年我国颁布了第一个汉字编码字符集标准,即GB 2312《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号,奠定了中文信息处理的基础 ----事实上,gb2312发展到今天,早就不够用了(举例来说:如部分在GB 2312推出以后才简化的汉字(如“啰”),部分人名用字(如朱镕基的“镕”字),台湾及香港使用的繁体中文,以及日文和韩文中的汉字等,均未收录),gb2312唯一的优点是字符数量少,处理方便,不认识的字符统统丢弃

 

2 于此同时,台港澳地区提出了BIG-5繁体汉字的编码解决方案

 

3 进入90年代,互联网开始兴起,对字符编码集提出了兼容多种语言、大字符量的新要求,因此在1993年,国际标准化组织发布了ISO/IEC 10646《信息技术通用多八位编码字符集第一部分体系结构与基本多文种》,随后我们国家遵照此标准制定了GB-13000编码,该编码收录了中(包括简体和繁体)、日、韩20902个汉字,将字符集合大大扩大 ----这套标准实际上就是后来鼎鼎大名的utf-8,可惜当时未普及,原因下面说

 

4 国家制定了GB13000标准后,也建议软件巨头微软公司采纳,然而为了迅速发布产品,取得中国市场的垄断地位,微软借口说GB13000还不成熟,自起炉灶在老旧的GB2312上稍加扩展,搞出了一套汉字标准,并直接在当年的windows95中使用,这套字符编码随着win95和office之类软件大行其道,国家看生米已经煮成了熟饭,只好把这套编码整理后,命名为 国标-GBK码,作为建议而非强制性标准推出

 

5 微软到了99年(前后吧),又说GBK已经落伍了,现在流行utf-8标准,准备全盘转换成utf-8,这下把有关部门惹怒了。NND,当年我们推utf-8你说不成熟,自己搞了一套GBK,现在赚得盆满钵满了又自己说要推utf-8了,你丫微软分明就没把政府放在眼里!

 

6 于是政府怒了,强制推行gb18030标准(这个标准前面兼容GBK,其他码位兼容utf-8),算是个半吊子过渡标准吧。要求微软必须强制执行,否则产品不得在大陆卖。于是基本搞死了微软的Windows Me,差点搞死了Office2000(据说发行前几个月,微软除了改字符编码就没干其他什么事情)---确实,WinMe是我认为的最差的Windows版本,而office2k也是前不着村,后不着店,前后兼容性都差

 

7 由于GBK编码方式与Unicode 1.1及GB 13000.1-93不同,为了收拾局面,实现逐步过渡,才推出了前后部分兼容的GB18030,这就是这次我们使用的gb18030编码方式的来历 --目前由国家作为强制标准推行,中文软件必须执行

 

8 以上历史原因,造成了现在GB2312,GBK,GB18030,UTF-8多种编码并存的混乱局面 --- 可以说,如果不是万恶的微软,我们早就一劳永逸的用上UTF-8了,传说微软和政府关系一直很僵,不是说着玩的,微软太目中无政府了

 

9 UTF-8/16(unicode)才是王道

 

原创粉丝点击