字符编码之间的转换

来源：互联网发布：苏州大数据产业联盟编辑：程序博客网时间：2024/06/09 14:39

字符编码介绍

在严格的ASCII中，每个字元用7位元表示，一共规定了128个字符的编码；

Unicode拓展自ASCII字元集，使用全16位字元集，可以表示全世界上所有的书写语言中可能用于电脑通讯的字元、象形文字和其他符号。但不支持一些古老的文字。

UTF-8是一种针对Unicode的可变长宽字符编码，又称为万国码（通用转换格式）。UTF-8用1到4字节编码Unicode字符。用在网页上可以统一显示中文繁体及其他语言（如英文、日文、韩文）。对可以用ASCII表示的字符使用Unicode并不高效，因为Unicode比ASCII多一倍空间。为解决这个问题，出现了中间格式的UTF-8。

GB2313是ANSI编码中里的一种，是简体中文编码字符集。

补充：不同国家和地区制定了不同的标准，由此产生GB2313、BIG5等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延伸编码方式，称为ANSI编码。

Ansi、Unicode

void AnsiToUnicode()

{

// Ansi to Unicode

char* szAnsi = "abcd1234你我他";

// 预转换，得到所需空间的大小

int wcsLen = ::MultiByteToWideChar(CP_ACP,NULL, szAnsi, strlen(szAnsi), NULL, 0);

//分配空间要给'\0'留个空间，MultiByteToWideChar不会给'\0'空间

wchar_t* wszString = new wchar_t[wcsLen + 1];

// 转换

::MultiByteToWideChar(CP_ACP,NULL, szAnsi, strlen(szAnsi), wszString, wcsLen);

// 最后加上'\0'

wszString[wcsLen]= '\0';

// Unicode版的MessageBox API

::MessageBoxW(GetSafeHwnd(),wszString, wszString, MB_OK);

// 接下来写入文本

// 写文本文件，头2个字节0xfeff，低位0xff写在前

CFilecFile;

cFile.Open(_T("1.txt"), CFile::modeWrite |CFile::modeCreate);

// 文件开头

cFile.SeekToBegin();

cFile.Write("\xff\xfe", 2);

// 写入内容

cFile.Write(wszString,wcsLen * sizeof(wchar_t));

cFile.Flush();

cFile.Close();

delete[] wszString;

wszString= NULL;

// 方法2

// 设置当前地域信息，不设置的话，使用这种方法，中文不会正确显示

// 需要#include<locale.h>

setlocale(LC_CTYPE,"chs");

wchar_t wcsStr[100];

// 注意下面是大写S，在unicode中，代表后面是ansi字符串

// swprintf是sprintf的unicode版本

// 格式的前面要加大写L，代表是unicode

swprintf(wcsStr,L"%S", szAnsi);

::MessageBoxW(GetSafeHwnd(),wcsStr, wcsStr, MB_OK);

}

void UnicodeToAnsi()

{

// Unicode to Ansi

wchar_t* wszString = L"abcd1234你我他";

// 预转换，得到所需空间的大小，这次用的函数和上面名字相反

int ansiLen = ::WideCharToMultiByte(CP_ACP,NULL, wszString, wcslen(wszString), NULL, 0, NULL, NULL);

// 分配空间要给'\0'留个空间

char* szAnsi = new char[ansiLen + 1];

// 转换

// Unicode版对应的strlen是wcslen

::WideCharToMultiByte(CP_ACP,NULL, wszString, wcslen(wszString), szAnsi, ansiLen, NULL, NULL);

// 最后加上'\0'

szAnsi[ansiLen]= '\0';

// Ansi版的MessageBox API

::MessageBoxA(GetSafeHwnd(),szAnsi, szAnsi, MB_OK);

// 接下来写入文本

// 写文本文件，ANSI文件没有BOM(字节顺序标志)

CFilecFile;

cFile.Open(_T("1.txt"), CFile::modeWrite |CFile::modeCreate);

// 文件开头

cFile.SeekToBegin();

// 写入内容

cFile.Write(szAnsi,ansiLen * sizeof(char));

cFile.Flush();

cFile.Close();

delete[] szAnsi;

szAnsi= NULL;

// 方法2

// 设置当前地域信息，不设置的话，使用这种方法，中文不会正确显示

// 需要#include<locale.h>

setlocale(LC_CTYPE,"chs");

char szStr[100];

// 注意下面是大写，在ansi中，代表后面是unicode字符串

// sprintf

sprintf(szStr,"%S", wszString);

::MessageBoxA(GetSafeHwnd(),szStr, szStr, MB_OK);

}

Unicode、UTF-8、Ansi

void U8ToUnicode()

{

// UTF8 to Unicode

// 由于中文直接复制过来会成乱码，编译器有时会报错，故采用16进制形式

char* szU8 = "abcd1234\xe4\xbd\xa0\xe6\x88\x91\xe4\xbb\x96\x00";

// 预转换，得到所需空间的大小

int wcsLen = ::MultiByteToWideChar(CP_UTF8,NULL, szU8, strlen(szU8), NULL, 0);

// 分配空间要给'\0'留个空间，MultiByteToWideChar不会给'\0'空间

wchar_t* wszString = new wchar_t[wcsLen + 1];

// 转换

::MultiByteToWideChar(CP_UTF8,NULL, szU8, strlen(szU8), wszString, wcsLen);

// 最后加上'\0'

wszString[wcsLen]= '\0';

//unicode版的MessageBox API

::MessageBoxW(GetSafeHwnd(),wszString, wszString, MB_OK);

}

// Unicode to UTF8

int aLen = WideCharToMultiByte(CP_UTF8, 0,wStr, -1, NULL, 0, NULL, NULL);

char* converted = new char[aLen];

WideCharToMultiByte(CP_UTF8,0, wStr, -1, converted, aLen, NULL, NULL);

Ansi转换utf8和utf8转换Ansi就是上面2个的结合，把unicode作为中间量，进行2次转换即可。

GBK、UTF-8、Unicode

// UTF-8到GB2312的转换

char* U2G(constchar* utf8)

{

int len = MultiByteToWideChar(CP_UTF8, 0,utf8, -1, NULL, 0);

wchar_t* wstr = new wchar_t[len + 1];

memset(wstr,0, len + 1);

MultiByteToWideChar(CP_UTF8,0, utf8, -1, wstr, len);

len= WideCharToMultiByte(CP_ACP, 0, wstr, -1, NULL, 0, NULL, NULL);

char* str = new char[len + 1];

memset(str,0, len + 1);

WideCharToMultiByte(CP_ACP,0, wstr, -1, str, len, NULL, NULL);

if (wstr) delete[] wstr;

return str;

}

// GB2312到UTF-8的转换

char* G2U(constchar* gb2312)

{

int len = MultiByteToWideChar(CP_ACP, 0,gb2312, -1, NULL, 0);

wchar_t* wstr = new wchar_t[len + 1];

memset(wstr,0, len + 1);

MultiByteToWideChar(CP_ACP,0, gb2312, -1, wstr, len);

len= WideCharToMultiByte(CP_UTF8, 0, wstr, -1, NULL, 0, NULL, NULL);

char* str = new char[len + 1];

memset(str,0, len + 1);

WideCharToMultiByte(CP_UTF8,0, wstr, -1, str, len, NULL, NULL);

if (wstr) delete[] wstr;

return str;

}

// GB2312 to Unicode

int wLen = MultiByteToWideChar(CP_ACP, 0,lpszText, -1, NULL, 0);

LPWSTR wStr = new WCHAR[wLen];

MultiByteToWideChar(CP_ACP, 0, lpszText,-1, wStr, wLen);

// Unicode to GB2312

int aLen2 = WideCharToMultiByte(CP_ACP, 0,wStr2, -1, NULL, 0, NULL, NULL);

char* converted2 = new char[aLen2];

WideCharToMultiByte(CP_ACP,0, wStr, -1, converted2, aLen2, NULL, NULL);

0 0