在Window CE中Unicode和Ansi字符间互相转换

来源：互联网发布：美食app推荐软件编辑：程序博客网时间：2024/06/11 00:56

    Windows 2000是使用Unicode从头进行开发的，如果调用任何一个Windows函数并给它传递一个ANSI字符串，那么系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串，系统就会首先将Unicode字符串转换成ANSI字符串，然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序，就能够使你的应用程序更加有效地运行。
    Windows CE 本身就是使用Unicode的一种操作系统，完全不支持ANSI Windows函数
    Windows 98 只支持ANSI，只能为ANSI开发应用程序。
    Microsoft公司将COM从16位Windows转换成Win32时，公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。

WindowsCE下编程99%的问题都和Unicode有关，比如文件编辑，一般都保存为Ansi格式，无线通讯中控制Modem需要发送的AT指令，必须是Ansi格式；网络通讯中，C端一般都是Ansi的；为了和PC上协议兼容,在WindowsCE中必须把要发送的一个指令从Unicode转换成Ansi格式……等等.很多初学者对于这些问题总是感到很麻烦。

    Unicode ：宽字节字符集

1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数？
    可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节（既包括单字节也包括双字节）字符串。调用strlen函数，无法真正了解字符串中究竟有多少字符，它只能告诉你到达结尾的0之前有多少个字节。

2. 如何对DBCS（双字节字符集）字符串进行操作？
       函数                                               描述
PTSTR CharNext （ LPCTSTR ）;               返回字符串中下一个字符的地址
PTSTR CharPrev （ LPCTSTR, LPCTSTR ）；     返回字符串中上一个字符的地址
BOOL IsDBCSLeadByte( BYTE )；               如果该字节是DBCS字符的第一个字节，则返回非0值

3. 为什么要使用Unicode？
（1）可以很容易地在不同语言之间进行数据交换。
（2）使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。
（3）提高应用程序的运行效率。

4. 如何编写Unicode源代码？
    Microsoft公司为Unicode设计了WindowsAPI，这样，可以尽量减少代码的影响。实际上，可以编写单个源代码文件，以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏（UNICODE和_UNICODE），就可以修改然后重新编译该源文件。
     _UNICODE宏用于C运行期头文件，而UNICODE宏则用于Windows头文件。当编译源代码模块时，通常必须同时定义这两个宏。

5. Windows定义的Unicode数据类型有哪些？
数据类型                                    说明
WCHAR                                 Unicode字符
PWSTR                                 指向Unicode字符串的指针
PCWSTR                                指向一个恒定的Unicode字符串的指针
   对应的ANSI数据类型为CHAR，LPSTR和LPCSTR。
   ANSI/Unicode通用数据类型为TCHAR，PTSTR,LPCTSTR。

6. 如何对Unicode进行操作？
字符集                特性                   实例
ANSI            操作函数以str开头           strcpy
Unicode         操作函数以wcs开头           wcscpy
MBCS            操作函数以_mbs开头         _mbscpy
ANSI/Unicode    操作函数以_tcs开头        _tcscpy（C运行期库）
ANSI/Unicode    操作函数以lstr开头        lstrcpy（Windows函数）
     所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示；Unicode版本函数结尾以W表示。Windows会如下定义：
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE

7. 如何表示Unicode字符串常量？
字符集               实例
ANSI               “string”
Unicode            L“string”
ANSI/Unicode       T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }

8. 为什么应当尽量使用操作系统函数？
    这将有助于稍稍提高应用程序的运行性能，因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多，因此，在应用程序运行时，它们可能已经被装入RAM。
    如：StrCat，StrChr，StrCmp和StrCpy等。

9. 如何编写符合ANSI和Unicode的应用程序？
（1）将文本串视为字符数组，而不是chars数组或字节数组。
（2）将通用数据类型（如TCHAR和PTSTR）用于文本字符和字符串。
（3）将显式数据类型（如BYTE和PBYTE）用于字节、字节指针和数据缓存。
（4）将TEXT宏用于原义字符和字符串。
（5）执行全局性替换（例如用PTSTR替换PSTR）。
（6）修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小，而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递（sizeof(szBuffer)/sizeof(TCHAR)。另外，如果需要为字符串分配一个内存块，并且拥有该字符串中的字符数目，那么请记住要按字节来分配内存。这就是说，应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)。

10. 如何对字符串进行有选择的比较？
通过调用CompareString来实现。
标志                               含义
NORM_IGNORECASE             忽略字母的大小写
NORM_IGNOREKANATYPE         不区分平假名与片假名字符
NORM_IGNORENONSPACE         忽略无间隔字符
NORM_IGNORESYMBOLS          忽略符号
NORM_IGNOREWIDTH            不区分单字节字符与作为双字节字符的同一个字符
SORT_STRINGSORT             将标点符号作为普通符号来处理

11. 如何判断一个文本文件是ANSI还是Unicode？
   判断如果文本文件的开头两个字节是0xFF和0xFE，那么就是Unicode，否则是ANSI。

12. 如何判断一段字符串是ANSI还是Unicode？
    用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法，以便猜测缓存的内容。由于这不是一种确切的科学方法，因此 IsTextUnicode有可能返回不正确的结果。

13. 如何在Unicode与ANSI之间转换字符串？
    Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串；函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

14.其实WindowsCE中有标准的API实现了Unicode和Ansi字符间的互转，下面就是网络通讯中的程序片断。

m_psocket是指向一个从CCeSocket派生的类,如果没有连接的话其为NULL;
m_snd是要发送的CString,和一个EDIT相对应.

//发送函数片断
void CClient1Dlg::OnButtonSend()
{
// TODO: Add your control notification handler code here
if (!m_psocket) //无Socket连接，退出
{
  MessageBox(TEXT("无连接!"),TEXT("信息"));
  return;
}
UpdateData(TRUE); //保存输入的字符串到m_snd
unsigned char buf[129]; //发送缓冲区
ZeroMemory(buf,sizeof(buf)); //缓冲区清零
CString tmpstr(m_snd); //复制要发送的字符串
int multibytelen=WideCharToMultiByte( //计算从Unicode转换到Ansi后需要的字节数
  CP_ACP, //根据ANSI code page转换
  WC_COMPOSITECHECK | WC_DEFAULTCHAR, //转换出错用缺省字符代替
  tmpstr.GetBuffer(m_snd.GetLength()), //要转换的字符串地址
  m_snd.GetLength(), //要转换的个数
  0, //转换后字符串放置的地址
  0, //最多转换字符的个数，为0表示返回转换Unicode后需要多少个字节
  0, //缺省的字符:"/0"
  0   //缺省的设置
  );
WideCharToMultiByte( //转换Unicode到Ansi
  CP_ACP,
  WC_COMPOSITECHECK | WC_DEFAULTCHAR,
  tmpstr.GetBuffer(m_snd.GetLength()),
  m_snd.GetLength(),
  (char *)buf, //转换到缓冲区中
  128, //最多128个字节
  0,
  0
  );
int sendcount=m_psocket->Send(buf,multibytelen+1); //发送转换后的缓冲区
CString statusstr;
statusstr.Format(TEXT("共发送字节数:%d"),sendcount);
m_status.SetWindowText(statusstr); //更新显示栏
}

程序接收到的字符串最后保存到CString tmpstr中.

//接收函数片断
void MyCeSocket::OnReceive(int nErrorCode)
{
// TODO: Add your specialized code here and/or call the base class
unsigned char p[129]; //接受缓冲区
ZeroMemory(p,sizeof(p)); //接收缓冲区清零
this->Receive(p,128); //接收128个字节
int widecharlen=MultiByteToWideChar( //计算从Ansi转换到Unicode后需要的字节数
  CP_ACP,
  MB_COMPOSITE,
  (char*)p, //要转换的Ansi字符串
  -1, //自动计算长度
  0,
  0
  );
CString tmpstr;
tmpstr.GetBuffer(widecharlen); //为转换后保存Unicode字符串分配内存
MultiByteToWideChar( //从Ansi转换到Unicode字符
  CP_ACP,
  MB_COMPOSITE,
  (char*)p,
  -1,
  tmpstr.GetBuffer(widecharlen), //转换到tmpstr
  widecharlen //最多转换widecharlen个Unicode字符
  );

m_clientdlg->m_listbox.InsertString(0,tmpstr); //插入到listbox中显示
CCeSocket::OnReceive(nErrorCode);
}

注意:以上代码都是在WindowsCE样板机上运行,PC端发送和接收到的字符均为Ansi格式的.