當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Ansi与Unicode及慎用W2A等

發(fā)布時間：2025/5/22 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 Ansi与Unicode及慎用W2A等小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

Ansi與Unicode簡要說明及各自的優(yōu)缺點他們是兩種字符的編碼格式，Ansi=窄字節(jié)，Unicode=寬字節(jié)，Ansi用char格式表示一個字符，占用一個字節(jié)的存儲空間，最多表示255個字符，表示英文還可以，但對于中文、日文、韓文等語言來說就不夠用了，所以如果你的程序是Ansi編碼的話，那么你寫的中文語言的程序拿到日文、韓文等系統(tǒng)上面就會出現(xiàn)亂碼。所以有了Unicode，用二個字節(jié)去表示一個字符，格式是 unsigned short，被定義成 wchar_t 格式這樣就可以表示世界上絕大多數(shù)的語言了！但有利就有弊，缺點呢？就是空間占用翻倍了，網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量也增大了…… ◆ vc++ 6.0 默認(rèn)為Ansi編碼，vs2005、vs2008、vs2010 等默認(rèn)都是Unicode編碼，當(dāng)然可以進行工程的設(shè)置從而進行編碼的轉(zhuǎn)換，見演示！ ◆ 就我個人觀點：還是建議大家使用Unicode寬字節(jié)的編碼格式，具體見下面： ◆ 系統(tǒng)提供了兩種類型的 API 函數(shù)，見：user32.dll 中的 MessageBox 函數(shù)，其實 MessageBox 他只是一個宏，他對應(yīng)的兩個版本的函數(shù)分別為：MessageBoxA 和 MessageBoxW，你在使用的時候系統(tǒng)會根據(jù)是否定義了_UNICODE 宏來進行判斷該使用哪個版本的函數(shù)！如果你的工程沒有定義_UNICODE 宏，那么就使用窄字節(jié)的 MessageBoxA，如果定義了，那么就使用寬字節(jié)的 MessageBoxW，具體在vs2008中，右鍵找定義，見演示！ ◆ 網(wǎng)摘：Windows 2000 及其以后的 Xp、2003、Vista、Win7 等系統(tǒng)都是使用Unicode從頭進行開發(fā)的，如果調(diào)用任何一個Windows API 函數(shù)并給它傳遞一個 ANSI 字符串，那么系統(tǒng)首先要將字符串轉(zhuǎn)換成Unicode，然后將Unicode字符串傳遞給操作系統(tǒng)。如果希望函數(shù)返回ANSI字符串，系統(tǒng)就會先將Unicode字符串轉(zhuǎn)換成ANSI字符串，然后將結(jié)果返回給你的應(yīng)用程序。進行這些字符串的轉(zhuǎn)換需要占用系統(tǒng)的時間和內(nèi)存。通過從頭開始用Unicode來開發(fā)應(yīng)用程序，就能夠使你的應(yīng)用程序更加高效的運行！ ================================================================== ②、不同編碼格式下的字符串處理及相互轉(zhuǎn)化： ◆ 大家在編程時經(jīng)常遇到的數(shù)據(jù)類型： ● Ansi： char、char * 、const char * CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR ● Unicode： wchar_t、wchar_t * 、const wchar_t * WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR ● T 通用類型： TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR 以上，其中：P代表指針的意思，STR代表字符串的意思，L是長指針的意思，在WIN32平臺下可以忽略，C代表const常量的意思，W代表wide寬字節(jié)的意思，T大家可以理解為通用類型的意思，就是可以根據(jù)工程中是否定義_UNICODE 宏，分別定義成不同的類型，比如：TCHAR 類型，如果工程中定義了_UNICODE 宏，那么他最終被定義成 wchar_t 類型，如果工程中沒有定義_UNICODE 宏，那么 TCHAR 被最終定義成 char 類型。〓※※※〓其方便性就是修改了工程的編碼格式之后不用修改代碼，所以還是建議大家在編寫程序的時候使用通用類型！ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ◆ 字符串類型的對象的定義： ● Ansi：char *pAnsiStr = "hello"; ● Unicode：wchar_t *pUnicodeStr = L"hello"; ● 通用類型：TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello"); ● 動態(tài)申請內(nèi)存：TCHAR *pszBuf = new TCHAR[100]; 其中，_TEXT 和 _T 是一樣的，定義如下： #define _T(x) ? ? ? __T(x) #define _TEXT(x) ? ?__T(x) 來看看 __T 的最終定義： #ifdef ?_UNICODE #define __T(x) ? ? ?L##x #else #define __T(x) ? ? ?x #endif 其中，##為連接起來的意思。 @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ◆ 常用的字符串處理函數(shù)，具體信息見MSDN：字符串長度： ● Ansi：strlen(char *str); ● Unicode：wcslen(wchar_t *str); ● 通用函數(shù)：_tcslen(TCHAR *str); ● Ansi：int atoi(const char *str); ● Unicode：int _wtoi(const wchar_t *str); ● 通用函數(shù)：_tstoi(const TCHAR *str); 字符串拷貝： ● Ansi：strcpy(char *strDestination, const char *strSource); ● Unicode：wcscpy(wchar_t *strDestination, const wchar_t *strSource); ● 通用函數(shù)：_tcscpy(TCHAR *strDestination, const TCHAR *strSource); 以上函數(shù)不安全，在vs2003等以上版本的編譯器中會有warnning警告提示，以下為安全函數(shù)（vc++6.0不支持）： ● Ansi：strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource); ● Unicode：wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource); ● 通用函數(shù)：_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource); numberOfElements Size of the destination string buffer. 目的緩沖區(qū)的大小，以字節(jié)為單位，不是字符！ size_t unsigned integer，在MSDN中的解釋：Result of sizeof operator，也就是說 size_t 是 unsigned integer 即無符號整數(shù)。那為什么會有size_t這個類型呢？因為不同平臺的操作系統(tǒng)(32/64)中 int/long 等類型所占的字節(jié)并不一樣，而 size_t 在不同的平臺下有不同的定義。有點類似于TCHAR類型： #ifndef ? _SIZE_T_DEFINED #ifdef ? ? _WIN64 typedef ? unsigned ? __int64 ? ? ? ? size_t; ? //8個字節(jié)，64位 #else typedef ? _W64 ? unsigned ? int ? ? ? size_t; ? //4個字節(jié)，32位 #endif #define ? _SIZE_T_DEFINED #endif @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ◆ Ansi 與 Unicode 字符串類型的互相轉(zhuǎn)換：上面給大家介紹的都是窄字節(jié)就是窄字節(jié)，寬字節(jié)就是寬字節(jié)，那么下面就給大家介紹下他們兩個之間的轉(zhuǎn)換。在程序中還是不建議大家來回來去的進行字符串編碼的轉(zhuǎn)換，要么就都使用Ansi，要么就都使用Unicode，但是呢，往往有些 API 函數(shù)只提供了窄字節(jié)版本（比如：GetProcAddress，見MSDN）或者只提供寬字節(jié)版本（比如：CommandLineToArgvW，見MSDN），這個時候就要進行字符串編碼格式的轉(zhuǎn)換了。但是，這里提醒下大家，不是所有的都需要轉(zhuǎn)換，有一些是不需要轉(zhuǎn)換的，比如 socket 中的 send 或者 recv 函數(shù)，大家要明白函數(shù)參數(shù)的真正意義！ ================================================= ◆ 字符串占用字節(jié)數(shù)： ● Ansi： char szStr[] = "abc"; 占用字節(jié)數(shù)求法：sizeof(szStr); char *psz = "defgh"; 占用字節(jié)數(shù)求法：strlen(psz)*sizeof(char); ● Unicode： wchar_t szwStr[] = L"abc"; 占用字節(jié)數(shù)求法：sizeof(szwStr); wchar_t *pwsz = L"defgh"; 占用字節(jié)數(shù)求法：wcslen(pwsz)*sizeof(wchar_t); ● 通用函數(shù)： TCHAR szStr[] = _T("abc"); 占用字節(jié)數(shù)求法：sizeof(szStr); TCHAR *psz = _T("defgh"); 占用字節(jié)數(shù)求法：_tcslen(psz)*sizeof(TCHAR); ======================================================= ● 轉(zhuǎn)換用到的最根本的 API 函數(shù)： WideCharToMultiByte 實現(xiàn)寬字節(jié)轉(zhuǎn)換到窄字節(jié) MultiByteToWideChar 實現(xiàn)窄字節(jié)轉(zhuǎn)換到寬字節(jié) WideCharToMultiByte 的代碼頁用來標(biāo)記與新轉(zhuǎn)換的字符串相關(guān)的代碼頁； MultiByteToWideChar 的代碼頁用來標(biāo)記與一個多字節(jié)字符串相關(guān)的代碼頁， [1]、常用的代碼頁有 CP_ACP 和 CP_UTF8 兩個：使用 CP_ACP 代碼頁就實現(xiàn)了 ANSI 與 Unicode 之間的轉(zhuǎn)換；--- 我們所用的！使用 CP_UTF8 代碼頁就實現(xiàn)了 UTF-8 與 Unicode 之間的轉(zhuǎn)換。 [2]、dwFlags 參數(shù)允許我們進行額外的控制，但是，一般情況下都不使用這個標(biāo)志，直接傳遞 0 就行了。 [3]、lpDefaultChar和pfUsedDefaultChar：只有當(dāng)WideCharToMultiByte函數(shù)遇到一個寬字節(jié)字符，而該字符在uCodePage參數(shù)標(biāo)識的代碼頁中并沒有它的表示法時，WideCharToMultiByte函數(shù)才使用這兩個參數(shù)。如果寬字節(jié)字符不能被轉(zhuǎn)換，該函數(shù)便使用lpDefaultChar參數(shù)指向的字符。如果該參數(shù)是NULL（這是大多數(shù)情況下的參數(shù)值），那么該函數(shù)使用系統(tǒng)的默認(rèn)字符。該默認(rèn)字符通常是個問號。這對于文件名來說是危險的，因為問號是個通配符。pfUsedDefaultChar參數(shù)指向一個布爾變量，如果Unicode字符串中至少有一個字符不能轉(zhuǎn)換成等價多字節(jié)字符，那么函數(shù)就將該變量置為TRUE。如果所有字符均被成功地轉(zhuǎn)換，那么該函數(shù)就將該變量置為FALSE。當(dāng)函數(shù)返回以便檢查寬字節(jié)字符串是否被成功地轉(zhuǎn)換后，可以測試該變量。? ● 兩個轉(zhuǎn)換函數(shù)的使用舉例： char *cctryWideCharToAnsi(wchar_t *pWideChar) { if (!pWideChar) return NULL; char *pszBuf = NULL; int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL); if (needBytes > 0){ pszBuf = new char[needBytes+1]; ZeroMemory(pszBuf, (needBytes+1)*sizeof(char)); WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL); } return pszBuf; } wchar_t *cctryAnsiCharToWide(char *pChar) { if (!pChar) return NULL; wchar_t *pszBuf = NULL; int needWChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0); if (needWChar > 0){ pszBuf = new wchar_t[needWChar+1]; ZeroMemory(pszBuf, (needWChar+1)*sizeof(wchar_t)); MultiByteToWideChar(CP_ACP, 0, pChar, -1, pszBuf, needWChar); } return pszBuf; } 〓※※※〓使用過后千萬別忘記釋放空間…… ● A2W、W2A、T2A、T2W 宏的使用以及注意事項： [1]、使用 alloca() 函數(shù)進行空間的申請，宏返回的地址空間是從棧上面申請的，那么以后就不必釋放，這樣就涉及到了一個作用域的問題，具體見MSDN，大家可以簡單的理解為“向下兼容”，給大家解釋解釋！ [2]、不要在一個函數(shù)的循環(huán)體中使用 A2W 等字符轉(zhuǎn)換宏，可能引起棧溢出。具體課參照這篇帖子：http://hi.baidu.com/%C0%C7%CD%F5%BA%BF%D4%C2/blog/item/adb713e42320712827979154.html 比如： #include <atlconv.h> void func() { while(true) { { USES_CONVERSION; testFunc(A2W("abc")); } } }

轉(zhuǎn)載于:https://my.oschina.net/ypimgt/blog/61220

總結(jié)

以上是生活随笔為你收集整理的Ansi与Unicode及慎用W2A等的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Ansi与Unicode及慎用W2A等

總結(jié)