close

概述

設定locale與能否瀏覽中文的網頁沒有直接的關係,即便把locale設置成 en_US.ISO-8859-1這樣一個標準的英文locale你照樣可以瀏覽中文的網頁,只要你的系統裏面有相應的字符集(這個都不一定需要)和合適的字體(如simsun),瀏覽器就可以把網頁翻譯成中文給你看。具體的過程是網絡把網頁傳送到你的機器上之後,瀏覽器會判斷相應的編碼的字符集,根據網頁採用的字符集,去字體庫裏面找合適的字體,然後由文字渲染工具把相應的文字在屏幕上顯示出來。


那有時候網頁顯示亂碼或者都是方框是怎麼回事呢?個人認為,顯示亂碼是因為設定的字符集不對(或者沒有相應的字符集),例如網頁是用UTF-8 編碼的,你非要用GB2312去看,而系統根據GB2312去找字體,然後在屏幕上顯示,當然是一堆的亂碼,也就是說你用一個錯誤的密碼本去翻譯發給你的電報,當然內容那叫一個亂;至於有些時候瀏覽的網頁能顯示一部分漢字,但有很多的地方是方框,能夠顯示漢字說明瀏覽器已經正確的判斷出了網頁的編碼,並在字體庫裏面找到了相應的文字,但是並不是每個字體庫都包含某個字符集全部的字體的緣故,有些時候會顯示不完全,找一個比較全的支援較多字符集的字體就可以了。


既然我能夠瀏覽中文網頁,那為什麼我還要設定locale呢?


其實你有沒有想過這麼一個問題,為什麼gentoo官方論壇上中文論壇的網頁是用UTF-8編碼的(雖然大家一直強烈建議用GB2312編碼),但是新浪網就是用GB2312編碼的呢?而Xorg的官方網頁竟然是ISO-8859-15編碼的,我沒有設定這個locale怎麼一樣的能瀏覽呢?這個問題就像是你有所有的密碼本,不論某個網站是用什麼字符集編碼的,你都可以用你手裡的密碼本把他們翻譯過來,但問題是雖然你能瀏覽中文網頁,但是在整個作業系統裏面流動的還是英文字符。所以,就像你能聽懂英語,也能聽懂中文。


最根本的問題是:你不可以寫中文。


當你決定要寫什麼東西的時候,首先要決定的一件事情是用那種語言,對於計算機來說就是你要是用哪一種字符集,你就必須告訴你的linux系統,你想用那一本密碼本去寫你想要寫的東西。知道為什麼需要用GB2312字符集去瀏覽新浪了吧,因為新浪的網頁是用GB2312寫的。


為了讓你的Linux能夠輸入中文,就需要把系統的locale設定成中文的(嚴格說來是locale中的語言類別LC_CTYPE ),例如zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8。很多人都不明白這些古里古怪的表達方式。這個外星表達式規定了什麼東西呢?這個問題稍後詳述,現在只需要知道,這是locale的表達方式就可以了。


什麼是字符集?

字符集就是字符,尤其是非英語字符在系統內的編碼方式,也就是通常所說的內碼,所有的字符集都放在 /usr/share/i18n/charmaps,所有的字符集也都是用Unicode編號索引的。Unicode用統一的編號來索引目前已知的全部的符號。而字符集則是這些符號的編碼方式,或者說是在網絡傳輸,計算機內部通信的時候,對於不同字符的表達方式,Unicode是一個靜態的概念,字符集是一個動態的概念,是每一個字符傳遞或傳輸的具體形式。

就像Unicode編號U59D0是代表姐姐的“姐”字,但是具體的這個字是用兩個字節表示,三個字節,還是四個字節表示,是字符集的問題。例如:UTF-8字符集就是目前流行的對字符的編碼方式,UTF-8用一個字節表示常用的拉丁字母,用兩個字節表示常用的符號,包括常用的中文字符,用三個表示不常用的字符,用四個字節表示其他的古靈精怪的字符。而GB2312字符集就是用兩個字節表示所有的字符。需要提到一點的是Unicode除了用編號索引全部字符以外,本身是用四個字節存儲全部字符,這一點在談到掛載windows分區的時候是非常重要的一個概念。所以說你也可以把Unicode看作是一種字符集(我不知道它和UTF-32的關係,反正UTF-32就是用四個字節表示所有的字符的),但是這樣表述符號是非常浪費資源的,因為在計算機世界絕大部分時候用到的是一個字節就可以搞定的26個字母而已。所以才會有UTF-8,UTF-16等等,要不然大同世界多好,省了這許多麻煩。


locale的五臟六腑

locale把按照所涉及到的文化傳統的各個方面分成12個大類,這12個大類分別是:

語言符號及其分類(LC_CTYPE)
數字(LC_NUMERIC)
比較和排序習慣(LC_COLLATE)
時間顯示格式(LC_TIME)
貨幣單位(LC_MONETARY)
信息主要是提示信息,錯誤信息, 狀態信息, 標題, 標籤, 按鈕和菜單等(LC_MESSAGES)
姓名書寫方式(LC_NAME)
地址書寫方式(LC_ADDRESS)
電話號碼書寫方式(LC_TELEPHONE)
度量衡表達方式(LC_MEASUREMENT)
默認紙張尺寸大小(LC_PAPER)
對locale自身包含信息的概述(LC_IDENTIFICATION)。

Linux下語系設定相關指令

arrow
arrow
    文章標籤
    locale utf-8
    全站熱搜

    Perry Wu 發表在 痞客邦 留言(0) 人氣()