Unicode
Unicode 是一個標準的 字元集,它為世界不同語言、書寫系統和符號的 字元 進行了編號和定義。
透過為每個字元分配一個數字,程式設計師可以建立 字元編碼,以便計算機在同一個檔案或程式中儲存、處理和傳輸任何語言組合。
在 Unicode 出現之前,在同一資料中混合使用多種語言非常困難且容易出錯。例如,一個字元集可能儲存日文字元,而另一個字元集可能儲存阿拉伯字母。如果未明確標記資料中哪些部分屬於哪個字元集,其他程式和計算機將錯誤地顯示文字,或者在處理過程中損壞文字。如果您曾見過像花體引號 (“”) 被替換成 £ 這樣的亂碼,那麼您就遇到過這個問題,這被稱為 Mojibake(亂碼)。
Web 上最常見的 Unicode 字元編碼是 UTF-8。也存在其他編碼,如 UTF-16 或已廢棄的 UCS-2,但推薦使用 UTF-8。
另見
- Unicode on Wikipedia (維基百科上的 Unicode)
- Unicode 標準:技術入門