Unicode

Unicode 是一個標準的字元集，它為世界不同語言、書寫系統和符號的字元進行了編號和定義。

透過為每個字元分配一個數字，程式設計師可以建立字元編碼，以便計算機在同一個檔案或程式中儲存、處理和傳輸任何語言組合。

在 Unicode 出現之前，在同一資料中混合使用多種語言非常困難且容易出錯。例如，一個字元集可能儲存日文字元，而另一個字元集可能儲存阿拉伯字母。如果未明確標記資料中哪些部分屬於哪個字元集，其他程式和計算機將錯誤地顯示文字，或者在處理過程中損壞文字。如果您曾見過像花體引號 (“”) 被替換成 Ã‚Â£ 這樣的亂碼，那麼您就遇到過這個問題，這被稱為 Mojibake（亂碼）。

Web 上最常見的 Unicode 字元編碼是 UTF-8。也存在其他編碼，如 UTF-16 或已廢棄的 UCS-2，但推薦使用 UTF-8。

另見

Unicode on Wikipedia (維基百科上的 Unicode)
Unicode 標準：技術入門

幫助改進 MDN

瞭解如何貢獻

此頁面最後修改於 2025年7月11日，作者是 MDN 貢獻者。

在 GitHub 上檢視此頁面 • 報告此內容的問題