分類

    Unicode | IT用語辞典

    Unicode 【 ユニコード 】

    Unicode  【 ユニコード 】とは

    Unicode( ユニコード )は、文字コードの業界規格である。
    符号化文字集合とも呼ばれる。

    以前は、国やメーカーごとに文字コードが開発されていたが、それぞれに互換性がなかった。
    それを各国の言語に通し番号を割り当て、同じコード体系で使用できるようにしたのがUnicodeである。

    策定と改定はアメリカにあるユニコードコンソーシアム(Unicode Consortium)という非営利団体が担っている。

    Unicodeの仕組み

    Unicodeは、各国の標準言語や文字、それぞれにコードポイントという通し番号を割り当てて管理されている。

    コード領域の中で16ビットの値で表現できるものは基本多言語面と呼ばれていて、主な言語や文字のほぼ全てを網羅している。
    ただ、世界準の全ての文字の登録が困難なことから、後に拡張領域が追加されている。

    サロゲートペアとは

    サロゲートペアとは、BMPの中の特定のコードを2つ組み合わせることで大きなコードを表す手法である。

    これにより、BMPから2048文字が削減され、拡張領域の104万8576文字をBMPの中の2コードを組み合わせることで表現できるようになった。

    日本語文字の内容

    Unicode内の日本語文字は、当初はJIS基本漢字と半角文字、JIS補助漢字のみの収録だった。
    後に追加要素が加わり、現在は全ての漢字が収録されている。

    ただ、一部はBMPに収まりきらなかったため、東アジアの追加漢字領域にも割り当てられている。

    UTFとは

    UTFとは「Unicode Transformation Format/UCS Transformation Format」の略で、コードポイントの表現方法を表す。

    Unicode規格で策定されているUTFには「UTF-8」「UTF-16」「UTF-32」と3種類あり、主に「UTF-8」が使われている。
    UTF-8は!~6バイトの可変長コードで表される方式で、英数字や記号をASCIIと同じコードで表せることから、欧米で使われているコードと相性が良いためである。

    「Unicode」の関連用語

    • 文字コード
    • 符号化文字集合
    • ユニコードコンソーシアム
    • コードポイント
    • 基本多言語面
    • 拡張領域
    • サロゲートペア
    • BMP
    • 日本語文字
    • JIS基本漢字
    • 半角文字
    • JIS補助漢字
    • UTF-8
    • 可変長コード
    • ASCII

    「Unicode」の例文

    Unicodeを使った例文は以下の通り。

    例文

    • Unicodeが普及したことによって、各国の言語が一つのパソコンで自由に使えるようになった。
    • 稀にUnicodeに入っていない文字を見つけることがあり、そういう時は何となく優越感に浸る思いがする。