Unicode | IT用語辞典

Unicode 【ユニコード】

Unicode 【ユニコード】とは

Unicode（ユニコード）は、文字コードの業界規格である。
符号化文字集合とも呼ばれる。

以前は、国やメーカーごとに文字コードが開発されていたが、それぞれに互換性がなかった。
それを各国の言語に通し番号を割り当て、同じコード体系で使用できるようにしたのがUnicodeである。

策定と改定はアメリカにあるユニコードコンソーシアム（Unicode Consortium）という非営利団体が担っている。

Unicodeの仕組み

Unicodeは、各国の標準言語や文字、それぞれにコードポイントという通し番号を割り当てて管理されている。

コード領域の中で16ビットの値で表現できるものは基本多言語面と呼ばれていて、主な言語や文字のほぼ全てを網羅している。
ただ、世界準の全ての文字の登録が困難なことから、後に拡張領域が追加されている。

サロゲートペアとは

サロゲートペアとは、BMPの中の特定のコードを2つ組み合わせることで大きなコードを表す手法である。

これにより、BMPから2048文字が削減され、拡張領域の104万8576文字をBMPの中の2コードを組み合わせることで表現できるようになった。

日本語文字の内容

Unicode内の日本語文字は、当初はJIS基本漢字と半角文字、JIS補助漢字のみの収録だった。
後に追加要素が加わり、現在は全ての漢字が収録されている。

ただ、一部はBMPに収まりきらなかったため、東アジアの追加漢字領域にも割り当てられている。

UTFとは

UTFとは「Unicode Transformation Format/UCS Transformation Format」の略で、コードポイントの表現方法を表す。

Unicode規格で策定されているUTFには「UTF-8」「UTF-16」「UTF-32」と3種類あり、主に「UTF-8」が使われている。
UTF-8は!～6バイトの可変長コードで表される方式で、英数字や記号をASCIIと同じコードで表せることから、欧米で使われているコードと相性が良いためである。

「Unicode」の関連用語

文字コード
符号化文字集合
ユニコードコンソーシアム
コードポイント
基本多言語面
拡張領域
サロゲートペア
BMP
日本語文字
JIS基本漢字
半角文字
JIS補助漢字
UTF-8
可変長コード
ASCII

「Unicode」の例文

Unicodeを使った例文は以下の通り。

例文

Unicodeが普及したことによって、各国の言語が一つのパソコンで自由に使えるようになった。
稀にUnicodeに入っていない文字を見つけることがあり、そういう時は何となく優越感に浸る思いがする。

分類