Unicode 【 ユニコード 】とは
Unicode( ユニコード )は、文字コードの業界規格である。
符号化文字集合とも呼ばれる。
以前は、国やメーカーごとに文字コードが開発されていたが、それぞれに互換性がなかった。
それを各国の言語に通し番号を割り当て、同じコード体系で使用できるようにしたのがUnicodeである。
策定と改定はアメリカにあるユニコードコンソーシアム(Unicode Consortium)という非営利団体が担っている。
Unicodeは、各国の標準言語や文字、それぞれにコードポイントという通し番号を割り当てて管理されている。
コード領域の中で16ビットの値で表現できるものは基本多言語面と呼ばれていて、主な言語や文字のほぼ全てを網羅している。
ただ、世界準の全ての文字の登録が困難なことから、後に拡張領域が追加されている。
サロゲートペアとは、BMPの中の特定のコードを2つ組み合わせることで大きなコードを表す手法である。
これにより、BMPから2048文字が削減され、拡張領域の104万8576文字をBMPの中の2コードを組み合わせることで表現できるようになった。
Unicode内の日本語文字は、当初はJIS基本漢字と半角文字、JIS補助漢字のみの収録だった。
後に追加要素が加わり、現在は全ての漢字が収録されている。
ただ、一部はBMPに収まりきらなかったため、東アジアの追加漢字領域にも割り当てられている。
UTFとは「Unicode Transformation Format/UCS Transformation Format」の略で、コードポイントの表現方法を表す。
Unicode規格で策定されているUTFには「UTF-8」「UTF-16」「UTF-32」と3種類あり、主に「UTF-8」が使われている。
UTF-8は!~6バイトの可変長コードで表される方式で、英数字や記号をASCIIと同じコードで表せることから、欧米で使われているコードと相性が良いためである。
Unicodeを使った例文は以下の通り。
例文