
コンピュータで日本語を扱う:漢字コードとは
- コンピュータにおける文字の表現
私たち人間は、文字を見てそれが何を意味するか理解することができます。しかし、コンピュータは、文字を直接理解することはできません。 コンピュータは、電気が流れているか流れていないか、すなわち「オン」と「オフ」の状態しか理解できず、すべての情報をこの2つの状態の組み合わせで処理しています。この「オン」と「オフ」の状態をそれぞれ「1」と「0」で表し、この「0」と「1」の並びを「ビット」と呼びます。
つまり、コンピュータは文字も含め、すべての情報を「0」と「1」の組み合わせで表現しているのです。では、どのようにして文字を「0」と「1」の組み合わせに変換しているのでしょうか?
その変換方法を定めたものが「文字コード」です。文字コードは、それぞれの文字に特定の数値を割り当て、その数値をさらに「0」と「1」の組み合わせに変換することで、コンピュータが文字を処理できるようにしています。
例えば、「A」という文字は、ASCIIコードという代表的な文字コードでは「65」という数値が割り当てられています。そして、この「65」という数値は「01000001」という「0」と「1」の組み合わせで表されます。このようにして、コンピュータは「A」という文字を「01000001」というデータとして認識し、処理することができるのです。