パソコンの雑学
第8回日本語、半角、Shift-JIS?
文字コードって?
|
半角カナ
- インターネットで受け取ったメールが文字化けしていて、「半角カナを使っているから」といわれたことはありませんか?
JISコード
- あるいは送信コードを「Shift JISではなくJISにしてください」と注意された経験は? 制約の多い日本語のメール 半角カナを使わない、文字コードはJISにして送る。これらはインターネットで日本語のメールを送るときの重要なルールです。
アメリカで生まれ育ったメール
- これはインターネットがアメリカで生まれ育ったため、何万という文字を持つ日本語の利用が考慮されていなかったことに起因します。 英語のアルファベットは大小文字合計でわずか48文字です。それに0〜9の数字といくつかの記号を加えたところで、100とおりにもなりません。
- そこで文字、数字、記号あわせて94のキャラクタ(文字)を、7ビット(2の7乗=128)で表現する方法が定められました。これがいろいろなところでお目にかかるASCII(アスキー)と呼ばれるコードです。
- 一方、計算機でデータを扱う単位は前回出てきましたが,8ビットを一まとまり(1バイト)としますから、ASCIIコードを扱うときに8ビット目が使われないビットになりました。余ったこのビットの処理はメールソフト任せです。ここに何があっても気にしないソフトもあれば、8ビット目をすべて0にリセットしてしまうものや、特殊な振る舞いをするものまであります。
2バイトで表現する日本語 漢字
- インターネットではメールはバケツリレーのように運ばれるので、途中でこうしたソフトに出くわすと、いろいろなトラブルが生じるのです。
- 2バイトで表現する日本語 漢字を計算機上で扱うには、もちろん1バイトでは足りませんから、2バイトで1文字を表現しています。
- しかし、8ビット目を使わないという慣習(国際規格ともいう)があるため、1983年のJISによるコンピュータ用の漢字規格では、1文字を構成する2つのバイトをそれぞれ7ビットで表現できるように定めました。94×94の方眼に仮名や漢字を配置し、縦軸の値を1バイト目、横軸の値を2バイト目として文字を表すことにしたのです(各バイトは94とおりなので7ビットで表現できます)。
JISコード
- これがいわゆるJISコードで、エスケープシーケンスという特別なコードの組み合わせを目印に、7ビットのデータがASCIIを表すのか漢字なのかを切り替えながら使います。このJIS方式ならば8ビット目を使わずにメッセージ交換が可能です。
- ところがややこしいことに、パソコンで使われているのは「シフトJIS」です。これは、以前からある1バイトの仮名(いわゆる半角カナ)をそのまま利用するために、JISの文字配列を大きく移動(シフト)させ、第8ビットも使ってコードを割り当てています。ということは、これを現在のインターネット・メールで使うことはできません。
- そこでパソコン用メールソフトは、送信時にシフトJISをJISに変換するという作業も行っているのです。
- このJISコードでは半角カタカナを表すことができません・・・だからメールでは半角カナを使ったらいけないのです。
- フロッピーディスクは1.44Mバイト
日本語ではフロッピーに何文字記録できるのだろうか?前回説明しました。
1メガ=1.048.576バイト でしたね。
- フロッピーディスクは1.44倍だから 約1509949バイト
- これを2バイト(日本語漢字)で割って 754974文字記録できます。75万文字記録できますね。
75万文字というと新聞の3日分らしいです。
10進・2進・16進数対比
| 10進数 |
2進数 |
16進数 |
| 0 |
0000 |
0 |
| 1 |
0001 |
1 |
| 2 |
0010 |
2 |
| 3 |
0011 |
3 |
| 4 |
0100 |
4 |
| 5 |
0101 |
5 |
| 6 |
0110 |
6 |
| 7 |
0111 |
7 |
| 8 |
1000 |
8 |
| 9 |
1001 |
9 |
| 10 |
1010 |
A |
| 11 |
1011 |
B |
| 12 |
1100 |
C |
| 13 |
1101 |
D |
| 14 |
1110 |
E |
|
 |
|
DATA:
〒890-0054
鹿児島県鹿児島市
荒田1丁目15-1
株式会社
デジタルネットニュース
TEL 099-813-1033
FAX 099-813-1035
Copyright© 2004 Digital Net Online Inc. All rights reserved.