2005年08月18日

◆ 狂気の文字規格 2

 前項の続き。
 狂気の文字規格と言えば、もう一つ、もっと変な点もある。それは、「2バイト欧文文字」という規格だ。(これは漢字の話ではない。欧文文字の話。) ──

 たとえば2バイトの ç がある。これらの文字は、「規格には入っているが、使ってはならない文字」なのである。
 なぜか? これらの欧文文字には、まったく同一の文字が、すでに1バイトのコードポイントを与えられているからだ。
 シフトJISは、テキストファイルで扱える2バイトの規格だが、同様に、欧文用には、テキストファイルで扱える1バイトの規格がある。この両者は、テキストファイルを見る限りでは、1バイトか2バイトか、区別できない。混乱が起こる。とはいえ、一つの言語を使っている限りでは、1バイトか2バイトかどちらかだから、特に問題は起こらない。
 ただし、1バイトと2バイトの言語が混在する多言語の文書では、問題が起こる。そこで、多言語の文書については、次の方針が標準となった。
 「文字コード自体で区別するために、unicode などの多言語規格を使う」
 「文字コードでなく文書のマークアップで区別することにして、HTML規格を使う」
 このどちらでも、問題は起こらない。ところが、シフトJISで2バイト欧文文字が入ると、テキストファイルの上で成立する多言語規格となってしまう。これはもちろん、テキストファイルであるから、互換性はまったくない。
 シフトJISの欧文2バイト文字というのは、「日本語専用の多言語規格」なのである。「日本語専用の日本語規格」ならわかるし、「多言語用の多言語規格」でもわかるが、「日本語専用の多言語規格」というのは、まったく意味をもたない。
 わかりやする言おう。シフトJISには、「α」や「β」のようなギリシア文字が入っているが、これは、ギリシア語を書くための規格ではない。ギリシア語を書くときには日本語の文字規格で「β」などの文字を使うのではなく、ギリシア語の文字規格または多言語の文字規格を使うべきだ。ギリシア語を書くときに日本語専用の規格を使うというのは、正しくない方針だ。ギリシア語を書くときには、シフトJISを使ってはならないのである。
 同様の理由で、フランス語やドイツ語の専用文字を使うときには、欧文文字の規格を使うか多言語の規格を使うか、そのどちらかにするべきであって、日本語専用の規格を使ってはならないのである。──要するに、JIS X0213 の2バイト欧文文字は、使ってはならない文字だ。そして、使ってはならない文字をたくさん入れた規格というものは、まさしく狂気的な規格である。

 ※ 
 なお、かろうじて例外的な場合がある。「βマックス」というような用例だ。言葉ではなくて単なる符合として、日本語の枠内でギリシア文字を使う。とはいえ、こういうふうに使うのは、ギリシア文字ぐらいである。ギリシア文字なら、すでにシフトJISに入っている。2バイト欧文文字は、日本語の規格に入れる意味がない。混乱をもたらすだけであり、有害であり、「使用禁止」という警告を付けるべき文字である。

 ※
 「あればあったで便利だ」という意見もあるだろう。それはその通り。しかし、素人にとってちょっと便利だとしても、「すでにある文字に、新たに別のコードポイントを付ける」というような操作をすれば、混乱というデメリットも生じる。
 「同じ文字に二通りのコードポイントがあると、二通りの使い方ができて便利ですよ」なんていう発想は、素人の発想だ。素人なら素人らしく、すべてをアプリに任せて操作すればいいのだ。たとえば、MS-Wordで欧文特殊文字を入力して、そのあと、unicode または HTML で保存する。これなら、何も問題はない。「ソースをいじってシフトJISで記述しよう」なんて余計なことを考えるから、世の中に混乱が出回る。素人に毛の生えた連中が勝手なことをするために、文字規格を勝手にこねくり回されたら、大迷惑だ。

 【 参考資料 】
 欧文特殊文字の出力方法
 (1) unicode では …… 普通に文字コード表や文字一覧などを使う。
 (2) HTML では …… MS-Wordなどのアプリを使う。手動なら、下記。
    http://hp.vector.co.jp/authors/VA011700/moji/codehtsp.htm
    http://e-words.jp/p/r-htmlentity.html

 ※ 余談だが、βに似た形のドイツ語の文字(エスツェット)などについては、現代のドイツ語では「新正書法」という方針で、新たな対応がなされることになった。この件はいろいろと面倒であるので、詳しくは論じない。自分で調べてほしい。次の語で検索するといい。
 「ドイツ語 国語改革 エスツェット」
 「ドイツ語 新正書法 エスツェット」
posted by 管理人 at 15:46| Comment(2) | TrackBack(4) |  文字規格 | 更新情報をチェックする
この記事へのコメント
まったく持ってそのとおりです。
私自身は略字派なのですが、シフトJISコードしか受け付けない某メーカのレーザマーカで、[F]を印字しようとして書いたコードを、ミスって[F]と書いてしまい、「他の文字はちゃんと打てるのに、なぜ、[F]だけ出力できない!」と、叱られました。
シクシク、全角半角が画面上で識別不能だったんです。
でも、これからは「仕様です。」と。
Posted by 制御@機械メーカ at 2005年08月18日 16:34
技術者の観点からは、やはりいっぱい問題が予想されますよね。
 そこで、マイクロソフトは是非、次の方針を取ってほしい。

 「2バイトの欧文特殊文字は実装しない」

 できればこの領域は、「外字領域」にしてほしいと思う。そうすれば、従来の外字も使えるようになるからだ。
 また、文字化けしても、欧文二バイトになるだけだから、文字化けがすぐにわかって、被害は少ない。
 とにかく、何らかの形で、「使用禁止」の措置を取るべきだ。「間違った規格をそのまま流通させる」というのは、百代の禍根を残す。
Posted by 管理人 at 2005年08月19日 09:19
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]


この記事へのトラックバック

??????????誨
Excerpt: <a href="http://video.mail.ru/">??????????誨</a>
Weblog: ??????????誨
Tracked: 2008-10-02 16:27

???? ????????
Excerpt: <a href="http://www.videohq.ru/porno-portal-video.html">???? ??????宼/a>
Weblog: ???? ????????
Tracked: 2008-10-03 09:52

??????堯????褥??????
Excerpt: <a href="http://www.videohq.ru/porno-video-aziatki-add-topic.html">??????堯????褥??????</a>
Weblog: ??????堯????褥??????
Tracked: 2008-10-03 13:43

??砲????以 ????????
Excerpt: <a href="http://www.klevie-telki-zdes.ru/testovye-porno-video.html">??砲????以 ??????宼/a>
Weblog: ??砲????以 ????????
Tracked: 2008-10-11 03:48
  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ