2007年02月03日

◆ JIS2004 の死


 ここまで述べてきたことをまとめて、結論を下そう。
 まず、次のことが判明した。
  (1) 第3水準と第4水準は、テキストファイルでは使えない。( → 01月31日 ) 
  (2) JIS2004 で正字に修正されていない文字が20字以上ある。( → 02月02日
 これらのことから「JIS2004は欠陥規格だ」と結論できる。とすれば、今後なすべきことは、まともな規格をつくることだ。JIS2004に代わる規格を。 ──

 まず、(1) の点がある。「テキストファイルでは使えない」ということだ。「字形の変更」がなされた 122字の正字なら、テキストファイルで使えるが、第3水準と第4水準は、テキストファイルでは使えない。
 これによる難点は、先日(01月31日)の説明で詳述したとおり。
 さて。「テキストファイルでは使えない」ということには、もっと重要な意味がある。先の説明では記さなかったので、新たにここで示そう。それは、こうだ。
 「 Vista で採用されたのは、JIS2004ではない
 このことは、重要だ。マイクロソフトは「Vista では JIS2004 が採用された」と述べているが、それは嘘(もしくは間違い)なのだ。では、なぜか?
 先日も述べたとおり、第3水準・第4水準の文字は、シフトJISで符号化がされていない。文字はあるが、その符号化は、 unicode による符号化であって、シフトJISによる符号化ではない。とすれば、この文字規格は、unicode の規格であって、JIS2004の規格ではない。
 たとえば、(01月28日の例で取り上げたが)「騨」という文字がある。この文字の正字である「馬單」は、シフトJISでは「EFB0」という符合位置に符号化される。では、シフトJISで「EFB0」という符合位置の文字を出力すると、その正字が出力されるか? 否。出力されるのは、「?」または「・」というような文字だ。つまり、「エラー」である。
 これは当然だ。その正字は、シフトJISでは符号化されていないのだから、符号化されていない文字が出力されるはずがない。「エラー」となるに決まっている。
 要するに、Vista においてシフトJISで出力される文字は、JIS90で出力される文字集合と
、まったく同じである。字形の差はあるが、文字集合としてはまったく同じである。字数の総数も同じだ。出力されない符合位置も同じだ。とすれば、Vista において採用されたのは、JIS90 の規格(X 0208)であって、JIS2004 の規格(X 0213)ではないのだ。
 つまり、マイクロソフトが「Vista では JIS2004(X 0213) が採用された」と述べているのは、まったくの嘘(または間違い)なのである。

 では、正しくは? こうだ。
 「Vista で採用されたのは、JIS90 の規格(X 0208)で字形の変更をなしたものである」
 これを言い換えれば、こうだ。
 「Vista で採用されたのは、JIS97 (X 0208:1997)である」
 何のことはない。これは、文字講堂が 2000年の時点で「とりあえずの措置」というふうに提案した応急措置であるにすぎない。この応急措置は、「秀英明朝」などを例にして述べたものだ。つまり、「すぐに正字を使えるように、X 0208 のまま正字にしたフォントを使え。それは、 JIS97 において許容されたものだ。つまり、包摂によって許容されたフォントだ」というふうに述べたものだ。
 そして、そういうものが、2007年になって登場したのである。1999年の時点でとっくに実現していたもの(秀英明朝)を、出来損ないにしたもの(正字に修正した総数を減らしたもの)が、Vista のフォントなのだ。他人がちゃんと完成したものを、下手にいじって改悪しただけのものが、Vista のフォントなのだ。
( ※ なお、unicode の文字は、関係ない。これらは Windows98 の時点で実現していたから、やはり 1999年ごろには実現していたわけで、Vista で新たに採用されたわけではない。)

 ──

 なお、注釈しておく。マイクロソフトが悪いと述べたが、どこが悪いかを誤解しないように。
 マイクロソフトが悪いのは、嘘をついたことだ。JIS2004に対応してないのに、「JIS2004に対応している」と嘘をついた。X 0208 の規格なのに、「 X 0213 の規格だ」と嘘をついた。正字に対応したのはたったの 122字だけで、20字以上の文字が漏れているのに、「正字(印刷標準字体)を表示できるようにした」と嘘をついた。……こういうふうに嘘をついたのは、確かに悪い。
 ただし、である。「嘘をつく」ということは悪いが、「JIS2004に対応しない」ということは正しい。「JIS2004に対応しないなら、JIS2004に対応しろ」という要求を出す人もいるかもしれないが、それは正しくない。なぜか? その理由は、先日の箇所で述べたとおり。機種依存文字や外字などで、とんでもない文字化けが発生するからだ。さらには、外字について、「外字が使えなくなった」という苦情も出てくる。……このような混乱は、絶対に避けるべきだ。その点、「JIS2004に対応しない」という方針を取ったマイクロソフトは、大正解である。
 マイクロソフトがそのような方針を取ったのは、南堂私案で述べた難点をちゃんと理解したからであろう。JIS委員会の委員は、「なあに、大丈夫さ」とイケイケドンドンだったが、マイクロソフトは、文字化けなどの大混乱を正確に予想した。JIS委員会の委員は、楽観して大混乱を予想できない愚者( or あえて大混乱を引き起こそうとした狂人)ぞろいだったが、マイクロソフトは、大混乱を予想して正しく対処した賢人ぞろいだった。──そして、その正しい対処が「JIS2004に対応しない」という方針だったのだ。
 すなわち、JIS2004 を捨てたマイクロソフトは賢明だった。マイクロソフトの難点は、賢明にも JIS2004 を捨てたくせに、「JIS2004 を採用した」と嘘をついたことだ。本当は賢明なのに、馬鹿のフリをして、JISの委員会に迎合したことだ。
( ※ 実は、マイクロソフトの本音は、そうではない。X 0208において字形の変更をしたことについて、世間から文句を言われるのが怖いから、「X 0208において字形の変更をしました」と正直に言わないで、「X 0213 を採用しました」と嘘をついたのだ。小心者はわがみかわいさで嘘をつく。)

 ──────────

 さて。もう一つの難点がある。 (2) の難点だ。つまり、JIS2004 で正字に修正されていない文字が 20字以上ある、ということだ。前日分の画像の中央と右側を比較するとわかるが、次の 23字には明白な差がある。
    廠 鱈 唳 堋 捩 梛 湮 甄 硼 箙 粐 綛
    綮 綟 芍 荵 蟒 褊 諞 譁 邉 扈 鮗

 これらの大部分は、正字に修正されるべきだ。なのに、正字に修正されていない。困ったことだ。
 ただし、このことは、「Vista ではダメだ」ということではなくて、「JIS2004 という規格そのものがダメだ」ということだ。(JIS2004 という規格において、もともと正字に修正されていない。)
 その点、秀英明朝というフォントならば、そんな難点はない。 これらの 20字以上の文字についても、ちゃんと正字になっているはずだ。

     【 追記 】

   「粐」は、国字なので、正字にする必要はなさそうだ。
     ※ 「戸」の一画目を「一」にしてよい、ということ。
    ただし、正字にするのが間違いだとも言えない。微妙。

 ──────────

 ここで、(1)(2) の点をまとめると、こうなる。
 「JIS2004 という規格は、欠陥規格である。MS版の JIS90に対して上位互換でない(文字化けが発生する)せいで、Windows では採用されない規格となった。また、文字集合としてみても、秀英明朝では正されている 20字以上の文字が正されていない(つまり誤字のままである)。
 要するに、JIS2004 という規格は欠陥規格であり、それゆえに、使われない規格なのだ。実際に使われるのは、JIS97(正字版)であって、JIS2004ではない。JIS2004 は、誰も使わない規格である。JIS2004 は死んだ。

 ※ 「ふざけている」と怒る人もいるだろうが、JIS2000 は七年前に死んでいる。
   そのことはよく知られている。JIS2004 も JIS2000 と同様なのだ。
   南堂ケンシロウ いわく。「おまえはもう死んでいる」

 ──

 では、どうすればいいか? JIS2004 は死んだのだから、こんな規格は無視してもいい。あってもなくても、誰も使わない規格であるにすぎない。
 なすべきことは、次のことだ。

 (i) 当面は、JIS97(正字版)において、正字に修正されていない 20字以上を修正する。その規格は、たとえば、「JIS X0208:2010」というような規格として定める。
 (ii) 将来的には、第三水準や第4水準の符合位置のものを使えるように修正した新規格を制定する。これは MS版の JIS90 に対して上位互換であるものとする。つまりは、文字講堂で提案した新規格(¶)である。

 この二点を、私の新たな提案としよう。これをもって、私の結論とする。

 ¶ 文字講堂で提案した新規格とは、「南堂私案」もしくは「2002JISへの道」のこと。前者の日付は、[ 1999.3.18. ]で、後者の日付は、[ 2000.4.08.]だ。

 ──

 なお、新規格を定めると、便利なことがある。それは、一点しんにょうの「辻」と二点しんにょうの「辻」を共存できる、ということだ。新たな規格では、ゼロから始めるのであるから、どのような文字集合をとることもできる。当然、一点しんにょうの「辻」と二点しんにょうの「辻」を共存できる。そういう規格を定めればいいだけだ。
 一方、現状では、そうは行かない。なぜか? JIS2004 (というより X 0213 )では、あらゆるコードポイントが使用済みで、空席がないからだ。一部に記号用の空席はあるが、それは記号用に予約済みで、漢字は使えない。他方が入るべき空席がないからだ。
 当然、一点しんにょうの「辻」と二点しんにょうの「辻」のどちらか一方を採用したら、他方は排除される。JIS2000では、一点しんにょうの方が採用されたので、二点しんにょうの方が排除される。JIS2004では、二点しんにょうの方が採用されたので、一点しんにょうの方が排除される。どちらにしても、共存は不可能だ。
 しかし、新規格では、共存が可能である。また、南堂私案では、「共存すべきだ」とされる。なぜなら、一方は正字で、他方は簡易慣用字体で、どちらも根拠があるからだ。(あらゆる略字が採用されるわけではないが、簡易慣用字体はパソコン略字ではなく俗字なので採用される。)
 というわけで、ゼロから作り直すと、便利な点もあるわけだ。もちろん、「一点しんにょうの辻さんが『おれの字がない』と怒る」という批判も成立しなくなる。(JIS2004ではその批判が成立する。JIS2000では同様の批判が二点しんにょうの辻さんについて成立する。)
( → 同趣旨の話 http://openblog.meblog.biz/article/1525.html

 ──

 蛇足として、教訓ふうの駄弁を述べておこう。
 JIS2004 は、歪んだ規格である。歪んだ規格を制定すると、歪んだ規格が社会に浸透するのではなく、歪みもろとも規格自体が捨てられる。かくて、JIS2004 は捨てられる。
 では、どうするべきか? 歪んだ規格を捨てて、正常な規格を採用すればいい。その正常な規格は、すでに提案されているからだ。
 とすれば、われわれにとって大切なのは、規格を正常化する行為自体ではなく、その前に、規格を正常化しようとする意思をもつことだ。ここでは、規格よりも自分の頭を正常化するべきなのだ。

 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 《 参考資料 》
 マイクロソフトが述べた嘘を引用すると、次の通り。(着色は引用者。)

 (a)
 “( Vista では)最新のJIS規格、JIS2004に対応した日本語フォントを搭載する予定です。”

( → microsoft

 (b)
 “ JIS X 0213:2004 (JIS2004) 対応について
マイクロソフトでは、従来 JIS 第 1 および第 2 水準漢字 (JIS X 0208 に規定されている 6,355 文字) をベースとした Shift JIS の漢字に加え、1998 年には JIS 補助漢字 (JISX 0212 に規定されている 5,801 文字) を加えた 12,156 文字の漢字を標準フォントとして組み込むなど、最新の日本語情報処理規格に基づいて文字の拡張を継続的に行ってきました。Windows Vista では、これまでと同様に日本文化に根ざした情報化社会の実現を支援するため、国の国語施策および法令に整合する最新の JIS 漢字「JIS2004」に対応した日本語フォントを搭載しています。
Windows Vista に標準搭載される全ての日本語 OpenType フォント、「MS ゴシック 3 書体 (MS ゴシック、MS P ゴシック、MS UI Gothic)」、「MS 明朝 2 書体 (MS 明朝、MS P 明朝)」および「メイリオ」が JIS2004 対応となります。

 Windows XP および Windows Server 2003 向け JIS2004 対応 MS ゴシック・明朝フォントパッケージ
 Windows Vista 向け JIS90 互換 MS ゴシック・明朝フォントパッケージ

 各フォントパッケージは 2 月第 2 週中に提供開始予定です。”

( → microsoft

 ──

 以上を見ると、「JIS2004 を採用した」とは書かずに、「JIS2004 に対応した」と書いている。その点で、ある程度、言い逃れの余地がなくもない。
 ただし、あくまで間違えて書いたのなら釈明の余地があるが、あえて言い逃れの余地があるように、わざとこう書いたのだとすると、意図的にユーザーをだまそうとしたわけであり、相当悪質だ。
 単に間違えたのなら、「馬鹿」または「うっかり」だが、「バレても困らない形でだまそう」という意図があったなら、詐欺的だ。
posted by 管理人 at 17:16| Comment(4) |  文字規格 | 更新情報をチェックする
この記事へのコメント
【 補足情報 】

 JIS2004の弱点がさらに見つかったので、追加しておく。

 (1) 人名異体字 698字
 マイクロソフトは、「Vista では 906字の漢字が追加された」と述べている。
 http://blogs.msdn.com/hiroyask/archive/2006/12/18/jis2004.aspx

 906字の内訳ははっきりしていないのだが、そのうち、 698字は「2004年に追加された拡張人名用漢字」であるという。
 http://internet.watch.impress.co.jp/www/column/ogata/news3.htm

 げっ。ただの誤字みたいな人名異体字が 698字も!!
 こんなもので大量の領域が占められているわけだ。さらに、2バイト欧文文字という使用禁止にするべき文字もあるので、両方合わせると、非常に多くの領域が邪魔なだけの文字で占められていることになる。
 
 (2) unicode の符号化
 上の人名異体字は、どういうふうに符号化されているか? かなり多くの部分がサロゲート・ペアがらみであるらしい。で、XP との互換性が難しくなったり、いろいろと問題があるという。詳しくはとても書ききれないぐらい、面倒なことになっている。
http://itpro.nikkeibp.co.jp/article/COLUMN/20061221/257533/

 ──

 要するに、「JIS2004 については、unicode を使えばいい」ということで解決するわけではない。あまりにも変な文字集合が混じっているせいで、unicode にしても使いがたくなってしまっている。
 つまり、「 unicode ならば使える」のではなく、「 unicode では一応使えるはずだが、とてもまともに使えたものじゃない」というふうになっている。実際にみんなが使い出したら、とんでもない混乱が目に見ている。あっちこっちでトラブルが頻発しそうだ。「文字が消えた、化けた、読めない、間違えた、誤字だ」なんていう、余計な負担が山のように襲いかかる。
 普通の状態であれば、印刷物と小型漢和字典があれば、日常生活では何一つ不自由なく暮らせたはずだ。なのに「 unicode で JIS2004 の文字を使う」というふうにしたら、上記のようにとんでもないトラブルに巻き込まれてしまう。特に人名漢字では大変なことになりそうだ。読めも書けもしない誤字がわんさとあふれて、社会は大混乱、……というふうになりかねないかも。(今すぐではないが。)

 結論。
 そういうわけで、こう結論できる。
 「JIS2004 は実質的に死んでいるが、まだ息の根が止まっていないようだから、とどめを刺すべき。JIS2004 を殺すべき。この規格は廃棄処分にして、JISから抹消して、かわりの規格を定めるべき。とりあえずは、上記の人名異体字を原則として使用禁止にするべし。
( ※ コードポイントにあるものを削除する必要はないが、研究用の文字として、公文書での使用を禁止するべき。戸籍や官公庁の文書では「禁止文字」として指定するべき。)
Posted by 管理人 at 2007年02月04日 20:24
「人名漢字を大量に抹消する」と言うと、怒られそうだ。「それは人権蹂躙だ。けしからん!」と。そこで、参考のため、私の立場を示しておく。次の通り。

 人名漢字(異体字)については、700字ぐらい採用したって、どうせ全部採用したことにはならない。世の中にはもっと大量の人名漢字がひそんでいる。そのすべてを採用するのでない限り、どっちみちダメだ。
 ゆえに、方法としては、すべてを網羅するために、次の方法を取る。
    「かな書き + 画像」
 これで万事OKだ。「齋藤」の「齋」の異体字がどんなにあったって、大丈夫。「〓藤」と書いて、「〓」のよみを「さい」にして、字形は画像で示せばいい。

 この方法ならば、「読めない異体字」は存在しない。また、「扱えない文字」も存在しない。画像にするのだから、どんな異体字だって大丈夫。しかも、扱いやすい。誰でも簡単に扱える。
Posted by 管理人 at 2007年02月04日 20:40
真ん中へんに 【 追記 】 を加筆しました。
 「粐」が国字だ、という話。タイムスタンプは下記。↓
Posted by 管理人 at 2007年02月05日 06:47
JISの神・・・!!
これは良エントリ。
Posted by hg at 2009年01月14日 11:04
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ