2007年02月19日

◆ 字体情報と人名用途


 前項でも述べたが、「字形の変更なんかがあると困る」という見解がある。人名を表示する際に、字体の差がわからないのは困る、というわけだ。
 前項では、この問題について、原理的な話をした。つまり、「字形の変更」の意義を説明した。
 本項では、この問題について、より実際的な話を示す。印刷業界や一般企業などがどうすればいいか、という具体的な話だ。 ──
 
 本項は、おおむね、前半と後半に分かれる。
  ・ 前半 …… 基本的な説明
  ・ 後半 …… 具体的な説明
 というふうになる。

 ──

 まずは、基本的な話をしよう。

 「字体情報がないのは困る」という声がある。たとえば、MSのフォントで「辻」を表示したとき、その「辻」が一点しんにょうなのか二点しんにょうなのかわからない、ということだ。
 それで、「字形の変更なんかがあるから、どっちのフォントなのか、わからなくなった。顧客の意図がわからなくなった」という不満が、印刷業界などで生じている。( → 。特にこのサイトに限ったことではないが。 )
 しかしこれは、文字コードというものについて、根本的な誤解をしていることになる。そのことを説明する。

 (A)当然である
 「字体情報がないのは困る」という声があるが、そもそも、文字コードというものはもともと字体情報を含まないのだ。「字体情報がない」というのは、当り前のことなのだ。「字体情報を含めてくれ」という要望の方がおかしい。
 文字コードに字体情報が含まれないのは、なぜか? たまたま情報が抜けてしまったからか? いや、あえて意図的に字体情報を排除しているのである。字体情報なんてものがあると不便だからだ。
 一般に、テキストファイルというのは、そういうものだ。メールだって、そうだ。文字情報だけがあり、字体情報はない。だからこそ、誰もがどんな環境でも、文字を使える。たとえば、「MS明朝」という字体情報が必須であれば、そのフォントをもたない Mac やケータイでは文字を表示できなくなる。それでは困る。
 文字コードというものは、文字伝達のために必要最小限のものを盛り込んだものだ。だからこそ、Mac でもケータイでも、その環境に応じて、適切なフォントで、文字が表示される。字体情報という余計なものがなくなったからこそ、万人が文字を共有できるのだ。
 文字コードというのは、それほどにも偉大な発明品なのだ。その意義を理解しよう。

 (B)もともと字体はわかっていない
 「字形の変更なんかしたから、『辻』が一点しんにょうか二点しんにょうか、わからなくなった」という声もある。しかし、これもまた、根本的な間違いだ。
 なぜか? 実は、字形の変更をしようがしまいが、どちらの字体であるかは、もともとわかっていなかったからだ。たとえば、従来では、一点しんにょうの「辻」だけが表示された。では、その「辻」は、一点しんにょうの「辻」を意味したのか? 違う。一点しんにょうで表示された「辻」は、実際には、一点しんにょうの「辻」と二点しんにょうの「辻」の双方が含まれていた。二点しんにょうの「辻」さんも、パソコンでは一点しんにょうで表示された。
 結局、次のようになる。
  ・ 過去 …… 一点しんにょうの「辻」で、双方を代表した
  ・ 今後 …… 二点しんにょうの「辻」で、双方を代表する
 つまり、代表する字形が変わっただけであって、どちらにせよ、その文字が双方のうちのどちらを意味しているかは、判然としないのである。過去では、一点しんにょうの「辻」で双方を含めていた。将来では、二点しんにょうの「辻」で双方を含める。どっちみち、その文字がどちらを意味しているかは、判然としない。
 つまり、「新たにわからなくなった」ということはなく、「今までもこれからもわからない」のである。そして、そのことは、文字コードとしては、必然的なのだ。(前記 (A)を参照)。
 では、なぜ、「字形の変更で、どっちかわからなくなった」という騒ぎが生じているのか? それは、今現在という段階では、二つの字体の双方で表示することが可能だからである。今現在では、フォントが二通りあるので、フォントを切り替えることで、字体を切り替えることができる。……今までは一通りのものしかなかったのに、現在では二通りのものがあるようになった。だから、隠れていた問題が顕在化したわけだ。問題そのものは、前からずっとあったのだが、フォントが二通りできて、字体を区別して表現できるようになったから、問題が顕在化したわけだ。
 とはいえ、ここでは、新たに問題が発生したわけではない。問題そのものは、前からずっとあった。「字形の変更」で大問題が発生した、ということはない。「どちらの字体かわからない」という問題は、昔も今も、ずっとあるのだ。
( ※ なお、この問題は、将来的には消滅するはずだ。なぜなら、正字のフォントが主流になって、略字のフォントは衰退するからだ。そうなると、二点しんにょうの「辻」ばかりが出回るから、「新旧どっちのフォントを使ったらいいか」というような問題は消滅する。単純に、新フォントだけしか残らなくなる。現在の問題は、あくまで過渡期の問題であるにすぎない。数年後には、消滅するだろう。)

 (C)字形情報を伝えたいとき
 では、どうしても字体を知りたいときには、どうするか? それは、簡単だ。字体の問題は、一般には字形の問題だから、字形の問題は、文字コードではなく画像情報を使うことで解決する。具体的には、次の二通り。
  ・ フォント指定  (フォント埋め込みなど)
  ・ 画像そのもの
 前者は、フォントを指定することで、字形を指定する。一般的には、「DF平成明朝W3」のようにフォントを指定する。ただし、相手がそのフォントをもっていないこともあるから、PDF の形で、ファイル内にフォントを埋め込むのが標準的だろう。フォントを埋め込めば、ファイルにフォントそのものが組み込まれるわけだから、そのフォントをもっていない人にも、字形情報は伝わる。(そのかわりファイルサイズはふくらむが。)
 後者は、画像そのものを文書に付加する。HTMLファイルなら、文字画像を入れてもいいだろう。画像そのものが扱いにくい場合には、外字の形で、画像を文字のように使うこともできる。
 いずれにせよ、字形情報を伝えたいときには、文字コードよりも画像を使うのが基本である。人名・地名の異体字は、6万字ぐらいある。「齋」や「邊」の異体字だって、膨大にある。これらの異体字をすべてちゃんと表示するためには、文字コードではとても足りない。人名をまともに(万人で)扱うためには、どうしても画像を使うしかない。「辻」について一点しんにょうと二点しんにょうを区別すればいい、という問題ではないのだ。

 結論。
 (A)(B)(C) からわかるように、文字コードは文字情報だけを伝えるものであり、字形情報を伝えるものではない。文字コードは言語としての文字を伝えればよく、細かな字形を伝える必要はない。むしろ、細かな字形を伝えることは、不便になる。
 人名用途などで、字形を伝えたいときには、字形を伝えるための方法(フォント指定・画像使用)によるべきだ。文字コードを人名の字形を伝えるための方法に使うというのは、本来の文字コードの意義とは異なる用途なのだ。そちらを優先させてしまっては、本末転倒となる。
 字形の伝達が問題であれば、あくまで、そのための方法を利用すればいい。文字コードをそのために勝手に利用して、「不便だ、不便だ」と騒ぐのは、主客転倒と言うべきである。「シッポが犬を振る」というようなものだ。

  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 このあと、話の後半にはいる。以上の基本を踏まえた上で、「実際には具体的にどうすればいいか」ということを説明する。

 (1)基本は包摂
 基本的には、「文字コードでは字体差は判別されないということ」(これを包摂という)を、基本にする。
 たとえば、一点しんにょうの「辻」と二点しんにょうの「辻」は、パソコンでは区別されない。どちらも同じ文字だ。そういう原則がある。この原則を認識しておけばいい。
 「区別できないぞ、困った、困った」などと言わないで、「もともと区別しないようになっている」と理解すればいい。そして、その事情は、何も今になって始まったわけではなく、何十年も前からずっとそうだったのだ。たとえば、パソコンで一点しんにょうの「辻」と二点しんにょうの「辻」のどちらが表示されようと、その文字で、双方の「辻」さんがともに含意される。また、パソコンで「榊原さん」を表示するとき、「榊」が「木ネ申」になろうが「木示申」になろうが、その双方が含意される。そういう事情は、昔も今も、かわりがない。今になって急に問題が発生したわけではない。
 文字コードというものでは、「包摂」がなされている。そのことをはっきりと理解することが大事だ。
 比喩的に言えば、「地球が動いている、大変だ、大変だ」と騒ぐよりは、「地球というのは動くものなのだ」とちゃんと理解しておけばいい。今まで勝手に「地球は静止している」と勘違いしたから、今になって真実に気づいて大騒ぎするだけだ。真実を初めから理解しておけば、何も騒がないで済むはずだ。

 (2)それ以外は現実的に無意味
 とはいえ、異体字を文字コードで区別する、という例もある。たとえば、「辺」には、「邊」という正字のほか、「邉」という異体字(俗字)もある。これを見て、「ほれ見ろ。文字コードでも異体字を表現できるのだ」という反論も出てくるだろう。
 なるほど、そういうこともある。しかし、異体字を表示するというのは、あくまで例外的なことなのだ、と理解した方がいい。「邉」という異体字なら、これが俗字として使われてきた、という長い歴史があるから、これが例外的に文字コードに含まれただけだ。例外が少しあるからといって、例外を本則にしてしまったら、とんでもないことになる。
 たとえば、人名・地名の異体字は、6万字ほどもある。これを全部、パソコンの文字コードに入れてしまったら、どの文字を使ったらいいのか、わからなくなるだろう。たとえば、「辺」の正字を使うとき、「邊」の異体字がずらりと並んでいて、どれが本当の正字なのか、わからなくなってしまう。
     → 「邊」などの異体字の画像
 こうなると、結果的に、似たような別字があちこちにわんさとあふれて、収拾がつかなくなるだろう。そして、そのように収拾のつかない状態を排除するために、文字コードでは「異体字は原則として区別しない」という方針(包摂)を立てたのだ。
 文字コードでは、異なる異体字をたがいに区別しないというのは、区別できないから区別しないのではなく、区別しないことに多大なメリットがあるから区別しないのだ。

 (3)何が何でもやるなら
 それでも、何が何でも文字コードで異体字を表現しよう、としたら、どうなるか? あまりにも無謀な試みだとも思えるが、現実にそれをやってのけた会社がある。次のソフトだ。
   → 日立の漢字ソフト「五萬悦」 (サンプル価格は五百万円)
 これを使えば、(たぶん)お望みの通りのことができる。7万3千字もある(うち異体字が6万字ぐらいだろう)ので、パソコンでさまざまな文字を文字データとして扱うことができる。
 では、これでいいのか? このサイトには、「マイクロソフトの新基本ソフト、ウィンドウズビスタで採用された新しい文字コードによる問題も解消できる」と表示してある。本当にそうか?
 実は、とんでもない話だ。そもそも、これは、文字コードではない。万人が使える文字の規格ではなくて、社内だけで使える環境だ。この文字データを社会に持ち出しても、使うことはできない。会社がこのソフトを導入しても、その文字で書いた異体字を他人に送付することはできない。(送付しても無意味だ。相手にはそのソフトがないのだから。)
 このソフトでできるのは、「文字を印刷できる」というだけのことだ。とすれば、これは要するに、ただの外字システムである。画像を文字のように扱える、というだけであって、しょせんは、画像を蓄積しただけのソフトであるにすぎない。文字コードとしてメールで情報交換するようなことは、絶対にできない。単に印刷ができるだけだ。当然、「マイクロソフトの新基本ソフト、ウィンドウズビスタで採用された新しい文字コードによる問題も解消できる」というのは、嘘八百である。
 ま、これを「画像を蓄積したソフト」として利用するなら、それなりの用途はある。戸籍の整理には、実用価値があるかもしれない。しかし、これをもって、文字の規格として文字情報の伝達に利用しようとしたら、とんでもない混乱が起こるだけだ。
 要するに、戸籍係は別として、一般の会社では、こんなソフトを導入すると、金をかけて混乱を買うだけだ。使えば使うほど、社内に混乱がひろがる。こんなものを社内の標準システムに入れたら、「マイクロソフトの新基本ソフト、ウィンドウズビスタで採用された新しい文字コードによる問題も解消できる」どころか、メチャクチャな大混乱が起こる、とわきまえておこう。
 こういうソフトを使うという発想は、(1) の基本的なことを理解していないことから来る。ここでは、おのれの無知を是正することが肝心であり、社内のソフトを買い換えればいいという問題ではない。勘違いしないように。
 比喩。ある阿呆がいた。彼は勉強ができないので、「頭の良くなるソフト」というのを買って、それをずっとパソコンで稼働して、あとはずっと遊びほうけていた。彼は大金をかけて、その効果を得ただろうか? それとも、かえってバカになっただろうか? 
( ※ 余談だが、このソフトの名前は、良くできている。「御満悦」というのがもとの語だろうが、こういうふうに独りよがりで自己満足のことをやりたがるだけだ、というのが本質だ。で、その唯我独尊の自己満足を、誤字でやる。だから、「五萬悦」という名前のソフトになる。……ま、バカ息子は、五百万円出して、勝手に買えばいいだろう。)

 (4)対応は画像で
 では、バカでなくまともな人間は、どうすればいいか? 
 基本的には、(1) で述べたように、包摂で処理すればいい。一点しんにょうの「辻」さんも、二点しんにょうの「辻」さんも、どちらも同じ文字を使って表示すればいい。そのあとで、「これは包摂されているのだ」という理解をしておけばいい。(このことは後日、別項でも述べる。)
 ただし、基本はそうでも、例外的に、「どうしても字体差を区別したい」という場合もあるだろう。その場合には、前半の(C)で述べた方法がある。
  ・ フォント指定  (フォント埋め込みなど)
  ・ 画像そのもの

 (i)フォント指定
 フォント指定では、「DF平成明朝W3」というふうに指定することもできるが、「DF略字明朝」というふうに、略字を明示したフォントがあるといっそういいだろう。(この件は後日、別項で再論する。)
 フォント指定では、「市販の外字フォントを使う」という方法もある。これでも印刷はできるし、PDF に埋め込むこともできる。
 ただ、PDF では、フォント指定ができるがゆえに、逆の意味の不便さもある。字体を指定したくないときにも字体を指定してしまう、ということだ。たとえば、現在流布している PDF ファイルでは、「辻」などのように「字形の変更」がなされた文字はどう表示されるだろうか? 次のようになる。
 「MS明朝のようにOS標準のフォントでは、新フォントのマシンでは新フォントで表示される。つまり、新フォントを入れたマシンでは、「辻」は正字で表示される。しかし、「DF平成明朝W3」のようにOSにないフォントを指定した文書では、そのフォントがファイルに埋め込まれてしまうので、今後ともずっと元のフォントのままで表示される。元のフォントが略字のフォントであれば、今後もずっと略字のまま表示される。……これは、困ったことですね。
 字形を具体的に指定してしまうというのは、指定したいときには便利なのだが、指定したくないときには勝手に指定されてしまうので、かえって不便になるのだ。
( ※ そこで、注意しておこう。これまで PDF ファイルを作った人は、これまでのファイルにある略字をすべて正字に置換して、PDF ファイルを作り直すべきだ。莫大な手間がかかるが、仕方ない。字体を勝手に指定してしまったのだから、それを修正する無駄手間がかかることになる。……なお、ワードなどのワープロ文書でも、事情は同様だ。ただし、同名の正字フォントをインストールすれば、問題はなくなる。たとえば、「DF平成明朝W3」という名称のまま、正字フォントを新たにインストールすれば、何も問題はなく、略字が正字に自動置換される。……これがフォントメーカーにとってはベストの策だ。「DF正字平成明朝W3」なんていう正字フォントを新たに販売するのは、愚の骨頂である。そんなもの、買う必然性がない。)

  (ii)画像そのもの
 画像で区別する、という案もある。この場合、どんな異体字であれ、好き勝手に使える。一点しんにょうの「辻」と二点しんにょうの「辻」を区別するだけでなく、明朝体と楷書体を区別することもできる。(しんにょうは、明朝体では「 フ_ 」のようになり、楷書体では「 ろ_ 」のようになる。)
 また、「邊」の異体字も、二つだけでなく、いくらでも無制限に異体字を表示できる。日立の「五萬悦」は五百万円もかかるということだが、それは7万3千字もあるからだ。普通の人は、7万3千字も必要なく、自分専用の特定の一字か二字があればいいだけだから、その文字を画像で作ればいい。
 では、どうやって? 簡単だ。適当に画像ソフトを開いて、そこで文字を入力して、その文字を加工すればいい。たとえば、二点しんにょうの「逝」がないとしたら、一点しんにょうの「逝」と、二点しんにょうの「邊」とを画像にしてから、それぞれの部首を合成すればいい。(「逝」の左上の箇所だけ、「邊」のしんにょうを複写すればいい。)
 こんなことは、画像ソフトを使えば、五分間ぐらいでできる。たいした手間ではない。もうちょっと複雑な修正でも、何とかなるだろう。
 ま、画像だと、いろいろと不便なこともあるのだが、それでも、まったく表示できないわけではない。文字の縮小・拡大だって、簡単にできる。
(その方法 : あらかじめ大きな画像を作っておいてから、それをMSワードの「テキストボックス」に挿入すれば、テキストボックスの縮小・拡大に応じて、画像が自動的に縮小・拡大される。)

 ──

 結論。
 文字コードでは、文字の言語情報だけを伝えれば良く、字形情報を細かく伝える必要はない。
 字形情報を細かく伝えたいときには、フォント指定または画像使用よって、字形を指定すればいい。
 異体字の細かな字形情報までも、文字としてたくさん詰め込もう、ということは、五百万円もするソフト「五萬悦」で可能である。ただし、それを使うのは、最善の策ではなく、最悪の策である。何でもかんでもソフト任せ、という、バカ息子の発想。
 教訓。「バカはソフトじゃ治らない」

 ──

 p.s.
 本項は、次項以降に続く。本項では、大略を示した。さらに細かな話が、このあと続く。
 何をなすべきか、何をなしてはならないか、という話題で、次項と次々項で詳しく説明する。
posted by 管理人 at 21:29| Comment(7) |  文字規格 | 更新情報をチェックする
この記事へのコメント
>画像で区別する、という案もある。この場合、どんな異体字であれ、好き勝手に使える。一点しんにょうの「辻」と二点しんにょうの「辻」を区別するだけでなく、明朝体と楷書体を区別することもできる。(しんにょうは、明朝体では「 フ_ 」のようになり、楷書体では「 ろ_ 」のようになる。)

楷書体にする例は(i)フォント指定にあるべきものです。正楷書フォントにすれば、すべてのしんにょうが一点しんにょうになるはずです。
また、正字/略字の例として二点/一点しんにょうの「辻」をあげるのはおかしい。一点しんにょうは略字ではありません。
Posted by 和田 徹 at 2007年02月20日 21:06
> 楷書体にする例は(i)フォント指定にあるべきものです。正楷書フォントにすれば、すべてのしんにょうが一点しんにょうになるはずです。

 確かに文字コードの世界ではそういうふうになっているのですが、現実には人名異体字で「楷書体のしんにょうで一点と二点がある」という声がけっこうあるんですよね。上記の「邊」の異体字を参照。一点と二点がありますよね? 

 ただし、下記のことは、ごもっとも。

> また、正字/略字の例として二点/一点しんにょうの「辻」をあげるのはおかしい。一点しんにょうは略字ではありません。

 しんにょうが一点か二点かは、略字か正字かの例としては、適切ではありません。議論の余地がいろいろとあるので。
 そのことはわかっていたのですが、見やすさ・わかりやすさの点で、しんにょうを取り上げました。他の部首だと、略字と正字の区別を言葉で言い表しにくいので。……ま、厳密さでは欠けていますが、意図は伝わると思うので、勘弁してください。この文書は一応、素人向け・万人向けなので。
 読者が専門家でしたら、この例を、別の例で読み替えてください。

 例 「木ネ申」と「木示申」  
  (これだと、見にくいし、読みにくいですよね?) 

 ──

 なお、本項の区別は、「略字/正字」という区別ではなくて、「MSのフォンで字体が異なる二種類」という意味です。あくまでMSのフォントに依存した話です。「字形の変更前/字形の変更後」(= ビフォー/アフター)です。
 これを「略字/正字」と呼ぶのは、便宜的な呼び方ですから、本来の用語とは違っていても、勘弁してください。
Posted by 管理人 at 2007年02月20日 22:42
>上記の「邊」の異体字を参照。一点と二点がありますよね? 

一点/二点の違いは選んだフォントないし活字の違い(デザイン差)ということでしょ?
「はねる/とめる」「はらう/とめる」の差と同じことです。

>.....勘弁してください。この文書は一応、素人向け・万人向けなので。

勘弁なりませぬ。素人向けなら余計、いいかげんなことを書かれてはこまります。しめすへんが「ネ」の形になっているのは略字などではありません。
Posted by 和田 徹 at 2007年02月21日 10:51
蛇足になりますが、この件は、

> これを「略字/正字」と呼ぶのは、便宜的な呼び方ですから、本来の用語とは違っていても、勘弁してください。

 と書いたとおりです。ですから、「それは略字じゃないぞ」というご指摘は、見当違いです。
 本項は、「これは略字だ」というふうに述べているのではなくて、MSの JIS90版 のフォントの方を便宜的に「略字」と呼んでいるだけです。正確には「MS明朝とMSゴシックの JIS90版 のフォントの字形」と呼ぶべきものです。しかし、いちいちそんな用語を何十回も使うと面倒なので、簡略に「略字」と呼んでいるだけです。
 したがって、「一点しんにょうの辻は略字だ」というふうに字義通りに理解するべきでなく、「一点しんにょうの辻はMS明朝とMSゴシックの JIS90版 のフォントの字形だ」と理解するべきです。
 略字という簡略な呼び方が「許せない」と思うのでしたら、ご自分だけ、「略字」という二字を「MS明朝とMSゴシック JIS90版 のフォントの字形」という長ったらしい語句に置換してください。(普通の人はそんな面倒をしたがらないはずです。)

 ──

> 一点/二点の違いは選んだフォントないし活字の違い(デザイン差)ということでしょ? 「はねる/とめる」「はらう/とめる」の差と同じことです。

 それは微妙なところです。そういう解釈もあるが、そうではない解釈もある。しんにょうについては定説はない、というのが正しい。
 ただし、そういうふうに字体差を字形差(書体差)に含めてしまえ、という考えを押し進めると、包摂概念によって略字をみんな正字に置換してしまえる、という立場になる。正字を追加することは不要だ、という立場になる。
 実は、それは、私の立場でもある。だから「字形の変更は許される」という結論になる。
 というわけで、上記の引用の主張は、私としては賛意を示します。とはいえ、世間の標準だとは言えない。
 私としては、上の引用については、ここでは特に論じません。本項は、「略字とは何か」という話をしているわけではないからです。前述の通り。一点しんにょうの文字を略字と呼ぼうが何と呼ぼうが、本項の趣旨とは関係ありません。

 ──

 ※ ここに述べた注釈は、専門家ならば「そんなこと、いちいち言われなくてもわかっている。当り前の解説を、いちいち書くな」と思うようなことです。ですから、用語使用をめぐって揚げ足取りみたいなことをするより、意味を正しく読み取るようにしてください。
Posted by 管理人 at 2007年02月21日 20:08
「MS明朝とMSゴシック JIS90版 のフォントの字形」(以下「新字形」という)ですむではないですか。
世間とかけはなれた用語をつかって素人向け・万人向けというのはおかしい。勝手に自分独自の用語を使って、意味を正しく読み取るようにしてくださいといわれても無理です。
Posted by 和田 徹 at 2007年02月22日 09:12
略字については、下記サイトに参考情報があります。

http://daukan.hp.infoseek.co.jp/seiji/ryakulist.htm
http://daukan.hp.infoseek.co.jp/jinmei/jinmeinainoryakuji.htm
Wikipedia( http://ja.wikipedia.org/ )の
・「略字」の項。
・「拡張新字体」の項。
Posted by miss at 2007年02月23日 01:44
JISは明朝体字形を規定しているのであり、
明朝体の正字は「いわゆる康煕字典体」であり、
当用漢字字体の影響を受けたものをすべて「略字」とよぶ。
こういう「定義」を最初に明示するのであれば文句をつけません。
ただ、楷書・行書・草書などの書写体、宋朝体・清朝体・正楷書体などの印刷体を
まったく無視するのはおかしい、とだけは主張します。
Posted by 和田 徹 at 2007年02月23日 12:57
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ