2007年02月07日

◆ 文字使用の指針1

  【 重要 】

 ここまで述べた話をまとめて、文字使用の指針を示す。
 「どの文字を使ってよいか?」「どの文字を使ってはいけないか?」という観点からして、2007年以降ではどうなったかを示す。
( JIS2004 に関連する話。初心者にもわかりやすいように示す。)
 ──

 2007年以降、Vista の途上にともなって、文字規格の事情が一変した。では、今後、どうするべきか? これを、「どの文字を使ってよいか?」「どの文字を使ってはいけないか?」という二通りの観点から、見ることにしよう。

【 前編・使ってよい文字 】

 まずは、「どの文字を使ってよいか?」という観点から示す。使ってよい文字については、次のように説明される。(あまり使うべきではない文字もついでに説明される。)

 使ってよい文字は、JIS第一水準・第二水準の文字である。わかりやすく言うと、シフトJISの文字(テキストファイルになる文字)で、機種依存文字を除外したもの。
 これらは、今までと同様に、自由に使ってよい文字だ。しかも今後は、略字から正字に変更される(字形の変更がある)という形で、利便性が向上されている。
 ただし、すべての略字が正字になったわけではないので、若干の注意が必要となる。(……この注意は、「字体差があるかないか」というだけの注意であって、文字化けや文字消失の恐れはないから、気にしなければ無視しても構わない。)


(1) 自由に使ってよい正字
 MS明朝・MSゴシックで「字形の変更」をされた 122字。問題なく使える。従来の環境では略字に化けるが、文字が読めなくなるわけではないので、情報は消えない。「略字から正字になった字だ」という注意が必要なだけだ。
     逢 芦 飴 溢 茨 鰯 淫 迂 厩 噂 餌 襖 迦 牙 恢
     晦 葛 鞄 翰 翫 徽 祇 汲 笈 卿 饗 僅 櫛 屑 祁
     倦 捲 諺 巷 鵠 甑 榊 薩 鯖 錆 杓 灼 酋 薯 藷
     哨 鞘 蝕 逗 摺 撰 煎 煽 穿 箭 詮 噌 遡 揃 遜
     腿 蛸 辿 樽 歎 註 瀦 捗 槌 鎚 辻 鄭 擢 溺 堵
     屠 賭 瀞 遁 謎 灘 楢 禰 這 秤 箸 叛 樋 逼 謬
     豹 廟 瀕 蔽 瞥 蔑 篇 庖 蓬 鱒 迄 儲 餅 籾 鑓
     愈 猷 漣 煉 簾 榔 冤 喩 嘲 囀 扁 疼 筵 篝 訝 騙 鴉

  ※ 「喩」は MSゴシックだけで字形の変更をされたもの。( → 02月01日
    「喩」という1字を別として、これ以外の 121字は 168字に含まれる。
    一方、168字のなかの「屡」の正字は、MSの 122字から漏れている。
    [ 後述の (5) を参照。]


(2) 自由に使ってよい非正字
 自由に使ってよいが、正字とは言えない文字。次の (A) (B) (C) (D) の三通り。

  (A) MS明朝で漏れた 46字。
 MS明朝・MSゴシックで「字形の変更」をされるべきなのにされなかった 46字。
     廻 蟹 釜 灸 喰 粂 隙 牽 鍵 梗 膏 叉 鮫 餐 楯
     杖 訊 挺 兎 牌 駁 挽 誹 稗 斧 娩 鞭 爺 叟 咬
     徘 棘 橙 狡 甕 甦 祟 竈 腱 艘 芒 虔 蜃 蠅 靄 靱


   ※ 画像は 02月02日 の (A)のところにある。
   ※ 正字との字形差が少なく、デザイン差とも言えるものが多い。
     細かな違いを具体的に指摘してほしければ、次のサイトでわかる。
      → http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jis2000-2004.html
    【 追記 】
   この 46字のうち、現実にはいくつかは正字に修正されている。つまり、
   マイクロソフトの公式発表の 122字よりも多くが修正されている。
   具体的に言うと、少なくとも次の文字。(他にもあるかも。)
     兎 牌 挽 稗 娩 芒

  (B) unicode に新たに正字が追加された 9字。
     倶 剥 呑 嘘 妍 繋 屏 并 痩
   これらは正字が unicode に追加された。( → 01月23日 の(b))
   これらは略字で使うしかないが、unicodeの正字に置換してもいい。
   なお、「屏并痩」の3字は、国語審議会の「簡易慣用字」に含まれる。

   ※ ついでだが、簡易慣用字の全体は、次の22字。
     芦 屏 并 痩 唖 鴎 麹 鹸 噛 繍 蒋
     醤 掻 祷 麺 蝋 撹 頴 曽 弯 桝 〓

       ※ 〓 は「濾紙」の「濾」の代用字。「さんずい + 戸」

    この22字の内訳は次の通り。
      ・ 芦 …… 字形変更された 122字の一つ
      ・ 痩屏并 …… 新たに unicode に正字が追加された
      ・ 唖鴎麹鹸噛繍蒋醤掻祷麺蝋 …… 元々unicodeに正字がある
      ・ 撹 頴曽弯桝 …… 元々JIS に正字がある。(攪 穎曾彎枡)
         ※ 「攪」は JIS83 でコードポイント変更された文字。

  (C) 俗字 1字。
     叱
 正字との字形差が少ない俗字。異体字と言えるので、特に正字を使う必要はない。
 どうしても正字を使いたければ、unicode の正字を使うべきだが、現時点では、 unicode にも正字はない。( JIS2004 にはある。)
   (詳しくは → 01月23日 の(c),変換表


(3) 国語とパソコンで方針が分かれる文字 29字 + 29字 + 9字
 文字集合としては同じく 29字だが、略字と正字とで対応が分かれる。次の (a) (b) (c) の三通り。

 (a)国語的には使うべきではないが、パソコンではやむなく使うべき略字 29字。
      ※ unicode では略字のかわりに正字を使える。

     唖 焔 鴎 噛 侠 躯 鹸 麹 屡 繍 蒋 醤 蝉 掻 騨
     箪 掴 填 顛 祷 涜 嚢 溌 醗 頬 麺 莱 蝋 攅

   (詳しくは → 01月23日 の(a))

 (b)国語的には使うべきだが、パソコンではあまり使うべきでない unicode の正字 29字。
      ※ unicode ではこれらの正字を使える。

   上記の略字の正字。略字で示すと次の通り。
     唖 焔 鴎 噛 侠 躯 鹸 麹 屡 繍 蒋 醤 蝉 掻 騨
     箪 掴 填 顛 祷 涜 嚢 溌 醗 頬 麺 莱 蝋 攅

   (詳しくは → 01月23日 の(a))
   (正字の字形は 変換表 に示した。)

 (c)国語的にはどちらでもいいが、パソコンでは使うべきでない unicode の正字 9字。
   先の簡易慣用字9字の正字。簡易慣用字で示すと次の通り。
     倶 剥 呑 嘘 妍 繋 屏 并 痩
   (詳しくは → 01月23日 の(b))

  ※ (b)と(c)の正字は、変換表に示してある。
   このように、unicode の形式でのみ使える。一般的とは言えない。


(4) 正字を使いたくても使えないので、略字を使うしかない文字 31字。
 JIS2004 では調査で見落とされたため、略字のまま残ってしまった文字。規格上は略字を使うしかないはずだが、現実には(自発的に修正して)正字を使えるフォントもあるので、フォントに依存する。次の (i) (ii) の2通り。

  (i) どのフォントでも正字でない(らしい)略字 23字
      廠 鱈 唳 堋 捩 梛 湮 甄 硼 箙
      綮 綟 芍 荵 蟒 褊 諞 邉 扈 鮗

 XANO明朝でも略字のままである。(秀英明朝ならば修正されていそうだが、未確認。)
  ※ 「粐」と「譁」の2字は、略字体を許容する立場もある。
     その場合、23字からこの2字を差し引いて 21字が残るし、
     全体の 31字という字数も、2字を引いて 29字となる。

  (ii) 一部のフォントで自発的に正字に修正された文字 8字
    誤ったままの字形で示すと、次の通り。
      {曾} (欝) 凋 [菟] 塘 兔 [寃] {訛}
 このうち最初の1字のみ、複数のフォントで正字に修正されているようだ。残りの6字を含めて、7字のすべてについて XANO明朝では修正済み。

   ※ (i) (ii) の区別は、フォントに依存する。フォントしだい。
   ※ (i) (ii) の画像は、 02月02日 の (B)のところにある。
   ※ 画像からわかるとおり、正字との字形差は少ないので、通常は
     あまり気にしなくていいが、電子漢和字典では注意する必要が
     ある。漢和字典が誤字を教えるのでは、シャレにならない。


(5)参考となる 1字
      「屡」の正字。
 これは、JIS2004 で字形の変更がされた unicode の文字。正字のまま字形が変更されたが、もともと unicode なので使うべきでない文字。
 なお、この文字では、字形の変更はなされているが、ごく微小(デザイン差)なので、無視できる程度。下記サイトを参照。
   → http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jis2000-2004.html
   (「叟」という字を検索すると、その前に見つかる。)


(6)JISの内部にある略字と正字 22字 + 22字
  (ア)JISの内部にある略字
     鯵鴬蛎撹竃潅諌頚砿蕊靭賎壷砺梼涛迩蝿桧侭薮篭

  (イ)JISの内部にある正字(上記に対応する分)
     鰺鶯蠣攪竈灌諫頸礦蘂靱賤壺礪檮濤邇蠅檜儘藪籠

    ※ JIS83 で「コードポイント変更分」として知られた略字と正字。
      略字を正字に変更するといいだろう。(国語審議会の方針)

 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

【 後編・使ってはいけない文字 】

 次に、「どの文字を使ってはいけないか?」という観点から示す。使ってはいけない理由と文字種を示す。

 ──

 使ってはいけない文字は、第一水準・第二水準以外のすべての文字である。これらの文字は、ユーザーの利用機種やOSにより、ある環境では正常に使えるが、他の環境では文字化け・文字消失が起こる(正常に使えない)。
 これは、さらに細かく言えば、次の二通り。
  ・ 機種依存文字(シフトJIS) …… いわゆる機種依存文字
  ・ 環境依存文字( unicode ) …… unicode の文字

 この二つについて、順に説明しよう。


(I)機種依存文字(シフトJIS)
 機種依存文字というのは、平たく言えば、「 Windows 専用文字」や「 Mac 専用文字」のことである。ケータイの絵文字も同様だ。これらは、シフトJISで表現されるが、第一水準・第二水準以外の文字である。(実際にはシフト以外に EUC その他も使われるが、そういう話は面倒なので省略。)
 機種依存文字の実例は、前項に示したとおり。たとえば、丸数字やローマ数字がそうだ。
 機種依存文字は、容易に使えるが、「使ってはならない文字」である。個人専用の文書だけで使って、他人に渡すときには印刷してから渡すのであれば、使ってもいい。しかし、電子データのまま使うと、文字化けするので、一般的には使ってはならない。掲示板、メール、ホームページで使うのも、原則としてダメだ。
 では、どうすればいいか? 対策としては、3通り。

 (a) 別の文字に代替する。
 機種依存文字のかわりに、同義の別文字に代替すればよい。
 丸数字は (1) などの半角文字に変える。
  (株) や cc のように見える省略記号なども、普通の文字に置き換える。
 ローマ数字は、アルファベットで置き換える。大文字ならば I,II,III,IV,V,VI,VII,VIII,IX で、小文字ならば i,ii,iii,iv,v,vi,vii,viii,ix にする。(これらはいずれもアルファベットの文字。)

 (b) PDF で使う。
 PDF でフォント埋め込みの形にすれば、機種依存文字を使える。
 実際、官公庁の文書では、PDF で機種依存文字(たいていは丸数字とローマ数字)を使っていることが多い。この場合には文字化けは起こらない。
 とはいえ、PDF は HTML に比べて扱いにくい。いちいち印刷しないと読みにくいし、ページごとに変に区切られるし、ファイルは重たいし、検索も不便だし、いろいろと難点がある。)また、PDF ファイルを作る方法も、あまり一般化されていない。だいたい、丸数字とローマ数字を使うためだけに PDF にするとしたら、本末転倒だ。
 PDF にするのは、最後の手段にしよう。できる限り、(a) や (c) に従って済ませる。

 (c) unicode で使う。
 unicode を使う方法もある。PDF を使うよりはマシだろう。正確さはある程度は犠牲になることもあるが、いろいろと扱いやすい。また、読み取れる環境にしても、PDF よりは unicode ファイルの方が、読み取れる環境は広い。少なくとも、通常のパソコンならば、基本的な unicode の文字は必ず読み取れる。( PDF だと、そうは行かない。PDF を読み取れないパソコンはかなりある。)
 ただし、unicode だと、文字種やファイル形式について、いろいろと気遣いが必要となる。文字種については、次の (II)を参照。ファイル形式については、次項(予定)を参照。


(II)環境依存文字( unicode )
 環境依存文字とは、平たく言えば unicode (だけ)の文字である。もうちょっと正確に言えば、JISの第一水準・第二水準および機種依存文字を越えた文字である。「使えない文字があるぞ」と騒がれたあとで、新たに使えるようになった文字があるとしたら、たいていは unicode の文字だ。たとえば、「鴎」の正字(區鳥)がそうだ。
 unicode の文字を IME で入力しようとすると、警告表示が出ることがある。 Vista の MS-IME2007 では「環境依存文字」、ATOK では「機種依存文字」。いずれも変換候補画面で警告が出る。
 「機種依存文字」と「環境依存文字」は、本文書では区別して使っているが、MS-IME2007 と ATOK では区別されない。シフトJISの文字も unicode の文字も、どちらも同じ言葉で呼ばれている。MS-IME2007 ではどちらも「環境依存文字」と呼び、 ATOK ではどちらも「機種依存文字」と呼ぶ。ま、呼び方しだいであるが、本書では別々の名で区別して呼ぼう。
 unicode は、ユーザーの環境によって、見える文字と見えない文字がある。機種・OS・フォント・アプリなどの違いで、見えたり見えなかったりする。それゆえ、情報交換の道具としては、やっかいである。自分では「見える文字」のつもりで文書を渡しても、受け取った側にとっては「見えない文字」であることがある。文字消失を起こすわけだ。

 この問題を解決するには、どうすればいいか? 簡単だ。 unicode の文字を一切、使わなければいい。文字を使わなければ、文字消失の恐れもない。また、「環境によってどうなるか?」と気を回す必要もない。
 どうしても使いたいときには、同義の別字(略字)を使うか、画像で代替すればよい。 
 たとえば、飛騨市のホームページで、「騨」の正字を使いたくなったとしよう。その場合は、文書中では同義の「騨」という略字を使うことにして、どうしても正字を使いたいタイトル部分には画像で「騨」の正字を使う。こうすれば、 unicode の出番はないから、文字化けの恐れもない。
( なお、「どうしても『騨』を正字にしたい」というような望みを持ってはならない。それだけのために、 unicode の文字を使うのは、広報用文書としては本末転倒である。 unicode を使うと、文字の正確さは保たれるが、文書全体が見えなくなる[こともある]からだ。)

 ※ 機種依存文字と環境依存文字( unicode )は、使ってはならない文字だ。
   これらについて注意するには、どうすればいいか? 手っ取り早いのは、
   IME の警告に従うことだ。MS-IME2007 や ATOK では、変換候補画面で
   警告が出る。《 機種依存文字 》, 《 環境依存文字 》というふうに。
   だから、その警告が出たら、その文字を使わないようにする、という方針
   を取ればよい。これなら、素人でも簡単に判別が付く。また、代替文字も
   同じ変換候補我慢に出るはずだから、対処も簡単だろう。
 ※ というわけで、漢字を使うときには、「漢字ツールで呼び出す」のではなく、
   「漢字変換をして呼び出す」ようにすればいい。
使えるかどうかについて
   判別するのは、パソコン任せにすることができる。


(III) unicode の文字種別の対応
 どうしても unicode を使いたい、という場合もありそうだ。その場合の使い方として、文字種ごとに、留意点を説明しよう。
( 以下はかなり複雑な話である。これを面倒だと感じるのであれば、 unicode の文字を一切使わないのが無難。前述の (II)で述べたとおり。)

 (α) 一般の unicode 文字。
 一般の unicode の文字というのは、おおまかには、同義のJIS文字がない unicode 独自の文字のことを言う。第二水準を超える難解な漢字や、特殊な学術記号などがそうだ。
 略字や正字ならば、対応する同義のJIS文字(字体差だけがある文字)に置き換えることも可能だが、一般の unicode の文字では、そうは行かない。これらをどうしても使いたいときには、 unicode の文字を使うしかない。
 ただし、必要度が高い分、基礎的なので、あまり注意しないで使える。Windows98 の unicode フォントにも入っており、Windows98 以降の環境では使える。Mac などでも使える。あれこれと思い煩う必要はなく使える。ただし、利用頻度は高くないはずだ。(難解な文字や学術記号がほとんどなので。)

 (β) 字体差のある unicode 文字。
 同義のJIS文字があって、異なる字体の文字が unicode に追加された、という場合がある。もっとはっきり言えば、「正字の追加」である。JIS文字は略字で、 unicode 文字は正字だ、という場合。
 正字は、利用したくなる場面がけっこう多い。しかしながら、文字種によって状況が異なるので、注意が必要だ。安全な文字と、危険な文字がある。

 (β-1) その正字はもともと unicode にあった。[(α)に含まれていた。]
     これは、(3) の(b)の正字(使うべきでない正字)だ。
     略字で示すと次の通り。(29字)
       唖 焔 鴎 噛 侠 躯 鹸 麹 屡 繍 蒋 醤 蝉 掻 騨
       箪 掴 填 顛 祷 涜 嚢 溌 醗 頬 麺 莱 蝋 攅

     これらは、(α)に含まれているので、特に注意せずに使える。安全。
     とはいえ、 unicode であることの制約は免れない。
     (「鴎」や「騨」は、ここに含まれている。)

 (β-2) その正字は新たに追加された。
[(α)に含まれていない。]
     これは、かなり面倒で、次の4通りがある。

   〈i〉  (3) の(c)の正字。(簡易慣用字に対応する正字)
     正字を使いたいが、略字も国語審議会で許容されている。
     略字で示すと次の通り。(9字)
       倶 剥 呑 嘘 妍 繋 屏 并 痩
     これらの正字は、変換表に示してある。
     このように、使おうと思えば使えるが、見えない場合もあるようだ。
     どうしても使いたい場合を除き、簡易慣用字で我慢するのが無難。

   〈ii〉  (2) の (C) (俗字)に対応する正字。
     特に正字を使う必要はないし、使うべきでない。普通は俗字が使われる
     のだから、俗字を使えばよい。俗字を示すと、次の通り。(1字)
       叱

   〈iii〉  Vista で字体が変更された正字。
    たとえば、「さんずい」+「墨」は、XP 標準版では略字になるが、
    XP の新フォント版および Vista では正字になる。
    これは目立つ字体変更だが、他にも小さな変更を受けた9字があり、
    計 10字。この 10字は、変更は微小なので、新たな問題は少ない。
    特に気にしなくていいだろう。(α)に準じる扱いとなる。
    なお、この 10字の字形については、下記サイトの[図4]を参照。
    → http://itpro.nikkeibp.co.jp/article/COLUMN/20061211/256519/

   〈iv〉  常用漢字に対応する正字。   《 重要 》
    「常用漢字に対応する正字」とは、いわゆる「旧字」のことだ。
    人名の漢字に使うこともできる文字で、非常に重要な文字である。
    新字体で示すと、次の通り。(104字)
    侮併僧免勉勤卑即喝嘆器塚塀増墨寛層巣廊徴徳悔慨憎懲戻掲
    撃敏既晩暑暦朗梅概横欄歩歴殺毎海渉涙『渚』渇温漢瀬煮状
    研碑社祉祈『祐』祖祝神祥禍『禎』福穀突節緑緒縁練繁署
    臭著薫虚虜褐視諸謁謹賓頼贈逸郎都郷者『猪』『琢』瓶

    録錬隆難響頻類黄黒

         ※ 『 』内の 渚 祐 禎 猪 琢 の5字は、(旧)人名漢字。
           それ以外の 99字は、常用漢字。
         ※ これら 104字について、字形差などの解説は、下記。
       → http://www.aozora.gr.jp/newJIS-Kanji/gokan_henkou_list.html

    さて。これらの 104字は、重要度がかなり高いが、非常に注意が必要だ。
    1,2,5行目(64字)は、 XP では使えないようだ。( XANO明朝でも。)
    つまり、これらの文字を Vista から XP にもってくると、(場合により)
    文字消失することがある。(限定的な形でのみ使える。)
    3行目と4行目(研〜郷:40字)は、大変だ。これらは Vista 上で
    unicode として入力すれば大丈夫だが、( Vista または XP 上で)
    シフトJISとして入力した場合にはダメだ。(なぜなら X 0213 ではなく
    X 0208 だから。)なお、 Vista 上で unicode として入力した場合には、
    XP 上にもってくると、文字消失する。一方、Vista または XP 上で、
    シフトJIS(X 0208)として入力すると、これらの文字は機種依存文字
    となる。具体的には、次の機種依存文字になる。
      硏碑社祉祈祐祖祝~禍禎穀突節冊緣練
      繁署者臭著虛虜褐視ゥ謁謹賓ョ贈逸カキク

    つまり、3行目と4行目の文字列の正字にはならない。
    一方、これらの文字列を、シフトJIS( X 0213 )として入力すると
    (たとえば XANO明朝で入力すると)、3行目と4行目の文字列の
    正字になるが、それを X 0208 の環境に持ち運ぶと、文字化けする。
    つまり、上記の文字列(機種依存文字)になる。
    ( ※ 文字化けの例を示す。 たとえば、「郎」の正字を機種依存
       文字で入力して、JIS2004 のフォントに変えると、「魚老」に
       なる。「郎」の正字を JIS2004 で入力して、機種依存文字に
       変えると、「耗−毛+禺」になる[らしい]。双方向の文字化け。)
    ( ※ ここでは、「フォントを変えると文字化けする」というふうに
       なっている。これはなぜかというと、JIS2004 がもともとそう
       いうことを狙った狂気的な規格であるから。もちろん将来的には、
       そういう狂気的なことを排除した規格が定められるべきだ。)
    ( ※ 将来的に、JIS2004 に取って代わる新規格ができた場合には、
       この40字については、機種依存文字の方が標準的になるはずだ。
       すると正字の方が「文字化け」していることになり、大変だ。)

    結論として、この 104字については原則として使うべきではない。
    1,2,5行目(64字)は、文字消失するので、当分の間、使うべきでない。
    3行目と4行目(40字)は、文字化けするので、永遠に使うべきではない。

    この40字は、「絶対に使用禁止」として、使用厳禁するべきだろう。

   [ 補足 ]
  余談ふうに述べると、必ずしも使用禁止しなくていい文字がある。それは
  Windows の機種依存文字として規定されている「常用漢字の正字」(旧字)
  だ。これらは、機種依存文字として旧来から Windows で使えるので、特に
  使用禁止する必要はない。通常の機種依存文字と同様の扱いになる。
  具体的に言うと、上の 104字中の次の 17字だ。
     横寛郷黒緒諸祥神瀬増都徳福頼緑朗郎
     膻𥶡蟬鄢虬「蘒藭荑筯觥紱蘄褚䖝耦觔
     筯𥶡紱耦膻荑藭蘒蘄䖝虬蟬「褚觔觥鄢

  1行目は新字である。2,3行目は正字(機種依存文字)である。
  2行目・3行目は、同じ文字集合で、順序だけが異なる。
  2行目・3行目の 17字は、機種依存文字としてなら、かろうじて使える。
  ( unicode を指定できる場合には、文字化けの恐れもなく正常に使える。
      → 具体例 : Wikipedia の「常用漢字の異体字」一覧 )
  一方、残りは、なるべく使用禁止にしたい。次の 91字(の正字)がそうだ。
    逸謁縁黄温禍悔海慨概喝渇褐漢器既祈虚響勤謹薫
    掲撃研穀殺祉視煮社者臭祝暑渚署渉状節祖僧層巣
    憎贈即琢嘆猪著徴懲塚禎突難梅繁晩卑碑賓頻敏瓶
    侮併塀勉歩墨毎免戻祐欄隆虜涙類暦歴練錬廊録

  なお、これらの文字(の正字)には、前記の 40字(研〜郷)と重複するもの
  と、重複しないものとがある。重複するものは、文字化けの可能性があるの
  で、使用厳禁となる。重複しないものは、(文字消失の可能性はあるが)
  文字化けの恐れはないので、使用厳禁というほどではない。制限された形
  でなら、使ってもいい。
  実際に HTML で使える例を、次に示す。(40字との重複は考慮していない。)
     → 変換表2 (上記の 91字中の 66字の正字)
    (ただし、環境によっては文字が見えない。また、順序は unicode の
    順に並べられているので、略字による順序[逸謁縁・・]とは異なる。
    また、フォントは指定していないので、書式は統一されていない。)
    
   〈v〉  人名漢字に対応する正字。
   人名漢字に対応する漢字としては、私の調査(略字&正字)では、次の
  34字が掲げられている。(略字で示す)
    〈拐喝嫌溝遮逝栓濯棚塚扉頻泡癒慧渚梢翠琢那遼
     皓翔迪 昂 采曙黛啄巽柊耀蓮媛〉

   これらの文字(の正字)もまた、常用漢字に対応する正字と、同様に位置
  づけられるはずだ。ところが、ざっと見た結果、これらの正字は存在して
  いるとは言えないようだ。
   たとえば、「渚」と「琢」の正字ならある( → 出典 )。だが、「啄」の正字は
  ないようだ。(私の見落としかもしれないが。ただ、MS-IME2007 では、
  「たくぼく」でも「ついばむ」でも、「啄」の正字は出なかった。一方、「繁雑」
  の「繁」の正字は、「はんざつ」で出た。)
   というわけで、「常用漢字に対応する正字」ならば、 unicode に存在
  すると言えるらしいが、「人名漢字に対応する正字」は、 unicode にも
  存在しない文字があるようだ。(断言はできないが。)
   なお、まさしくそれらの正字がないとしたら、ここでも JISの委員会は
  失策をやらかしたことになる。私が提示しておいた上記のリスト(34字)
  のチェックを怠ったことになるからだ。たった 34字のチェックを。
  ( ※ なお、これらの文字の正字は、「包摂」概念ですでに unicode に
  取り入れられていた、ということかもしれない。実際、「拐塚頻泡琢黛啄巽」
  の8字は、繁体字フォントの SimSun で表示すると、正字になる。残りの
  「喝嫌溝遮逝栓濯棚扉癒慧渚梢翠那遼皓翔迪 昂 采曙柊耀蓮媛」という
   26字は、略字のままであるようだ。)
  ( ※ 人名漢字の正字がない 34字のうち、この26字については、unicode に
  文字がないのなら、正字を追加するべきだろう。一方、残りの8字について
  は、略字から正字に字体を変更する、というのもありかもしれない。どうせ
  人名用の漢字は 983字も追加されてしまったのだ。[ → 出典] とすれば、
  (旧)人名漢字だけを略字にする必要はないから、あらゆる人名漢字を全部
  ひっくるめて正字を標準とするのもいいかもしれない。もしそうするとした
  ら、上記の8字は、「字形の変更」の追加分となるべき文字だ。)
  ( ※ ただし機種依存文字に、「塚」の正字「筭」がある。つまり、両者は
  別々の unicode 文字だ。これを差し引くと、上の8字は7字に減る。)

 (β-3) 正字でないのに新たに追加された文字。[(α)に含まれていない。]
   これは、特殊な人名異体字(等)だ。読むこともできないような変な文字だ。
   マイクロソフトによると、こういうのが 698字もあるという。( → 02月03日
   それらの文字の収まっている領域は、第3水準と第4水準の双方がある。
   第4水準についてなら、下記サイトを参照。細かな話がいろいろとある。
     → http://itpro.nikkeibp.co.jp/article/COLUMN/20061221/257533/
    ( 図5〜7の183字は、Vista では見えるが、XP 標準版では文字消失、
    とこの文書に書いてある。だが、実際には、XPでも見えなくはない。
    XP 標準版では見えないが、MSの新フォントをインストールした環境
    では、ちゃんと見える。図9のサロゲートペアの文字の「ノ−」のような
    部首も、「^」のような部首も、新フォントを入れた XP で読み取れる。)

   ともあれ、これらの特殊な人名異体字(等)は、使うべきではない。
   機構上は使えるが、使う必要はないし、使えばトラブルが起こりがちだ。
   あくまで個人的に文字を印刷するぐらいの用途に留めておくべきだろう。
   情報交換に使うのは厳禁にした方がいい。
    ※ これらは、デメリットが大きい割に、メリットが非常に少ない。
      使った方がいい場面というのが、ほとんどない。趣味的な文字。
    ※ そもそも、これらは、書き間違えの固定された誤字がほとんどだ。
      大漢和字典・康熙字典にもないし、普通の人には判読できない。
      文字と言うよりは、一種の図柄(花押)のようなものかもしれない。
      それは言い過ぎかもしれないが、必要度は低い。特殊な異体字に
      ついては、「画像で済ませる」という方法もある。下記を参照。
        → 02月03日のコメント (2007年02月04日 20:40)

 ──────────

 話が長くなったので、文字コードとファイル形式についての話は、次項に回す。
posted by 管理人 at 21:56| Comment(6) |  文字規格 | 更新情報をチェックする
この記事へのコメント
XP 版の MS明朝・MSゴシックの新フォント(字形の変更がなされて正字が使えるもの)は、すでに公開中。
(URLは自分で探してください。)

ファイルサイズは、フォントだけなので、たいしたことはない。(8MB)
インストールは、フォントをインストールするだけなので、簡単だ。
Posted by 管理人 at 2007年02月08日 10:17
[ おまけ ]

 本項の全体を眺めてみると、次のことがわかる。
 正字でまともに使えるようになったのは、「字形の変更」をした文字だけだ。「文字の追加」をした分は、とうてい使えたものではない。
 このことからして、「字形の変更」がいかに妥当な方法であったかがわかる。仮に「正字の追加」で正字が導入されたなら、それらの文字は「使いたくても使えない文字」であり続けただろう。
 具体的に言えば、初めの方にある 122字は間違ったままの略字がいつまでも使われ、正しい文字は(最後の 104字のように文字消失・文字化けの危険があるので)「使えるけれども使ってはならない文字」となっていただろう。そうなれば、パソコンの日本語環境は、「正しい文字を扱えない」という無残なありさまになっていたはずだ。
 「正字の追加」でなく「字形の変更」をしたおかげで、日本語のパソコン環境は「正しい文字を扱える環境」となったのだ。そのことが、今ようやく、はっきりと判明したことになる。
Posted by 管理人 at 2007年02月08日 17:48
ここで記した漢字分類には、著者(南堂久史)が独自に調査した結果がたくさん含まれています。無断引用を禁じます。

部分的に引用するのは構いませんが、その場合は必ず、出典として本サイトの URL を記述してください。

本サイトへのリンク自体は、ご自由にどうぞ。(許可不要。)
Posted by 管理人 at 2007年02月08日 21:34
《 加筆の通知 》

 次の箇所は、かなり加筆しました。

 〈iv〉  常用漢字に対応する正字。 
 〈v〉  人名漢字に対応する正字。
Posted by 管理人 at 2007年02月10日 18:30
> 「喩」は MSゴシックだけで字形の変更をされた

 という文中の記述は間違いだったので、取り消します。
 MSゴシックだけでなく、MS明朝でも変更されています。
 そのことは先の記述で、自分自身で書いたはずなのに、自分で書いたことを誤読していました。すみません。情報量が多すぎて、整理がつかなくなっていました。頭のキャパシティが小さいので。  (^^);
Posted by 管理人 at 2007年02月18日 22:18
本文中の、次の箇所を大幅に書き換えました。

> (B) unicode に新たに正字が追加された 9字。
Posted by 管理人 at 2007年04月01日 12:53
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ