──
分野の指定
前項では、Transformer における「確率」というものが、実は統計的な「頻度」であると示した。
では、その頻度は、どのようにして得られた数値なのか? 大量の文献データを単純に統計的に処理したものなのか?
しかし、単純に統計的に処理すると、サンプル数の多寡によって統計データが歪んでしまいそうだ。たとえば、「中国人の人口が多い」という理由で中国の文献の量がやたらと多くなる……というような歪みが発生しやすい。また、「コンピュータ関係の文献が多い」という理由でコンピュータ学界やコンピュータ業界の文献がやたらと多くなる……というような歪みが発生しやすい。
※ 実は、選挙の統計サンプルを取るときにも、同様の問題が発生するので、選挙予想のときには「層化二段無作為抽出法」という手法を取る。
このような分野の歪み(または偏り)を排除するには、どうすればいいか? 選挙予想における「層化二段無作為抽出法」の手法にならって、さまざまな分野に均等になるように、分野ごとのサンプル量を指定することもできる。そういう方法も有効だろう。(公平であるとも言える。)
だが、もっとうまい方法がある。こうだ。
「さまざまな分野を均等に扱うのでなく、最初から特定の分野に絞る」
たとえば、野球の話題であるなら、野球関連の分野の文献に絞る。音楽の話題であるなら、音楽関連の分野の文献に絞る。……このようにして、特定の分野の文献のみに絞って、そこで頻度を調べればいい。その特定の分野で、頻度を調べることで、言葉の「関連度」の数値がいっそう正確に導出される。換言すれば、そのような言語AIから生成される文章は、特定の分野でよく使われる言葉の使い方をするようになるので、いっそう自然な文章が生成される。たとえば、次のように。
「野球関連の分野の文献に絞って統計的な頻度を調べることで、それぞれの言葉が野球の分野ではどうような関連度をもつかという数値データが得られた。その数値データによって生成された文章は、元の野球関連の分野の文献に似た文章を生成するようになる」
このようなことは、「野球」に限らず、「音楽」「料理」「歴史」などの諸分野にも当てはめることができる。また、それぞれの分野の中で特定の小分野に絞ることもできる。たとえば、「野球」のうちの「阪神」に絞ることもできるし、「高校野球」に絞ることもできるし、「リトルリーグ」に絞ることもできるし、「大谷」に絞ることもできるし、「巨人の星」に絞ることもできる。特定の小さな分野に狭めれば狭めるほど、文献の傾向はいっそう特定されるようになっていくが、一方で、サンプル数は少なくなっていく。
──
このような手法を、言語AIの命令文で用いることもできる。
たとえば、言語AIに、特定の著者の物真似をするように命令することができる。これはちょうど、絵画AIに、特定の画家の物真似をするように命令するのと同様だ。
絵画AIでは、「浮世絵ふう」「ルノアールふう」「セザンヌふう」「モジリアニふう」「ゴッホふう」「レンブラントふう」「フェルメール」「モネふう」というふうに、作風を指定することができる。前に例示したとおり。
→ AIお絵描きの使い方: Open ブログ
これと同様に、言語AIでは、「村上春樹ふう」というふうに指定して文章を生成させることができる。他に、「東浩紀ふう」という改変もある。ともに下記で例示されている。
→ AIもうええわい ? WirelessWire News (Ryo Shimizu )
似せるのは文体だけではない。生成する内容自体を規定することができる。特に有効なのは、「あなたは***の専門家です」と命令文に示すことだ。このことによって、頻度の調査対象となる分野が***に限定されるので、そこでお手本とされた文章から、より専門的な文章が結果的に出力されるようになる。
たとえば、和文英訳を ChatGPT に依頼するときには、「あなたは高度な翻訳家です。文章は上品で洗練された文章を書きます」というふうに指定するといい。そうすると、まさしくそのような文章が出力される。なぜなら、統計頻度を調べる対象が、そのような特定分野の文章だけに限定されるからだ。限定されたサンプルから、特定の傾向を帯びる文章が生成されるようになる。
その文章は、村上春樹に似せた文章になることもあるし、高度な知性的な翻訳専門家に似せた文章になることもある。そして、そのようにして、生成される文書の質をうまく規定することができるのだ。(こちらの要望通りに。)
「馬鹿と挟みは使いよう」と言う。同様にして言語AIも、使う人の使い方しだいで、愚かにもなるし賢くもなる。どうなるかは、使い方しだいなのだ。
※ 次項に続きます。