──
ChatGPT のような言語AIが急激な発展を遂げている。それも、ここ数カ月ぐらいの間に、あちこちの研究所でいっせいにそうなっている。技術的な発展というのは、通常はなだらかな変化を遂げるものだが、この変化はあまりにも急激だ。人類が過去の歴史上においてなし遂げたことのすべてを、一挙に跳躍してしまうような急激さだ。それはいわば、猿から人間への進化をたったの数カ月でなしてしまうような急激さだ。……では、それはどうしてか?
このことは大きな謎だが、その理由がおおまかに推察できた。以下の話は、必ずしも絶対的に真理だという保証はないのだが、十分に納得できる話だと思うので、興味があれば読んでほしい。
──
まず、大規模で急激な進歩があったことについては、下記の項目で説明されている。
→ ChatGPTを筆頭に信じられないレベルでAIが進化しているが「なぜAIがこんなにも『急激に』質が良くなったかを」を研究者本人たちですら説明できない - Togetter
ところがこの数年で研究者はびっくりする結果を目にする。
なんと、計算量やデータ量を増やしたところ、
完全に飽和していたと思われた精度が、ある量を境に、急激に改善したのだ。
量の変化が(劇的な)質の変化をもたらした、ということだ。
比喩的に言えば、メモリや CPU の性能を1万倍にしたら、速度や処理能力が1万倍になっただけでなく、まったく新たな人間並みの能力を獲得した、というようなものだ。とうてい説明が付かない。
上の記事にはこうある。
この現象は実はいまだに理解されていない。
なぜこんな転換点が存在するのか
こう述べたあとで、「相転移」という概念を示しているが、それは「似た現象を示している」というだけで、今回の出来事を説明しているわけではない。まったく理解不能な状況にある。
上の説明は、謎を解明したのではなく、謎をきちんと整理して問題として示したもの、と言えるだろう。
謎は残された。
──
その後、新たに次の記事が出た。
→ (数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門
ここでは、次の説明が重要だ。( RNN は古い方法。Transformer は新しい方法。)
RNN では、単語をひとつ処理するごとにベクトル内に情報が蓄積されていくので、 列が長くなればなるほど情報の圧縮が起こっていた。 つまり RNN では、 短い列と長い列の中間表現どうしを直接比較することはできない。 これに対して、Transformer モデルでは中間表現の各要素 (単語) がほぼ等しい量の 情報をもつため、短い列の中間表現は自然に長い列にも拡張できる。
自然言語処理などでは、一般的に以下のような情報を考慮する必要がある:
a.複数の要素間の関係。
b.各要素の順序。
(センテンスの)それぞれの「関係」は、対象となる 2つの単語および 関係のタイプ ("object" など) からなりたっている。Transformer の優れた点は、 学習によってこれらの関係を自動的に発見できるということである。
ここまで理解すると、この処理方法が Deep Learning の方法に適用できると気づく。
──
Deep Learning の方法とは、次のことだ。
その骨子となるのが、人間の脳を模することだ。これは「パーセプトロン」というモデルで結実した。
出典
(この図は、もともと最初の提唱者による図だし、
同じような図はネットのあちこちにある。)
この図に基づいて、データを処理するのが、パーセプトロンだ。
( → AI とディープラーニング 1: Open ブログ )
この構造は人間の脳細胞の構造だと同様だと見なせる。そして、この構造を神経信号のレベルで実行するのではなく、CPU の計算でシミュレートする。(電子のふるまいをシミュレートするように、脳神経の働きをシミュレートする。モデル上で。)
このようにシミュレートすると、現実の脳神経に比べて、圧倒的に高速に処理できる。また、現実の脳神経よりも量的に圧倒的に増やすこともできる。
この方法を画像認識に使って、うまくやったのが、初期の Deep Learning だった。そこでは「画像の特徴抽出」という手法を使うことで、物の認識が可能になった。Google はたくさんの画像を処理することで、「ゴリラ」「自転車」などを機械に認識させることが可能になった。機械が人間的な認識能力をもつようになったのだ。これは Deep Learning の偉大な成果として紹介された。
さらに、この方法を囲碁の処理に使って、うまくやったのが、AlphaGO だ。これは囲碁の碁石のパターンを「配置の特徴抽出」に適用し、さらに時間的な変化をも取り込むことで、ほとんど人間の囲碁能力と同様の力を備えるようになった。いや、それどころか、人間の囲碁能力をはるかにしのぐほどになった。
さらに、この方法を画像の描画に使って、うまくやったのが、最近のイラスト作成AIだ。もはや人間のイラストレーターは不要になったと言えるほどにも、高度な画像作成能力をもつようになった。
→ 好みの画像を探してモデル名やプロンプトをサクッと確認できるAIイラスト検索&投稿サイト「MajinAI」
さらに、この方法を言語処理に使って、うまくやったのが、ChatGPT などの言語AIだ。言語の処理をどうやるのか、非常に難問であると想定されたのだが、実際には、他の場合と同様の方法で済むようなのだ。そして、それを実際に適用したのが、今回の言語AIなのだ。
これはどういうことか? 実は、方法自体は、今までの方法( RNN )と大差はない。 RNN というのは、何十年も前(研究初期のころ)からあったもので、手法としては初歩的なものだ。ただし、それを現実に使おうとすると、コンピュータの処理能力の関係で、ある程度の「圧縮」が必要となった。これは、比喩的に言えば、「画像が情報圧縮のせいでぼやけてしまうこと」に相当する。そのせいで、正確さが損なわれた。
ところが近年にはハードウェアの性能が向上した。そこで、圧縮することなく、情報をそのままで扱う方法( Transformer )が出現した。すると、そこでは情報の圧縮がないので、元の情報をそのままの形で扱えるようになった。これは、比喩的に言えば、「画像が情報圧縮のせいでぼやけてしまうことがない」ということであり、そのおかげで、正確さが損なわれなかった。
すると、どうなるか? 比喩的に言えば、従来は「画像がぼやけてしまうので、文字の字画の認識がうまく行かなかった」というようなものだ。一方、新たな方法では「画像がぼやけないので、文字の字画の認識がうまく行く」というようなものだ。
つまり、画像がぼやけるかどうかで、字画認識の成否が左右されるのだ。それ以後の「特徴抽出」という原理は同じでも、その原理を適用する前の段階で、扱うデータが簡略化されているかいないか(ぼやけているかいないか)という差が生じるのだ。そして、そのような差を生じさせる原因が、ハードウェアの能力だったのだ。
──
以上のすべてをまとめれば、次のように言える。
ハードウェアの大幅な向上にともなって、処理量が大幅に増えると、言語AIの能力は質的にとんでもない跳躍をなし遂げた。それはあたかも「量の変化が質的な変化をもたらした」というように見えた。だが、実はそうではない。量の変化が質的な変化を直接的にもたらしたのではない。では、何か?
実は、量の変化にともなって、「簡略化」をしない元のデータを、そのままで扱えるようになったのだ。すると、ぼやけていない素のデータを扱えるようになったので、データを(間違えずに)正確に利用できるようになった。そのせいで、エラーが激減した。その状況で、「特徴抽出」という Deep Learning の共通原理を適用できるようになった。
この共通原理は、従来の方法( RNN )でも利用できた。しかし、共通原理を使う以前の段階で、データが簡略化された不備なものだった。だから、共通原理を使うにしても、その原理をうまく使いこなせなかった。宝の持ち腐れのような状況だった。
しかるに、新しい方法( Transformer )では、簡略化されていないデーターを使えるようになった。おかげで共通原理をきちんと使えるようになった。Deep Learning の能力を十分に生かしきることができるようになった。だからこそ、最終結果では飛躍的な向上をなし遂げるようになったのだ。

出典:ランボルギーニ社
比喩的に言えば、自動車自体は高性能なランボルギーニだとしても、それに食わせるガソリンが従来は粗悪なレギュラーガソリンまたは軽油だったので、ランボルギーニはまともな性能を発揮できなかった。そこで、ガソリンを正規のハイオクガソリンに取り替えたら、ランボルギーニは本来の性能を発揮できるようになった。マシンの性能が向上したからではなく、食わせるガソリンを向上させたから、発揮できる性能が変わったのだ。
ところが素人は、こう判断した。
「高いガソリンを食わせたら、高い性能を発揮できるようになった。ゆえに、ガソリンの価格差が、性能の高さをもたらしたのだ。自動車の性能にとって最も大切なのは、ガソリンの価格である」
いやいや。それは物事の本質を見失っている。そんな認識をしては困ります。
最近の言語AIの性能が飛躍的な進歩をなし遂げたのは、使用するハードのリソースが増えたからではない。使用するハードのリソースが増えたおかげで、RNN のかわりに Transformer を使えるようになったからだ。RNN のままハードのリソースを増やしても、結果はたいして変わらなかっただろう。
量の変化それ自体が、質の変化をもたらしたのではない。量の変化が、使う道具の交替を可能にしたのだ。そして、道具を交替したとき初めて、言語AIはその本来の能力を発揮できるようになったのだ。
逆に言えば、これまではハードウェアの能力に制限されていたせいで、言語AIというものはまともに働いてこなかったのである。ところが、ハードウェアの制限がなくなったことで、Deep Learning の能力は、これまでの画像処理や囲碁処理だけでなく、(超広大な)言語の空間までも扱えるようになったのだ。……それが本当の理由である。
【 関連項目 】
特徴抽出については、過去記事を参照。
→ AI とディープラーニング 3: Open ブログ
→ AI とディープラーニング 5: Open ブログ
絵画の特徴抽出は
→ AI による絵画: Open ブログ
> 最近の進歩はパーセプトロンの図でいえば入力数が大幅に増えたという事でしょうか。
パーセプトロンに入る前の段階の処理工程が、簡略されなくなった、ということです。簡略化されなくなった理由が、処理能力の向上です。処理数が増えたというより、処理能力が増えた。能力のない阿呆がぞんざいな仕事をするかわりに、能力のある達人がていねいな仕事をするようになった。処理数は同じでも、仕事のていねいさが違う。
時計の修理職人が一日にいくつの修理をするか、というふうに考えてみてください。処理数が増えたのではない。
p.s.
ただし、「パーセプトロンの処理可能数が増えたから、入力前に省略しない方法を採用した」というふうには言える。
処理数が増えたというより、処理可能数が増えた。そのおかげで方法を全面変更した。このことが急激な発展につながった。
処理可能数の増え方は、普通の右肩上がりのなだらかな曲線であり、最近になって突発的に向上したわけではない。