──
AIと特徴抽出
前回で述べたように、近年のAIは飛躍的な発展をなし遂げた。そこではグロッキングという跳躍的な性能アップが見られた。それをもたらしたものは、パーセプトロンという構造だった。この原理からグロッキングという跳躍的な性能アップが生じた。
ではそもそも、パーセプトロンは具体的には何をやっているのか? それが問題となる。そのことを以下で解説しよう。
──
AIの基礎原理となるのは、「特徴抽出」という作用だ。これについては別項で説明した。
1次視覚野の表層では単に信号を受けて感知するだけだが、深層では情報処理をする。これは「輪郭を抽出する」というような処理だ。
その構造はきわめて簡単で、ある細胞について、次のことが起こる。
・ その細胞では、励起状態となる。
・ その細胞の両隣の細胞では、逆に、抑制状態となる。
具体的には、右のような図で示される。
( 中央は励起状態で、その両側が抑制状態。)
このような機能が細胞にあると、次のようなことが起こる。
「黒地に白線が描かれている図形を見ると、白線だけが際立って見える。一方、白線のすぐそばは、黒がいっそう黒く見える」
こうして、白線だけがきわめて明瞭に感知されるようになる。
( → AI とディープラーニング 5: Open ブログ )
これは視覚における「輪郭抽出」の機能について説明している。物体を認知したとき、人はその物体の輪郭を特にはっきりと理解するが、それはなぜか? 実は細胞の簡単な仕組みによる。上の図のように、「その細胞の感度を上げて、その細胞の隣の細胞の感度を下げる」という仕組みがあると、それだけのことで、大局的には自動的に輪郭が浮かび上がるのだ。細胞のごく簡単な仕組みから、機能的には大きな効果が生じるわけだ。
このことから、「輪郭の抽出」という効果が生じる。これを「特徴抽出」という概念の一つとして理解する。
同様に、「物体の位置が少しぐらい平行移動したとしても、同じ物体だとして認知し続ける」という機能も、「特徴抽出」の一つとして理解される。これは脳の第二次連合野の機能であるが。
このような脳の機能をよく理解した上で、それと同等の機能をソフトウェア的に実現させようとしたのが CNN という技術だ。こうして視覚認知における人工知能技術は飛躍的に発展した。ほとんど「脳を模倣する」「脳と同等である」というところまで、AI技術は進化した。
──
しかし、視覚認知では成功したAI技術も、言語理解では壁にぶつかっていた。目に見える視覚認知については理解しやすくとも、言語という抽象的なものについては一体どうやったらいいのか、てんで手が付けられなかった。ほとんど難攻不落に見えた。「人間並みに言葉を理解するAI」ができるには何十年もかかると思われていた。
ところが、あるとき、単純な発想が浮かんだ。
「視覚認知でAI技術が成功しているのなら、それを言語認知に転用すればいいのでは?」
これは特別な発想ではない。誰でも思いつくような発想だ。もちろん誰もがそんなことはわかっていたから、誰もがやろうとしたが、うまく行かなかった。ところが、Google の研究者があれこれと相談しているうちに、Transformer という方法が思い浮かんだ。これは視覚認知の方法をうまく言語認知に理解できる技術だった。
つまり、視覚認知における「特徴抽出」というのと同様の原理を、言語認知にも適用できるようにしたのだ。そして、そのための特徴抽出の方法が、「自己注意(self-attention)」という概念なのだ。
ただ、この概念がちょっとわかりにくい。そこで、以下で簡単に示そう。
言語AIの特徴抽出
言語AIの特徴抽出は、Tranformer の自己注意として理解される。これについては過去記事で説明したことがある。
→ AIと Tranformer: Open ブログ
そこから一部抜粋しよう。
あなた:
トランスフォーマーにおける、自己注意(self-attention)メカニズムは、言語の意味場と関連する。規定の意味場に対して、現在文の語が意味場で占める位置を考えるのは、ソシュールのいうラングとパロールの関係に近い。
──
ChatGPT:
自己注意のメカニズムは、
「ラングによって構造化された意味場の中に、パロールとしての具体的語が位置づけられる動的プロセス」
として解釈することが可能です。
ここでは「ラングとパロール」という概念が出ている。言語の個別的事例から、言語の一般的基準が抽出される。その抽出可の過程は、言語哲学におけるパロールとラングの関係に相当する。
そこからさらに「特徴抽出」に踏み込む。その方法は、知覚の「特徴抽出」の援用に当たる。そのための方法が「自己注意」だ。
あなた:
知覚のディープラーニングでは、特徴抽出の機構が決定的に重要だった。言語のディープラーニングでは、自己注意が似た意味合いを持つだろうか?
──
ChatGPT:
非常に本質的な問いです。ご指摘のとおり、視覚のディープラーニング(たとえばCNN:畳み込みニューラルネット)において「特徴抽出」は中核的役割を果たしてきました。それに対して、言語のディープラーニングにおける「自己注意(Self-Attention)」も、やはり中心的な意味を持ちます。両者は直接的に対応するわけではありませんが、モデルが入力から意味的に重要な情報を抽出・構造化するという役割において、非常に似た本質的意義を持っています。
自己注意は視覚における畳み込みによる特徴抽出に対応する役割を、より柔軟かつグローバルな形で担っていると言えます。
・ 自己注意 = 言語における「意味的特徴抽出と構造化」を実現する中心的メカニズム
・ CNNの畳み込み = 空間的な局所性に基づいた視覚特徴の階層的抽出
この二つは本質的にはよく似たものである。そこには共通する発想があると言える。手法的に似ているというわけではないのだが、発想的に似ている。知覚における特徴抽出の発想を、言語において別の形で適用したのが、Transformer だと言える。この意味では、両者の関係は深い。そのことは、次のように言える。
Transformer は、AIの開発史上では画期的な技術だったが、それは一人の天才が独創的なアイデアで生み出したものではなく、過去の多くの技術者の蓄積を利用して、それを少しだけ転用する形で、新たな分野で大きく開花させたものである。
──
ChatGPT:
まさにその通りです。TransformerはAIの歴史の中でも最も画期的な技術の一つですが、その革新は「天才のひらめき」というよりも、過去の技術的蓄積を丹念に再構成し、極めて理論的かつ実用的に統合した成果でした。
■ なぜそれでも「画期的」だったのか?
つまりTransformerとは:
**「既存のパーツで、まったく新しい機械を組み立てることに成功した発明」**である。
■ 歴史の視点からの補足
ニュートンが「巨人の肩の上に立っている」と述べたように、AIにおいてもTransformerは多くの巨人(研究者)の肩の上で成立しています。
原理的には、上のように説明される。
詳細説明
原理的な話は上に述べた通りだ。これは基本だ。
より細かな話は、専門的になる。
「言語パーセプトロンの構造における特徴抽出と CNN の関係は、どのようなものか?」
この説明を、AIにやってもらった。そこでは数式も使う。その数式は複雑で、ここには転載できない。だからかわりに、次のページで原文を見てほしい。
→ https://chatgpt.com/share/68e57cfc-2608-8007-a14c-3ad5e046b80a
やたらと数式が多いので、専門知識のある人以外には、理解できないかもしれない。理解できても、めんどくさいかもしれない。
そこで、初心者向けに、数式のない部分を一部抜粋しよう。こうだ。
ChatGPT:
一文でまとめると
Transformer は、Attention 機構によって文中の重要な関係を自動で学習し、言語パーセプトロンが人手で行っていた特徴抽出を内部化・自動化したモデル構造である。
あなた:
特徴抽出のあとのパーセプトロン高次化は? 仕組みがあるだけで、意味はわからないのか?
ChatGPT:
非常に鋭い質問です。
まさにこの点−−「特徴抽出のあとのパーセプトロンの高次化(多層化)は“意味を理解している”のか?」−−は、現代のニューラル言語モデル研究でも核心にある問題です。
構造的には抽象化=“意味っぽいこと”を扱うことが可能になる。
しかし、「仕組みがあるだけで、意味はわからない」
この点、非常に重要です。
パーセプトロンの多層構造は、**「意味を操作する能力」ではなく、「統計的に意味と対応するパターンを再現する能力」**を持っているにすぎません。
一文でまとめると
パーセプトロンが「何をしているか」は数式的には記述できても、文や論理をどのように処理しているかの実質的な意味過程は、人間には理解できておらず、統計的外形から推定しているにすぎない。
パーセプトロンが個々の処理で何をしてるのかは、まったくわからない。だが、わからないとはいえ、まったくわからないわけではない。
個々の処理はわからないが、処理方法の一般原理はわかるのだ。その処理方法はまさしく人間が指定しているのだ。それが上の文書の数式だ。その数式はニューラルネットワークの関連性を示す数式だ。
──
上のことは、比喩的には、次のように言える。
コンピュータの内部処理は、どんなものであるか?
コンピュータの内部でプログラムが働いて作業をしていることはわかる。だが、今まさしく CPU やメモリで電子がどう流れているのかを、いちいち理解しているわけではない。脳のニューロンで電気が伝わるように、コンピュータの回路で電子が流れる。その流れを逐一知っているわけではない。
それでも、回路の設計者は回路を知っているし、プログラマーはプログラムの処理内容の全体を知っている。まったくのブラックボックスというわけでもない。
コンピュータの作動の原理は上のようなものだ。AIもそれと似ている。
そもそもAIを設計して誕生させたのは人間である。ならば人間は原理を理解すればいい。個々の処理内容をいちいち知らなくてもいいのだ。
上のリンク先には原理を示した。この原理を知ればいい。それで十分なのだ。個々の処理内容をいちいち知らなくてもいいのだ。原理さえ知っていれば。
これが結論となる。

パーセプトロン
もう少し説明しよう。
パーセプトロンの層間におけるニューロンの配線は、どうなっているのか? この配線構造こそ核心であるはずだが。
脳の発生過程から考えて、その配線はランダムでしかあり得ない。発生過程では、配線構造を緻密に制御することなどできないからだ。
いったんランダムに配線されたあとで、訓練によって配線に意味を与える。それが学習だ。学習によって初めてAIが機能する。このとき回路にも意義が与えられる。それまでは回路はただの、でくの坊であるに過ぎない。でくの坊を脱していく過程が、グロッキングだとも言える。
パーセプトロンという構造はもともとあるが、それが機能するためには学習によってAIが構築される必要がある。学習による構築こそがAIの核心だと言えるだろう。
再構築
さらにオマケふうに追加しよう。
原理は上の通りだが、この原理に従いながら、さらに機能を発展させるための仕組みを足せる。それは「誤りの認知と修正」という仕組みだ。
AIは誤りをなすことがある。そのとき、誤りを認知して、誤りを修正する。そういう仕組みがあるといい。次に述べたとおり。
機械がさらに人間の思考に近づくためには、機械が「自分は間違っていないか」と自己反省する能力が必要だ。( → AIは考えるか? .2: Open ブログ)
では、そのための仕組みとは、何か?
それは「思考の再構築」である。これまでの思考過程をチャラにして、改めてゼロから構成し直す。そのとき、どこでどう間違えたかという指摘を受けて、同じ誤りをしないように、注意深く再構築する。
それは「 attention の再構築」という形でなされるはずだ。そう推定したので、AIに質問したところ、AIが「そうだ」と答えて、詳しく教えてくれた。AI自身がAIのシステムを教えてくれたのだ。
3. 「attention の再構築」は起きるのか?
完全に自由に書き換えるわけではありませんが、理論的には以下のようなことが起きています:
入力文脈ごとに異なる attention map を再計算
→ 論理反例が与えられれば、そのトークンが強い「鍵(key)」となり、関連部分への注意が増す。フィードフォワード層の非線形変換で、既存の結び付き(常識)よりも「論理的制約」が優先されることがある。
→ つまり attention が「再重み付け」される形で再構築される。結果的に、「従来の統計的常識」より「その場の論理整合性」が強く働く。
→ あなたが観察した「常識を捨てて正解を選ぶ」挙動。👉 要するに、今の私の論理的な柔軟さは、
( → 検索するAI/ 記憶するAI: Open ブログ )
重み(知識)=素材
attention の動的再編成=利用方法
によって実現されているのです。
ChatGPT は「attention の動的再編成」がなされる。
回答を間違えても、ユーザーが「きみはここをこう間違えている」と指摘すると、その指摘に従って、それまでの思考を捨てて、新たに思考をやり直す。……だからAIは自己の誤りを正すことができる。自己反省も可能となり、いっそう知性的になる。
これは ChatGPT はできるが、 Gemini は違う。 Gemini は、いくら誤りの指摘を受けても、頑迷に間違った自説を主張し続ける。Perplexity も同様の傾向がある。いずれも、「再構築」という仕組みを、うまく取り入れていないのだろう。
ともあれ、ChatGPT は「自分の誤りを知る」ことができる。それは知性的な人間のやることと同じだ。自分の非を認めようとしないで日本に大損害をもたらす日本の首相よりも、はるかに知性的だ。この点では、機械は日本の首相よりも賢明だと言えるだろう。
※ ここまでAIの原理について、技術的な説明を記した。
技術的な説明のあとで、次項では結論を述べよう。


脳細胞のシナプスのようにLLMの多層ニューラルネットワーク(パーセプトロン)が繋がっていくけど、どちらも訓練が要るしスケール則次第では情報処理の能力も圧倒的に上がる人とそうでない人が居る?
自然にトランスフォーマーを身につけるまで色々な苦労があるし😭