──
AIの基本原理は何か? これが、はてなブックマークで話題になっていた。二つある。
@ https://anond.hatelabo.jp/20250930225212
A https://anond.hatelabo.jp/20251001152931
前者は、「統計的に次の単語を予測しているに過ぎない」という初歩的見解をまず紹介する。次に、この解釈を否定して、かわりに、こう説明する。「それを、高次元ベクトル空間にぶち込んだら、そこから意味理解や推論までやってくれました」と。……しかしこれは、最初の理解よりも、もっとひどい。
ブックマークコメントは下記にある。
→ https://b.hatena.ne.jp/entry/s/anond.hatelabo.jp/20250930225212
これは上記見解を否定しているが、これらの批判もまた、「統計的に次の単語を予測しているに過ぎない」という最初の初歩的見解をなぞっているだけだ。話が戻っただけで、ほとんど何も言っていないに等しい。
後者の記事は、さまざまな専門書を紹介している。だが、ブックマークコメントでも指摘されたように、これらの専門書は Transformer 以前のものだ。Deep Learning 以前の話しかない。まだニューロコンピュータと呼ばれていたころの古い技術の話だけであり、近年の飛躍的発展が起こる以前の話だけだ。肝心のキモが抜けている。これでは、ネタの載っていない寿司みたいだ。
──
以上で解説を紹介したが、どれもダメだ。そこで私がまともな話を示そう。といっても、詳しく示すと長くなるから、本項では簡単に示す。
要約を示すというよりは、過去の解説記事への紹介を示す。以下ではざっと簡単な話を示すが、そこから先の話は、リンク先の詳細記事を読んでほしい。そうすれば、いっそう詳しい情報を得られる。
パーセプトロン
AIの基本原理は、何か? 人の脳を模倣したモデルだ。
もともと「思考とは何か?」という問題があった。これに対して、一つのモデルが提案された。それはパーセプトロンというモデルだ。次の図で原理が示される。

パーセプトロン
パーセプトロンとは何か、という詳しい話は、長くなる。下記を参照。
→ AIが考えるには? .1: Open ブログ
パーセプトロンは仮想世界にある
パーセプトロンは、現実の世界にあるのではなく、仮想世界にあるだけだ。つまり、現実世界で半導体構造をもつパーセプトロンがあるのではなく、そういうものが既存のパソコン(GPU)のなかでソフトウェア的にシュミレートされているだけだ。パーセプトロンはあくまで仮想世界にあるだけだ。
その仮想的なパーセプトロンが演算処理をして、最終的な回答を出す。すると、その回答としての情報は、仮想世界から現実世界に移転する。つまり情報は
仮想世界 → 現実世界
というふうに移転する。このことが大事だ。以下で解説される。
→ AIは考えるか? .2: Open ブログ
多層パーセプトロンは、現実に存在しているわけではなく、GPU 型のコンピューターの上で、仮想的に構築された仮想の存在である。
ChatGPT などのAIは、「考える機械」と言われるが、その機械は、現実世界の機械ではなく、仮想世界の機械である。現実世界の機械は、「考える機械」を仮想的に構築しているだけだ。
AIが仮想世界で推論した結果は、その情報がそっくりそのまま、現実世界のわれわれに伝わる。情報そのものは、仮想世界から現実世界に伝わる。
上記の三点には、ChatGPT が「その通り」と同意している。つまり、AIである本人が「自分のことだ」と認めている。上記文書を参照。
成果
こうしてパーセプトロンというモデルに基づくAIが構築された。それは当初はニューロコンピュータと言われていたが、その段階でもいくらかは成果が得られた。とはいえ、あまりにもエラーが多すぎて、ろくに実用にはならないものだった。
ところがその後、Transformer という新技術が導入された。すると、パーセプトロンに基づいたAIは画期的な成果を出すようになった。徐々に進化してから、あるとき急激に進化して、最終的には、それは人間の脳に匹敵するほどの成果を出すようになったのだ。(2022年〜)
通常の技術は漸進的または段階的な発展をなすものだ。ところが人工知能に限っては、あるとき突発的に飛躍的発展が生じた。
では、それはなぜか、というのがポイントとなる。
通常、それはグロッキング grokking という言葉で説明される。量の発展が能力の飛躍的跳躍をもたらした、ということだ。
Gemini の説明がある。(一部抜粋)
近年、生成AIに代表される人工知能(AI)の進化は、私たちを驚かせる速度で進行しています。この劇的な進展は、一見すると突然変異のように映るかもしれません。しかし、その背景には、長年にわたるコンピュータ処理能力の指数関数的な拡大という「量の蓄積」があり、この量が臨界点を超えたことで、AIは「質的な突発的跳躍(ブレイクスルー)」を遂げたのです。
長年の計算資源の指数関数的な成長を経て、特定の時期にAIの分野で目覚ましい性能向上が確認されました。これは、計算能力という「量」が、特定の臨界点を超えた瞬間に、「知能」という**「質」**へと転化する「突発的な跳躍」として捉えられます。
(中略)
これらは、**「量が質に転化する」**という弁証法的な変化を、まさに現代の技術で証明したものです。計算能力という「量」の継続的な拡大が、AIの理解力、生成能力といった「質」の劇的な向上をもたらしたのです。
( → Google Gemini )
GIGAZINE の説明。(一部抜粋)
以下のグラフは「モジュラー加算を実行するようトレーニングされた小規模なAIモデル」で反復トレーニングを続けた際の、トレーニング回数(横軸)とモデルの出力の誤答(縦軸)をまとめたグラフ。トレーニング回数が1000回に達する前のタイミングで誤答が急激に減り、大きな変化が起きていることがわかります。
モデルは位相変化が起きて誤答を減らすまで、データの処理を記録から汎化へとゆっくりと補間していきます。記録から汎化への補間が終わると、出力結果が劇的に変化、つまりは位相変化が起きるわけです。
( → 生成AIの飛躍的性能アップの秘密「グロッキング」とは? - GIGAZINE )
個人ブロガーの説明。(一部抜粋)
Grokkingとは、学習データに過学習した後に、モデルの汎化性能が向上する現象のことで、「遅効学習」とも呼ばれています。
( → 【論文瞬読】深層学習モデルの『遅効学習』の謎に迫る - Grokkingの新たな発見|AI Nest )
ITmedia の説明。(一部抜粋)
AIの学習では、過学習という現象が発生するからだ。過学習に陥ると、AIモデルは学習するデータに過剰に適応し、汎用的な性能が落ちる。しかしトランスフォーマーと自己教師あり学習を組み合わせた場合、過学習が発生した後もさらに学習を続けると、なぜか精度が急上昇するという。
「ニューラルネットワークは、最初の段階では学習するデータを丸覚えしているらしい。これは過学習にあたる。だが、そこからさらに学習を続けると、近くにあるべきものが近くに、遠くにあるべきものは遠くに、といった構造を学習する」
( → 「これまでと異なる科学の形がある」――AI技術のノーベル賞受賞に、東大・松尾教授が語ったこと - ITmedia AI+ )
最後の「過学習のあとで突発的跳躍が発生するという効果」については、私は次のように推定する。
「このような突発的跳躍が発生するのは、パーセプトロンの高次層の効果が生じるか否かによる。パーセプトロンの効果が次の層に伝わるには、かなりのデータ量が必要だ。入力層から第2層への効果が形成されるまでには、かなりのデータ量が必要だ。第2層から第3層への効果が形成されるまでには、さらにかなりのデータ量が必要だ。第3層から第4層への効果が形成されるまでには、さらにかなりのデータ量が必要だ。……こういうふうにして、第 10層ぐらいの最終層に効果が生じるまでには、かなりの蓄積が必要となる。そして、その蓄積がようやく届いたときに、グロッキングの効果が生じる」
この推定の妥当性について、ChatGPT にお伺いを立てたところ、「その通り」という判定を得た。以下に引用しよう。
元の文書は
→ https://chatgpt.com/share/68ede4c3-5e6c-800f-a5fb-9cd521417ddc
こうして、私の推定(多数の情報が整理されて高次層に届くまでに手間がかかるから突発的跳躍が起こるという推定)は、妥当だと認められた。
「量の変化が質の変化に転じる相転移が起こったのだ」というような解釈では駄目なのだ。それは見かけを説明しているだけで、本質的な構造を説明していない。
グロッキング現象の核心を正確に突くには、パーセプトロンという原理を知ることが必要なのだ。
※ さらに詳しい話は、次回で示す。
パーセプトロンの内部処理の話。

