2026年05月04日

◆ 視覚認識の Transformer

 ( 前項 の続き )
 視覚認識用のAIは、当初は CNN が主流だったが、今では(本来は言語AIである)Transformer が視覚用AIに転用・拡張されるようになった。

 ──

 Transformer は本来は言語AIである。CNN に源流があるとはいえ、あくまで抽象的な概念を扱うためのものであるはずだ。なのに、それが視覚認識にも転用されて、今日では CNN をもしのぐようになった、という意外な流れが生じた。
 現段階では言語AIを転用した一次元の方式が主流だが、将来は視覚専用の二次元 Transformer が実用化されそうだ。すると、見ている対象を人間やトラックであるというふうに認識した上で、それに対する適切な判断や対処をする、という人間的な知的判断もすることが可能になる。視覚と知性の一体化だ。これは自動運転では圧倒的な効果を発揮するようになるだろう。
 そういう話を、AIと交わした。下記。
  → https://gemini.google.com/share/947210685264

 一部抜粋
 あなた:
 CNNと Transformer は、パーセプトロンの使い方に違いはあるか? 視覚と言語の差は? 視覚データ処理に限って説明せよ


 Gemini:

 視覚データ処理における CNN(畳み込みニューラルネットワーク) と Transformer(Vision Transformer / ViT) の違いは、パーセプトロン(全結合層)を「どのように、どの範囲に適用するか」という戦略の差に集約されます。
 CNNにおけるパーセプトロン的な計算は、**小さなフィルター(カーネル)**の範囲内に限定されます。
 Transformer(ViT)では、画像を「パッチ」と呼ばれる断片に切り分け、各パッチに対してパーセプトロンを適用しますが、その後に**自己注意機構(Self-Attention)**が加わります。
 全域的結合: 1つのパッチの計算をする際、画像内の他のすべてのパッチとの関連性を計算します。

 「視覚」と「言語」の差を視覚処理でどう埋めているか
 本来、言語は「単語の並び(時系列)」であり、視覚は「ピクセルの広がり(空間)」です。Transformerが視覚データを扱う際、この差を以下のように処理しています。
 空間を「順序」に変換する
 Transformerは本来「並び順」を処理するモデルであるため、二次元の画像を無理やり**一次元の列(シーケンス)**として扱います。

 Transformerは本来「並び順」を処理するモデルであるため、二次元の画像を無理やり一次元の列(シーケンス)として扱います。 → 視覚専用の二次元 Transformer を開発するといいのでは?

 鋭い着眼点ですね。「無理やり一次元にするくらいなら、最初から二次元の構造を維持したまま処理するTransformerを作ればいい」という発想は、まさにここ数年のコンピュータビジョン研究の最前線で行われてきた議論そのものです。
 結論から言うと、「二次元(空間構造)を考慮したTransformer」はすでにいくつか開発されています

 全体を粗く(低解像度で)認識してから、局所を精密認識すればいい。


 まさにその通りです。その「全体から局所へ」というアプローチは、人間が物を見るプロセス(周辺視で捉えてから中心視で注視する)に非常に近く、現在のAI設計における**「階層型アーキテクチャ」**の核心です。

 視覚認識は、自動運転技術には不可欠だ。今後は大いに発達する。


自動運転における視覚認識の未来、そしてそこでの Transformer の役割は、まさに「動くスーパーコンピュータ」としての進化の核心です。
  ・ 文脈の把握: 「右側の歩行者の動き」と「左側から来る対向車」、さらに「先の信号の変化」を、一つの大きなストーリーとして同時に処理します。
  ・ 活的(かつてき)な予測: 単に「そこに車がある」という static 止的な事実だけでなく、周囲の状況から「あの車は次に車線変更してくるだろう」という dynamic 活的な予測を、広域的な Attention(注意機構)によって実現します。

 
 詳しい話は、上記リンクで。
 


 【 関連項目 】
 すぐ上の話と似たストーリーを、前に考察したことがある。
  → 自動運転車とトロッコ問題: Open ブログ
 反対側車線から、トラックが車線をはみ出して、こちらの車線に入ってきた。
 このままではトラックと正面衝突で死んでしまう! 大変だ! そこであわてて自分でハンドルを操作して、左に逃げようと思った。しかし、左には、集団登校している生徒がいる。このままでは生徒を大量に殺してしまう。どうすればいい? それがいやで、直進していれば、トラックと正面衝突して、自分が死んでしまう。
 あなたはいったい、どうすればいいのか?


      ↓


 あなたは自動運転車に乗ったまま、何もしないでいた。ひたすら左側の生徒たちを見ていた。大変だ、大変だ、と思っていた。すると、右前方からトラックがどんどん近づいてきた。「もう駄目だ! おれは死ぬ!」
 そう思ったとき、自動運転車が勝手にハンドル操作をして、急激に右方向にズレていった。つまり、トラックの走っていた反対側車線に移っていった。あなたはパニック状態になった。「何てことをするんだ! これじゃ、トラックをよけても、トラックの後ろから来る次の自動車にぶつかってしまうぞ! 玉突き事故が起こって、ものすごい大事故になるぞ!」
 そう思っているうちに、自動運転車はブレーキをかけて、停止した。すると、意外なことに、そこには反対車線を走る自動車が1台もなかった。そこにいる自動車は、自分の自動車だけだ。まるで他の自動車がすべて消えてしまったようだ。あなたは、狐につままれたような気分がした。「いったいどういうことだ?」

 そのとき、自動運転車のスピーカーから、声が聞こえてきた。
 「お答えします。自動運転車は、将来を予測しました。反対側車線を走っている自動車は1台もないと、将来を予測しました」
 「どうしてだ? そんな偶然を期待したのか?」とあなたは質問した。
 「違います。必然です。トラックの横腹に他の自動車がぶつかった時点で、事故の発生がわかったので、トラックの後続車は、すべてブレーキをかけて停止します。そうなるだろうと予測したので、反対側車線を走る自動車は1台もないだろうと予測したのです。これは AI による思考能力です」
 「何だと? たったの一瞬でそこまで予測したのか?」
 「そうです。それが AI つきの自動運転車の能力です。自動運転車には、AI 能力が必要だということが、これでよくわかったでしょう。単に過去の学習能力があるだけでは不足なのです。将来に対する予測機能があってこそ、自動運転車は決定的に優秀になるのです」 


 詳しい話は、上記リンクで。

car-ChatGPT.jpg



 
posted by 管理人 at 20:20 | Comment(0) | コンピュータ_04 | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ