――
音声認識に AI を使うという方式が報道された。ホンダの音声認識システム。
専用のマイクで話しかけるとシステムが変換した文字が2秒でパソコンやスマートフォンに表示される。
試作品を導入した当初は誤認識が多く、会議や朝礼の音声データをAIに学習させて精度を高めてきた。今では英数字を羅列した社内の専門用語なども認識できる。誤認識の確率は 9%まで下がった。一般的なIT大手のサービスは約 21%だという。
( → 聴覚障害をAIでサポート ホンダ「アシモ」の技術活用:朝日新聞 )
AI を使って、誤認識が 9% とのことだ。それを「すばらしいこと」という口ぶりで賛美している。
しかし、これはおかしい。音声認識は、パターン認識であって、ディープ・ラーニングが最も得意とする分野だ。実際、次のように告知されている。(マイクロソフト)
昨年、マイクロソフトの音声と対話の研究グループが、Switchboard 会話音声認識のタスクにおいて、人間と同等の正確性を達成したことを発表しました。これは、プロの書記と同じレベルで単語を認識できるテクノロジを開発できたことを意味します。
マイクロソフトの聴き取りシステムは、人間と同等の 5.9 パーセントの誤認識率を達成しました。その後、他の研究者たちが実施したより複雑な複数の認識プロセスを使用した別の研究により、人間の誤認識率が 5.1 パーセントを達成する必要があるとの結果が得られました。これは、人間がより注意深く努力することで、言葉をより高いレベルで言葉を認識できるようになるという過去の研究結果と一致しています。本日、マイクロソフトの研究チームが開発した音声認識システムによる 5.1 パーセントの誤認識率が達成されたことを発表します。
( → マイクロソフトの研究者が音声認識の新たなマイルストーンを達成 - News Center Japan [2017年8月20日] )
5.9 パーセント ないし 5.1 パーセントの誤認識率。それが、Deep Learning を使うことで、すでに達成済みなのである。しかもその時期は、2017年だ。3年あまりも前のことだ。(今ではもっと向上しているはずだ。)
――
結局、世界の最先端は、Deep Learning を使って、きわめて高精度の音声認識を実現できている。
一方、ホンダは、AI という一昔前の技術を使って、9% という低精度の音声認識を実現して、それを「すごいだろ」と威張っている。自分が周回遅れなのもわからないまま、トップだと自惚れているわけだ。……そして、それを、マスコミが額面通りに受け取って、報道しているわけだ。
※ 詐欺師にだまされているというか、馬鹿の妄想に、馬鹿と一緒になって、浮かれているというか。……ひどいものだ。
[ 付記 ]
音声認識なら、スマホでも音声認識(音声入力)ができる。これの精度はそんなに悪くはないし、しゃべってから2秒もかからないんだが。……ホンダのシステムは、それよりも性能が悪そうですね。スマホにも負けそう。
( ※ といっても、スマホが単体で音声認識しているわけではないが。)
【 関連サイト 】
→ ディープラーニングを利用した音声認識と音声合成
→ 機械学習は楽しい Part 6: ディープラーニングでの音声認識
→ 顔認識や音声認識の誤認識を大幅に低下させる魔法の種とは?
ディープラーニング⊂AI
という文脈なだけなんではないでしょうか。
マスコミだけでなくIT業界でもその認識だと思います。
deep learnigを使用していないAIも、探せば沢山あるはずですが。
ホンダ・リサーチ・インスティチュート・ジャパンは、
Deep Neural Networkを音声認識に利用した研究を報告しています。
https://www.jp.honda-ri.com/publications/1068
Deep Neural Networkを用いた学習とは、要はdeep learningのことです。
今回の音声認識システムにも、おそらくdeep learningが利用されていると思いますが、
直接の証拠は見つけられませんでした。
マイクロソフトの音声認識の方が良い結果でしたが、
日本語と英語の違い、具体的には音声学的な差、学習に利用可能なデータ量の差、
の影響が大きいのではないかと感じています。
何より、原理が根本的に間違っている。この件は、前に詳しく述べた。
→ http://openblog.seesaa.net/article/476630058.html
アシモの技術はものすごく古いものであって、およそ 2000年ごろの技術を発展させただけであり、最新技術からは程遠い。
それに従っているのだから、Deep Learning の技術を使っているはずがない。たぶん フィード・バックの技術を使っただけだろう。
Deep Learning の技術を使う場合には、特徴抽出のフィルタをうまく工夫する必要がある。そのチューニングが大きな差を生む。
ホンダにそれだけの技術的蓄積があるとは思えない。アシモを開発中止したほどだし。
同じソフトで日本語と英語を比べたら、日本語の方が、誤認識は半分以下になっていいはず。
話者によって、またしゃべる内容によって、認識率に差が出るのですね。
考えてみれば当たり前のことですが。
https://saichat.jp/center/compare-voice/
そう思うと、日本語の認識率、英語の認識率を比べるのは、
簡単ではなさそうですね。
今の音声認識は文脈からも判断するので、
同音異義語のエラーもある程度入るはずです。
管理人様の意見に対する反論ではありません。
重要な案件で必須になる、人手による確認/修正を軽減する技術はないのでしょうか。
その割にYoutubeの自動字幕は日本語の精度はかなりひくいですよね。英語はほとんど間違えないレベルまで来ていますが、日本語は文章として認識できないレベルの文が平気で生成されます。
似た発音が多くて、1音ズレただけで、まったく別の語になってしまうことも多い。
英語だと、1音ぐらい間違えても、他の部分がまともなら、補正が効くことが多い。
→ http://openblog.seesaa.net/article/476630058.html
>>アシモの技術はものすごく古いものであって、およそ 2000年ごろの技術を発展させただけであり、最新技術からは程遠い。
ホンダ・アシモが膝関節を曲げているのは、「得意姿勢」という力学原理とメカトロニクスにおける制約とからきています。理論的には2000年どころか、1900年代には成立していたはず。モーターやPCの性能がいくら良くなって力学原理と制約は本質的に変わらないので、現代で最も人材的にも金銭的にも投資されているロボットの一つである、ボストン・ダイナミクス社の2足ロボット、4足ロボットも膝関節は曲げています。
https://twitter.com/Kirika_ma_cos/status/1344060411474145280