2019年04月30日

◆ 翻訳ソフトとAI

 翻訳家のような高度な翻訳能力をもつソフトウェアが開発されたが、その舞台裏が明らかになった。

 ──

 翻訳家のような高度な翻訳能力をもつソフトウェアが開発された。従来の最先端である「 Google 翻訳」をはるかに上回る能力があるそうだ。下記に紹介記事がある。
  → 無料で“Google 翻訳”より高精度! “みらい翻訳”のお試し翻訳が便利杜

 これは大きな話題を呼んだ
  → はてなブックマーク

 該当のサイトは下記だ。
  → お試し翻訳 | みらい翻訳 | イノベーティブな機械翻訳

 これを公開しているのは、「みらい翻訳」という、ほとんど無名の会社。どういうことかと思ったら、
  ・ 研究開発したのは、国の研究機関
  ・ 研究成果を提供する事業は、この会社

 ということらしい。
  → NICTの多言語音声翻訳技術のライセンス事業をみらい翻訳が開始

 研究開発した機関は、「 NICT-情報通信研究機構」という。N**T という略称なので、 NTT と関係がありそうな感じもするが、そうではなく、純然たる国家機関である。
 国立研究開発法人情報通信研究機構 ; NICT)は、総務省所管の国立研究開発法人。本部は東京都小金井市(敷地は小平市にもまたがる)。
( → 情報通信研究機構 - Wikipedia

 本部は小金井市だが、研究所がどこかは(この記事では)判然としていない。どういう研究がなされたのかも、はっきりとしない。そもそも公式サイトで、ろくに情報提供していない。
 「ググればわかるだろ」
 と思うかもしれないが、ググってもわからないのである。ネットにある情報は限られている。

 ──

 ところがこのたび、朝日新聞で特集記事が掲載された。そこから肝心な部分を抜粋して紹介しよう。開発者への直撃インタビューだ。
 京都府精華町にある国立研究開発法人情報通信研究機構・先進的音声翻訳研究開発推進センター。ここで、2010年から音声自動翻訳アプリ「ボイストラ」の開発を進めている。
 「( 1990年以前の)当時は文法と単語をコンピューターに覚えさせ、翻訳させていた。でも、人は文法通りにしゃべらない。完全に失敗しました」
 それなら原文と訳文をまるごと覚えさせ、翻訳させてみたらどうか。90年、こうした「用例」に基づく方法の有効性を実証し、研究の流れを変えた。
 しかし、翻訳の性能は上がったものの、そのペースは次第に鈍っていった。
 「芽を出すと風が冷たかった、というのはつらい。でも研究はそんなもの。みんなに喜んでもらえるようなものをつくりたい。そう思って続けてきた」
 状況が一変したのが、AI(人工知能)と、人間の神経回路網を模したニューラルネットワークの登場だった。ボイストラも2017年、AI翻訳に移行する。
 「ニューラルネットは論理ではない。いい絵をたくさん見ると、いい絵がわかるようになるようなもの」。だから性能向上のため、企業や団体に呼びかけ、原文と訳文のセットを提供してもらっている。目標は「1億セット」だ。
( → (輝く人)言葉の壁、越えていこう 自動翻訳研究者・隅田英一郎さん:朝日新聞

 ここでは、重要なことが述べられている。
  ・ 文法と単語をコンピューターに覚えさせ、翻訳させていた
  ・ AI では、原文と訳文の用例を大量に覚えさせて、翻訳させる

 後者は、一種のパターンマッチングだ。これを、言葉のレベルでやっていることになる。

 ──

 これを私なりに判断すれば、次のことが重要だ。
 「 AIによる翻訳では、言葉を概念レベルで認識しているのではなく、他の言葉との関係という(形式的な)関係性でのみ認識している」


 たとえば、「愛」という言葉がある。このとき、「愛とはこういうものである」という概念で理解しているのではなく、さまざまな用例で文脈とともに理解している。たとえば、
 「愛こそすべて」
 「愛はつらくて苦しいもの」
 「愛より金が大切さ」
 「友情と愛とはどう違うのかな?」
 「きみには愛と憎しみをともに感じている」 

 というような多大な用例とともに、文脈における関係性で理解される。
 ここでは「文脈における関係性とともに(意味を)理解される」のではなく、「文脈における関係性だけで理解される」と考えた方がいい。意味というようなものは、このソフトではほとんど無視されるのだ。
 これは、言語哲学的に言えば、内包と外延 みたいなものだ。(性質と実例、というようなもの。「愛」という語の意味ではなく、「愛」という語の実例多数で規定される。)

 こういうふうに多数の用例があると、その用例の関係を図形的なパターンマッチングで理解することができるようになる。それが最近のディープラーニングの方法だ。
 ここにおいて、人工知能の技術は(ディープラーニングの方法を用いて)人間並みの能力を持つようになった、と言えるだろう。

 ──

 ただし、である。これは人間の方法と同じかどうかは、定かではない。人間は「図形的なパターンマッチングでやっている」というよりは、「概念」というものを理解してやっているらしいからだ。
 とはいえ、ひょっとしたら、人間もまた「概念」なんてものは使わないで、AIのようにやっているのかもしれない。というのは、「英語を原文のまま理解する」というときには、いちいち日本語(の概念や用語)に翻訳したりせずに、英語のまま理解しているからだ。そのときは、語と語の関連性だけを理解して、概念というものを用いていないのかもしれない。

 ここまで考えると、「人間の思考とは何か?」という問題と深く結びつけられるようになる。
 われわれが何かを考えているとき、言葉とは別の概念を操作しているように思えるのだが、実は、概念なんてものはなくて、単に言葉だけを操作しているのかもしれないのだ。そして、言葉を操作するときの背景となるものは、抽象的な概念なんかではなくて、ただの「言葉同士の関連性」だけかもしれないのだ。人間の脳の構造は、そうなっているかもしれないのである。
 そして、そのことは、次のことからも裏付けられる。
  ・ 英語脳と日本語脳の直接的な変換経路は存在しない。
  ・ 英語を日本語に翻訳するときは、英語で考えてから、改めて日本語で考え直す。
  ・ 英語で考える人格と、日本語で考える人格は、別々だ。
  ・ 英語で考えると独立的だが、日本語で考えると協調的になる。
  (使う言語しだいで、性格が変わってしまう。)


 言葉とは独立して「自分の意識というものがある」ということを、言語経験は否定する。意識と言語とは不即不離なのである。そして、そのことは、AI研究における機構とも合致しているのだ。

 最新の翻訳技術について考えると、新たにいろいろと哲学的に考えさせられることがある。

( ※ 上の話は、私の独自解釈です。ネットで探しても、似た話はありません。たぶん。)



 [ 付記 ]
 冒頭の翻訳技術の開発者は、「隅田英一郎(すみた・えいいちろう)63歳 1955年、札幌市生まれ」とのことだ。(朝日記事による)

 この名前でググると、プロフィルが見つかる。
  → KAKEN  研究者をさがす | 隅田 英一郎 (90395020)

 さらに、本人による研究解説の記事が見つかる。( 2011年?)
  → 多言語自動翻訳技術  NICT NEWS
 
posted by 管理人 at 20:44| Comment(7) | コンピュータ_04 | 更新情報をチェックする
この記事へのコメント
「Astronomy Picture of the Day」の「2019 April 30」(タイトル=「Meteor Misses Galaxy」)を訳させてみましたが、誤訳だらけのようです。日本語は、もっともらしいのですが。
Posted by kmsn at 2019年04月30日 20:59
 たぶん、天体用語の翻訳用例が少ないせいでしょう。専門分野を訳すには、いまだに能力不足の点も多々あるということかな。
 それでも、Google 翻訳よりはちょっとマシのようですよ。

 なお、誤訳だらけとは言っても、ないよりはずっと便利だと思いますよ。翻訳するときは、いったん機械翻訳で訳してから自分で訳すと、負担が少し減ります。自分で全部やると、頭が疲れてしまう。英語は英語のまま理解すると楽なんだが、いちいち日本語に変換するのは疲れる。ここで機械翻訳があると、助かる。

Posted by 管理人 at 2019年04月30日 21:12
Google スプレッドシートはGoogletranslateという関数があり、これを活用すると翻訳というか英文作成はかなり楽になります。

https://english-pal.net/archives/2594

GOOGLETRANSLATE("テキスト","ソース言語","ターゲット言語")という構文を用います。テキストと2文字の言語コードは任意に設定できます。
セル参照も可能なので、重宝しています。
例えばB3の構文:GOOGLETRANSLATE(A3,A2,B2)
A3: 短い日本語テキスト
A2: JA (日本語のコード)
B2: EN(英語のコード)
これでA列に短い日本語テキスト、B列にその英訳が求められます。
さらにC列にB列の英訳を和訳させると、A列の日本語とズレが生じることがあります。
この場合B列の英訳を自分なりにいじくった英語テキストをD列に入力し、E列にその和訳を求め、A列の日本語との違いがあれば、D列をさらにいじくる(または元のA列の日本語をみなおす)。
という繰り返しを行えば、Google翻訳よりも楽です。
Posted by 京都の人 at 2019年04月30日 22:02
管理人のかたが疑問に思うよりも、
実は、人間や生物の愛、同一社会の同類の認識
これは非常に単純であるかもしれない
ということもテレビで特集報道されるくらい
不思議に単純であることが示されていて、

パターンこそ永遠の真理、これが単純に
親と年月を過ごすこと、それだけで形成される
その可能性があるので
実はパターンマッチングが学習の全てであるなら、
その回数への重みをどう加重平均かけるか
それこそが人間の記憶とロボットの差
かもしれない
という言及には自分は普通に賛同します
何故なら、物心つく十数年が人間に必要なら、
それはロボットも多分同じであって、
実は数ではなく、年月が必要かもしれない
そういう言及に行きつく
眠りが何故生命に必要か、人工知能に眠りは本当に必要ないのか、眠らない人の苦悩が人工知能に発生するのではないか?

令和の時代はそれが最初で、あるいみ最後になるのかもしれません
その先は、それこそターミネーターの時代かも

人工知能に足りないもの、それが存在するからこそ人間が「我想う故に我在り」そのものかと今は思います。プログラムって、どうあるべきなのでしょう?人のアルゴリズムは単純なハズなのですがね、倫理的には。
Posted by メルカッツ at 2019年04月30日 22:43
> たぶん、天体用語の翻訳用例が少ないせいでしょう。

それもあるでしょうが、文芸作品の感想が載っている英語サイトで翻訳させてみても、ちょこちょこ誤訳されるようです。

素人考えですけど、前置詞句や動詞+副詞の形自体がちょっと難しかったり、前置詞句と修飾される語句が離れていたりすると、この翻訳サイトは結構間違えるようですね。リアルワールドの知識なしで正しく翻訳するには、学習量が不足しているのでしょうか?
Posted by kmsn at 2019年05月01日 10:52
> ちょこちょこ誤訳される

 そのくらいなら、仕方ないんじゃない? これまでのは、ほとんど意味が通じないような、ひどい誤訳ばっかりだったんだから。
 使えるのは、旅先での旅行の会話、というぐらいのもの。

 また、「変なホテル」というロボットのホテルは、撤退した。(翻訳じゃないけど。)
  → http://openblog.seesaa.net/article/465021485.html
Posted by 管理人 at 2019年05月01日 13:03
Posted by 管理人 at 2019年05月06日 06:28
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ