用例ものまね翻訳システム
私・側嶋康博(そばしま・やすひろ)は現在、ヒトがものまねをするためのデータを収集整理し、教材として提供することを行っていますが、実は、十数年間、コンピュータを使った翻訳システムや、コンピュータが言語を解析するためのソフトウェアの研究や開発をしていました。
脳機能学者で計算言語学者の苫米地英人氏も、同じ研究室にいらっしゃいました。そこは京阪奈の、完全に自由なアカデミックな世界のことです。
ソフトウェア工学の専門家、音声解析の専門家、音声合成の専門家たちとともに、私たち言語翻訳の専門家が黙々と研究を続けていました。
数十人いる研究員のうちおそらく3分の1くらいは、苫米地氏のように、カーネギーメロン大学や、MIT(マサチューセッツ工科大学)、オックスフォード大などからの短期滞在の研究員たちでした。日本人研究者は、NTT、(当時)KDD、NHKをはじめ、メーカーやソフトウェア会社など私企業からの出向者たちが多くいました。
数人のミーティングであっても、たとえば海外からの研究員が含まれると、自然に、マナーとしても、英語でするようになります。
フランス語圏から来られた方でも、英語が研究所の共通言語となりました。韓国や中国からの人たちもいましたが、もちろん、英語での会話です。
研究員は毎月出入りがあり、短い人は2~3か月くらいで成果をあげて本国へ戻られていました。
実は、それより前、1980年代から、日本の国家プロジェクトとして京都大学でMuという機械翻訳システム開発があり、長尾教授(後に総長)、辻井助教授(現東大教授)らとともに、通産省・科学技術庁・文部省、民間が一緒になって集中的な研究を進めていました。
私はアフリカから帰国後就職した通訳・翻訳などを扱う言語専門会社の立場で、機械翻訳システムのための辞書データを作る仕事をそれまで数年間かかわってきていました。
さて、この音声翻訳システム研究では、私は、来る日も来る日も、山のような言語データに目を通し、コンピュータが翻訳するための仕組みや基礎データの蓄積や分類・整理を行っていました。おそらく、何万文も目を通したと思います。
一年近く、論文も出さず、目が点になりながら日英対応や文脈などの仮定、文献調査などを続けてきました。
スーパーコンピュータを使って研究している人たちとは違い、ひたすら人間的に「ことば」を調べていました。
ついに出した最初の論文でテーマとしたのが「はい、そうです」の翻訳方法でした。
どうして、そのようなテーマにしたかというと、コンピュータの翻訳精度が非常に悪かったからです。
人間の翻訳結果のデータを調べて真似するソフトウェアを開発しました。システムもすべて自分でプログラムを書きました。
私は「局所文脈処理」と名づけて動かしたシステムは、コーパス(または用例)と呼ばれるデータ(人が訳したり、話したもの)を、類似度計算を基にして「ものまね」するものでした。
かなりの精度(95%くらい)で、「はい、そうです」を
Yes, it is.
No, I don’t.
Sure, I will.
などにスパスパ翻訳していったのを見るのは、もちろん、感激でした。
でも、実はうまく翻訳できるのは当然なのです。人間の翻訳を真似たからです。
うまく真似できないことはもちろんあります。それは、データが不足したときです。
データが十分あれば、類推するコツを教えることで、流れ(文脈)を考慮しつつ、人間に似た翻訳をコンピュータができることを示しました。
この、初め論文を出した国際会議のから、「用例を使った『はい、そうです』の訳し分け方式」は優秀論文に選ばれ、ヨーロッパのジャーナルで出版することができました。
90年代前半のことです。
いま、ふと思い出してこの記事を書きました。ものまね方式は十数年近く前からやっていたのだと。
↓ リンクをクリックしてください 。人気ブログランキングへ一票投じられます!↓
人気ブログランキングへ





