Archive

投稿タグ:‘ものまね’

用例ものまね翻訳システム

4 月 8th, 2009

私・側嶋康博(そばしま・やすひろ)は現在、ヒトがものまねをするためのデータを収集整理し、教材として提供することを行っていますが、実は、十数年間、コンピュータを使った翻訳システムや、コンピュータが言語を解析するためのソフトウェアの研究や開発をしていました。

脳機能学者で計算言語学者の苫米地英人氏も、同じ研究室にいらっしゃいました。そこは京阪奈の、完全に自由なアカデミックな世界のことです。

ソフトウェア工学の専門家、音声解析の専門家、音声合成の専門家たちとともに、私たち言語翻訳の専門家が黙々と研究を続けていました。

数十人いる研究員のうちおそらく3分の1くらいは、苫米地氏のように、カーネギーメロン大学や、MIT(マサチューセッツ工科大学)、オックスフォード大などからの短期滞在の研究員たちでした。日本人研究者は、NTT、(当時)KDD、NHKをはじめ、メーカーやソフトウェア会社など私企業からの出向者たちが多くいました。

数人のミーティングであっても、たとえば海外からの研究員が含まれると、自然に、マナーとしても、英語でするようになります。

フランス語圏から来られた方でも、英語が研究所の共通言語となりました。韓国や中国からの人たちもいましたが、もちろん、英語での会話です。

研究員は毎月出入りがあり、短い人は2~3か月くらいで成果をあげて本国へ戻られていました。

実は、それより前、1980年代から、日本の国家プロジェクトとして京都大学でMuという機械翻訳システム開発があり、長尾教授(後に総長)、辻井助教授(現東大教授)らとともに、通産省・科学技術庁・文部省、民間が一緒になって集中的な研究を進めていました。

私はアフリカから帰国後就職した通訳・翻訳などを扱う言語専門会社の立場で、機械翻訳システムのための辞書データを作る仕事をそれまで数年間かかわってきていました。

さて、この音声翻訳システム研究では、私は、来る日も来る日も、山のような言語データに目を通し、コンピュータが翻訳するための仕組みや基礎データの蓄積や分類・整理を行っていました。おそらく、何万文も目を通したと思います。

一年近く、論文も出さず、目が点になりながら日英対応や文脈などの仮定、文献調査などを続けてきました。

スーパーコンピュータを使って研究している人たちとは違い、ひたすら人間的に「ことば」を調べていました。

ついに出した最初の論文でテーマとしたのが「はい、そうです」の翻訳方法でした。

どうして、そのようなテーマにしたかというと、コンピュータの翻訳精度が非常に悪かったからです。

人間の翻訳結果のデータを調べて真似するソフトウェアを開発しました。システムもすべて自分でプログラムを書きました。

私は「局所文脈処理」と名づけて動かしたシステムは、コーパス(または用例)と呼ばれるデータ(人が訳したり、話したもの)を、類似度計算を基にして「ものまね」するものでした。

かなりの精度(95%くらい)で、「はい、そうです」を

Yes, it is.
No, I don’t.
Sure, I will.

などにスパスパ翻訳していったのを見るのは、もちろん、感激でした。

でも、実はうまく翻訳できるのは当然なのです。人間の翻訳を真似たからです。

うまく真似できないことはもちろんあります。それは、データが不足したときです。

データが十分あれば、類推するコツを教えることで、流れ(文脈)を考慮しつつ、人間に似た翻訳をコンピュータができることを示しました。

この、初め論文を出した国際会議のから、「用例を使った『はい、そうです』の訳し分け方式」は優秀論文に選ばれ、ヨーロッパのジャーナルで出版することができました。

90年代前半のことです。

いま、ふと思い出してこの記事を書きました。ものまね方式は十数年近く前からやっていたのだと。

↓ リンクをクリックしてください 。人気ブログランキングへ一票投じられます!↓
人気ブログランキングへ

admin ちょっとブレイク , , ,

ききまね英語-映像を見ながら10分間音に集中してください

3 月 25th, 2009

「ききまね英語」に興味をお持ちでしたら、きっと「英語のものまね」をがんばってやってみよう、とお考えのことでしょう。

正解です。ぜひ、耳を澄まして、音に敏感になってください。

英語は日本語よりもずっと音の種類があります。日本語では「ア」ですませるものを何通りもの音にします。カタカナの英語にしないでくださいね。そのための「ききまね英語」ですから。

アクセントの違いもとても大切ですが、とくに音色に気をつけます。

よくRとLの発音の違いの話が出ますが、それだけではありません。もっとたくさん音の違いがあります。

ズィなのかジなのかジュなのか、よく聞くとその違いがわかるはずです。

新宿のことを「シンジク」と言う人がいます。原宿のことを「ハラジク」という人がいます。駅員さんすら、3人に1人はそのように発音しています。

もちろん、方言の場合もあるでしょう。でも、今日からは、違いを聞き分け、発音を言い分けましょう!

「手術」のことを「シュジツ」でもOKとする日本語のセンスは、英語的には考えられないものです。

もう20年以上前に国語審議機会で、「十回」を「じゅっかい」ではなく「じっかい」と読むようにされたみたいです。NHKはずっとそのように実践しています。私たちは、このようなとても悲しい日本語の現状の中にいます。

こんな耳に馴らしていくと外国語はすべて聞こえないようにならないか、私は心配です。

ですから、日本語になった英単語が実はやっかいです。
「ゼリー」は間違いです。「ジェリー」です。かわいい発音でしょう?
(暫定的にカタカナ表記していますが、これはブログの都合です。ご了承ください)

日本語で「ロサンゼルス」と呼ぶ地名は「ロス・アンジェルス」です。

英語では音色と音の強弱がとても大切です。

日本語では、音とその高さの変動(抑揚)がとても重要です。

特徴がありますので、とにかく、音色を聞いて真似してみましょう!

↓ リンクをクリックしてください 。人気ブログランキングへ一票投じられます!↓
人気ブログランキングへ

admin ききまね英語的な学習法 , ,