電気電子情報工学専攻 准教授

山本和英

自然言語とは


NTIC:今日はインタビューの時間をいただきありがとうございます。研究室のお名前で「自然言語」とありますよね?自然言語とはどういうことですか?

山本:自然言語とは私達が使っている言語のことです。人間が話している言語のことです。どうして自然という言葉を付けないといけないかといいますと、CとかJavaとかプログラム言語ってありますよね?あれと区別する為に我々は「自然言語」と呼んでいます。アメリカ人が最初に「Natural Language」と呼んでいたので、私達日本人も直訳して「自然言語」と呼んでいるということです。

NTIC:言語学の研究というと、先生は工学系が出来て文系も出来てだったのですか?

山本:いえ、言語というのは文系ではないのです。私に言わせると、パズルを解いているみたいな感覚なのです。パズルは文系ではないですよね?子供の頃から複雑なパズルを解くのが好きでした。言語もそういう風に見えるのです。だから、英語は文の並べ方が難しいなとか、そういうところに興味があるのです。加えてコンピュータにも興味がります。大学に行って2つの興味がくっついたのです。

NTIC:先生の研究はその言語を処理しているのですか?

山本:そうです。コンピュータに私達の普通の言葉を教えているというか、勉強させています。コンピュータに言語能力を持たせているのです。言葉の処理として分かりやすいのは翻訳とかですよね?日本語をコンピュータが英語に直してくれる処理です。それには、コンピュータが言葉を何らかの形で覚えないといけないですよね?それをどうやって覚えさせましょうかという研究をしています、

自然言語処理の歴史

山本:私は人工知能をしたいと思って大学に入ったのですが、人口知能の分野の一部に自然言語処理分野があるよと知り、これだと思って、もう20年以上も研究を続けています。20年以上ずっと研究をし続けると、もうベテランのほうに入ってしまうので、そういった意味で、若い分野なのかもしれないですね。

NTIC:20年も前から世間ではそういうことを要求していたのですか?

山本:されていなかったです。インターネットもほとんどない時代ですから、私達も初めてメールを使い始めて、メールをする相手もほぼいない時代でした。ですが、自動翻訳に関しては50年くらい歴史があります。
  コンピュータの歴史とほぼ同時でした。コンピュータは計算を速くするという目的で作られたのですが、研究者が「あれ、これは他のことにも使えるな」ということで、翻訳をやらしてみようと始めたのでした。最初はロシア語ー英語でした。敵国のロシアが何を考えているのか知りたいというので、アメリカ人がロシア語の論文を英語に直すのが最初の研究の始まりでした。だから、やはり最初は軍需産業なのです。中国が少し危険だなと思い始めたら、中国語を研究し、次はアラビア語だなと続くのです。アメリカはそれに予算がくるので、やはり政治と関わっている分野です。

NTIC:では、アメリカだともっと発達しているのですか?

山本:いや、ほぼ同じです。そんなには変わらないです。アメリカだから技術がすごいというのはないです。

翻訳と検索

NTIC:言語処理をする時、日本語ですと漢字・ひらがな・カタカナとあって難しいですか?

山本:文字の種類はあまり問題ではないのです。コンピュータは10万語でも100万語でも覚えるのは得意ですから。そういう意味では、人間が言語を扱う難しさとは違います。
 コンピュータが日本語を言語処理する時の難しい点は、英語のappleを日本語にする時に、「りんご}や「リンゴ」「林檎」があって、どれを選ぶかは結構難しいです。日本人ならば難なく選んでしまうと思うのです。どれを選んでも意味は通じるので、良いと言ったらどれでも良いのかもしれませんが、だけど何か違いますよね?ニュアンスというのでしょうか。そのニュアンスを伝えたいといった時に、コンピュータにそれぞれのニュアンスを勉強させないといけない。

NTIC:それは統計的にということですか?

山本:そうですね。統計でもいいですし、人間が作ったルールでもいいですよね。昔、そのようなデータがない場合、全部人間が考えていました。この場合は、ひらがなで「りんご」と書くと良いのではないかなと考え、コンピュータに教えていたのです。最近はインターネットのおかけで、色々な言語のデータが手に入るようになったので、それを使って、統計ですることが多くなってきました。
 私も統計的に覚えさせています。まずどんな日本語がどんな英語になっているかということを一杯集めてきます。すると、appleと書いてある英語は日本語で日本語の「りんご」と書いてあることが多いと分かってきます。統計的にそうなっているという情報をたくさん集めてくると、翻訳が出来るようになるのです。

NTIC:Googleの翻訳って、実用化されていないというか、訳されているのを見ていると、これで本当に大丈夫なのかなと思ったりします。

山本:正しくない場合も勿論多いですね。人間が作るような文の作り方をしていないので、統計的にappleはりんごだろう、そして、文のこの位置にくるだろうということばかりを覚えているので、全体的に文を作るということがまだ上手に出来ないのです。長い文になればなるほど、難しくなる。私達から見ると正しくない、怪しいなと思いますよね。人間が出来ることをコンピュータにやらせているので、基準が人間になってしまっていて、何故私たちが出来ることがコンピュータに出来ないのだろうと考えてしまいますよね。ですが、私達は裏で何がどう動いているかをかなり知っているので、実は相当大変なことをしていると思います。

NTIC:そうですね。最初は0と1しかないのですものね。

山本:そうですね。人間がやっていることを、コンピュータにただやらせたいと、そういう仕事をしているので、基準が人間なのです。人間が出来なかったことが、コンピュータなら出来ましたというのとは違っていて、そこを分かっていただけないのは辛いところです。
 検索もそうですよね。全然関係ないようなページが検索上位に出てきたりするので、がっかりしてらっしゃると思うのです。けれどよく考えると10億ページ以上ある中から1ページを見つけるというのは、ものすごく大変な技術です。検索上位も十個の中にあれば、もう充分だと思うのです。10億ページから一瞬にして探すというのは相当大変な技術なのです。それでも人間は、やはり不満を言ってしまうのですね。

自然言語の情報処理(要約)

NTIC:翻訳だけでなく、要約もするのですか?

山本:要約って、あまり皆さんが使う機会がないかもしれません。長い文章を入れると、短い文になって出てきたりします。そういうことも研究としてはもう容認されています。

NTIC:例えばこの論文でたくさんのページがあるのだけれど、2ページ分で要約してくれという命令とかも出来てしまうのですか?

山本:はい出来ると思います。でもまだ使えるようにはなってはいません。出来たらすごいですよね?そういうことを私達は研究しています。

NTIC:キー入力をしないということですか?

山本:それも一部ひっかかっています。それは音声認識と呼ばれている分野で、音声認識の一部分で私達の技術を使わないといけないのです。
 私達は話したことを文字にした後、例えば短く出すとか、英語にして出すとか、そういうことを自動でやりたい。新聞記事を要約する、興味がある記事だけ選んでくれるとか。報道記事って、山ほどありますから、個人が何に興味を持つかというとバラバラですよね?その人の興味のあるものを選んでくれる。何でもやります。

NTIC:文章を読んで理解する、そんなことが出来るのですか?

山本:本当は理解しないといけないのですが、今の技術ですと理解するふりをします。人間みたいな理解の仕方は難しいので、上っ面だけをとらえて、小学生が読書感想文を書くときに、ぺらぺらと全部を眺めて見て、後ろの方だけを使って少しまとめる。あのイメージに近いです。あの時って、あまり深いことは考えてなくて、感想文として書ける部分だけを、見つけて、ちょっと悲しかったと書きますよね?あれに近いイメージです。あれをコンピュータにやらせようとしています。本当の理解はまだまだ先の話かなと思います。ただ上っ面だけやった技術だけでも役立つことってあるので、会社はそういう所だけ切り出して実用化にどんどん持っていっています。それが現状です。

要約の難しさ

NTIC:要約、解説付きを入れるということは、人間の感情とか思考を混ぜた処理をするということですか?

山本:最終的にはそこまでいきたいです。

NTIC:大変ですよね?

山本:そうですね。例えば感情の分析をするということがあります。このメールは喜んでいるのか、怒っているのか、それを自動で判定する技術は様々なところで使えると思います。

NTIC:そこまでやりたい?

山本:はい。やりたいです。私達の技術ってそういうことなのです。言語に関する色々なこと、仕事をさせたいのです。

NTIC:それが出来るというのは、もうすぐなのですか?

山本:一部はもう実用化されています。翻訳等も一部実用化されています。スマホの記事って長く出すと読んでくれないので、記事を短く出す必要がありまして、そういう部分で実用化されてきています。色々なところで、ちょっとずつ実用化されているのです。

NTIC:人間だったら、理解能力や感じるセンスというので大きく変わりますよね?それをコンピュータにさせるというのは、どういった方法でするのかなと思っていました。

山本:大変ですよね(笑)。大変と言っていても仕方がないので、そういうところでもちょっとずつ出来るように。

NTIC:先生のイメージから完成はどのへんですか?

山本:まだ半分以下です。50年くらい出来ないと思います。ただ着実には進んではいます。あとは、需要が大きいのです。そういうのが出来ると、喜んでくれる人がたくさんいると思います。だから少しでも進んで欲しいし、進んで行っていると思います。

NTIC:それが出来たら、新聞社のキャップ等はいらなくなりますよね?

山本:そうですね。英語の教育もいらなくなると思うのです。教える必要がなくなりますから。社会を変える可能性は教育も現場もあるのです。色々なことが変わる可能性があります。何故なら、言語って皆さんが使いますから。子供も大人も、会社でも学校でも家庭でも。応用範囲は全部なのですから。

テキストマイニング

NTIC:それが「テキストマイニング」ですか?

山本:はいそうです。大量に山ほどデータがあって、その中から私が知りたいことを見つけ出すという技術の総称がテキストマイニングです。インターネットの情報の山から、何か知りたいこと、例えば「シャンプーの評判」を知りたいとか、それがテキストマイニングという技術ですね。
 例えば、自社のシャンプーの評判を知りたい場合、うちのシャンプーは(1)どんな人が(2)どんな目的で使っていて(3)どんな満足・不満を持っているかを調べる時、昔は街で試供品を提供する代わりにアンケートを書いてもらっていました。
 今はもうネット上で色々な人が色々なことをつぶやいているので、それを全部自動で持ってこられます。それは簡単に出来るのです。ただ、それが大量にあるので、大事な情報と不要な情報とを自動で振り分けして企業に売る、マーケティングに使えます。大企業からどんどん導入されています・

NTIC:もう実用化されているのですね?


 

山本:はい、これはもう実用化されています。大企業なんかは完全にそれをやっています。ネット上のそういう情報は本音で書きますので貴重な生の声になります。本音を自動で持ってこられて、企業に生かせる。有名な話ですが、あるシャンプーは20代くらいの若い女性をターゲットに作ったらしいのですけれど、実はおじさんが使っていると言います。「これ高いのにお父さんが使って困るのよね」というつぶやきを見て、ちょっと売り方を変えたというのです。似たような話はたくさんあります。マーケティングというのは資金を持っていますから、その資金をどんどん使って技術が応用化・実用化され、我々からするとありがたい話です。

NTIC:昔、アンケートで使っていた人件費、いらないですものね?

山本:いらないです。しかも本音ですし、毎日毎日自動でとれる。例えば、Twitterとかのつぶやきは、ものすごい量になりますので、ある特定のシャンプーとか車とかだけのつぶやきが0.01%だけでも大量にあるわけですよね。それが毎日毎日集まってくるのです。資金が幾らかかっても本音が知りたい人達は山ほどいますから。
 私達の産業って大きくなってきているのです。インターネットの中で大きくなってきているのです。

NTIC:どういうアルゴリズムでもそういうシステムを作るのですか?

山本:マネをするのです。一言で言うとマネです。こういうものはいる、こういうものはいらないという情報をたんさん用意していて、そうしておくと、何か新しい情報がきたときに、どっちに似ているかなというのを判断して選別する。
 この「知らないつぶやきはいらない、知っているつぶやきはいる」というのが一番簡単な説明になると思います。データの量が効いてくるので、あればあるほど、正確に出来るようになってきます。今はもう膨大な量のデータがあるので、だんだん正確に出来るようになってきています。

NTIC:つぶやきから何かをすると言っても、そのつぶやきの書き方が色々ですよね?誰もが標準語で書いているとは限らないので。

山本:そうですね。言語分野はそこが面白くて大変なところだと思います。色々な言い方を言葉でしゃべる。それを私達はどうやってつかまえるかというのが一番大事なのです。揺れとか対応性というか、若い人はわざと崩して言ったりします。ああいうのをいかに捕まえるかというのが勝負です。
 よく「やばいよ」と言い方をしますが、あれも良い意味と悪い意味があって、本当に良い意味で使う人もいますし、悪い意味で使う人もいる。年代によっても違いますよね。例えば同じ「やばい」でも全く別の意味になったりするので、あれは実際難しいですけれど。そういう色々な問題がありますよね。面白いです。やっていて楽しいです。

県内でのマーケティングの現状

NTIC:今の話を聞きますと、大事な分野ですね?

山本:そうですね。産業としてマーケティングが一番大きいですよね?

NTIC:そういうことで、企業のほうから先生にお手伝いをして下さいという依頼はあったりしますか?

山本:最近はないです。昔は結構ありました。

NTIC:例えばどこらへんですか?

山本:全部東京からです。コンサルティング等をやっている会社でした。そういう分析をやりたいのだという需要は多いみたいです。地方大学の1教員にもそういう依頼がくるので。県内は全くないです。県内ですと、言語データを持っている会社は多分あるとは思うのですが、それを有効利用しようとしている発想が全くないのです。

NTIC:少し勿体ないですね。

山本:勿体ないですよね。だから、製品とかの評判を知って、営業や商品開発にすぐにでも生かせるというのにをれを私達が一生懸命宣伝しても、誰も気づいてくれません。東京にいって仕事をしないとです。.長岡市や新潟県だけではなくて、地方自治がそうなのです。まだ認識が遅くて、勿体ないと思います。どんな商品でもいいのですが、つぶやきって必ずあると思うので、0.01%でも、毎日積み重ねて大きくなってきて、それが商品開発とかに生かせるのに、それが全くないのです。やはり、最近は情報戦なので、そういう情報を持っているかどうかというのは非常に大事なのですけれど、それが県内はないです。

NTIC:これをまとめましたら、そういう企業に配れるようにします・

山本:言語データを持っている会社、あるいはマーケティングをして、消費者の本音を知りたいのだという会社は本当にお手伝いをしますので、特に県内でしたら、簡単にお手伝いをしますので。「使ってもらって何ぼ」なので、喜んでもらうのが先なので。言語処理という技術を使って欲しいなと思います。

数少ない研究室

NTIC:研究室に学生は何人くらいいるのですか?

山本:学生は、8,9人です。研究室を卒業したのは50人くらいですね。

NTIC:卒業生はどういったところで就職しているのですか?

山本:私達の分野の企業に行くのが半分くらいです。残り半分はそういう企業とは関係なくコンピュータ分野でとか。

NTIC:就職口はあるのですか?

山本:あります。やはり技術者も不足しているので。そういう分野に応募すると、採用してもらったりはしています。楽天とかYahoo!とか、mixiとか。

NTIC:それは恰好よいですね?

山本:はい(笑)。ここは地方大ですが、この分野が全国区なので。そういう技術を社会が買ってくれているのでしょうか。そんな会社に就職しています。ありがたいと思います。

NTIC:特殊技術ですものね?

山本:そうですね。特殊です。普通の方からみたら、思いもつかない、何をどうやって作っているのかわからない、想像もつかないという方が多いですから。やはり学生も少し専門性が解る人はどんどん選ばれて就職が決まっています。
 就職先としは、マーケティングの分野は大きいので明るいです。
 実は、こういう研究をやっているところは少ないのですよ。例えば新潟大学にはありません。県内では私達の研究室だけなのです。隣県も含めても多分私のところだけだと思います。地方大にもほとんどいないです。東京の旧帝大とか有名大学ばかりで、地方大学でこういった研究をしていられる方が本当に少ないです。貴重なのですが、すごいなと言って使ってくれる人もいないので、それが悲しいです。例えば行政でも、県民が何に不満を持っているかとかも、ある程度は自動で出来るので使って欲しいのです。でも県も気づいてくれないですし。

NTIC:貴重な存在ですね。

山本:そうなのです。学会とかでも、GoogleとかNTTとか有名企業ばかりです。大企業はもうそういう技術の大切さというのは判っているので、どんどん集まってきていて、楽天とかYahoo!とかどんどんやっているのですが、まだやっぱり地方はそういうことに気付いていない。産業をしては大きくはなってきてはいるのですが、研究者・技術者はまだまだ少ないです。そういう分野です。

発想力と着眼点

NTIC:お話を聞いていると楽しそうな分野ですね。勿論研究のご苦労もあるかと思いますが。

山本:言語として「パターンマッチ」させるという技術なのです。そういう発想があるかどうかですね。あとはこういうデータをどうやって用意をするのか、大変だとは思います。

NTIC:処理速度が速くなって、膨大な量のデータ処理が出来るようになったのでしょうね。

山本:はい。私が始めた20年前はもう全然出来ないようなことが出来るようになってきたということは、コンピュータの性能が上ったということが大きいですね。非常に大きいです。

NTIC:そう考えると、能力よりも着眼点が必要になってくるのでしょうか?

山本:まぁそうですね。実際プログラミングもしますけれど、やっぱりアルゴリズムが大事ですね。問題解決のセンスというのでしょうか。問題を解く時に、どこに大事なところがあるかを見つけ出す。私達の場合でしたら、言語に対する深い考察なのだと考えます。ですから、私達も言語学の勉強をするのですけれど、言語に対して鋭いセンスを持って、ここを少し改良したらよくなるのではないかとか、それはやはりセンスというか経験というか感というか、そういう部分になります。いい道具を持っているからとかではないですね。ほとんどどこにいても研究する環境があれば、あとは本当に頭だけの勝負です。

NTIC:頭の中のことなので、技術の盗用なないですか?

山本:そうですね。アルゴリズムの勝負、頭・知識だけが勝負なので、他の研究分野と違って持っていかれることもないです。大きな設備とかもいらない。パソコンが一個あって、インターネットにつながっていれば、最低限の仕事はほぼ出来ます。投資もいらない、珍しい分野です。

産学連携

山本:今、一橋大学の先生とやっている研究がありまして、「やさしい日本語」というのです。日本語の分からない、日本の教育をほとんど受けていない外国人(漢字は読めない・日本語の会話が少し出来る程度))は、山ほどいます。そのような方に、市役所のお知らせを伝えないといけないです。例えば、児童手当はどこに行って、何を書いたら何を貰えるのか、それだけでも伝えないといけない場合は多々あります。英語とかポルトガル語とかに訳している場合ではなくて、簡単な日本語に直して伝えた方が良いという考え方があります。それを自動でやろうとしています。
 つまり、大人向けに書いている市役所のお知らせがたくさんありますよね。あれを出来るだけやさしく、自動で直して、そういう方々に読んでもらいたい。そういうプロジェクトを、今やっています。言語福祉になるのでしょうか。外国人向けの言語情報保障。それが問題になってきています。行政とも関わりがあります。そういう問題も私達が何かお手伝いが出来ることをやりましょうということです。
 言語というのは、誰もが使っている道具、大人も子供も外国人も使わないといけない、ですから、色々なところで活躍が出来る。だから、やらなくてはいけないこともたくさんあって、需要もたくさんあり、すごいのです。

NTIC:色々な場でも需要があるのですね?

山本:テキストマイニングは、大学の業務とかにも使えると思います。朝から晩まで原語を使わない人はいないので、書いたり話したりする人は全員ですから。実は色々なところで使えるのです。もっと、技術者(手と余裕)がれば、色々なところでお役にたてる筈なのですけれど。それだけが、一番言いたいです。実際、まだ役に立っていないので。私達の手が足りないというのもあって、認識して気づいてもらってはいないというのも大きいです。

NTIC:講演依頼等はありますか?

山本:あまりないです。県内だと全くないです。私のところに依頼が来たのは、障害者向けの要約筆記をされているところからでした。ご存知ですか?耳が聞こえない障害者が講演を聴く場合に、普通は手話でします。ですが、要約筆記というのは手話ではなくて、大きなスクリーンを出して講演内容を書くのです。ものすごいスピードで書くのですが、そういう専門の技術があるのです。そのボランティアされている方が、自動要約に興味を持っていただいて、何か共通して出来ることがあるのではないかということで依頼をいただいたのです。

NTIC:先生の研究に興味を持たれたのですね。

山本:どうやって短くするかということに興味があったみたいです。自動的にする時には、どうやっているのでしょうかということでいらしたみたいです。そこでお話をしたことはありました。けれど、産業界向けの依頼はないのです。是非、産業界向けにやりたいです。特に県内は全然気づいていただいていないので。

NTIC:県内でも需要が出来るといいですね。

山本:県内のそういうことに気付いている企業の新規事業のお手伝いが出来たら、喜んでやります。研究室の中だけで、技術が出ていかないというのが一番辛いです。業務の改善とかにもすぐに使えますので。マーケティングにも使えます。
 言語って適用範囲が広すぎて、子供でも大人でも全部使いますし、会社でも学校でも使います。そう思うと、もう少し世の中で使われてもいいのかなと考えます。私達がまだ努力不足で世の中に認知してもらえる努力が足りない。私達の責任なのでしょうね。
 学会とかのレベルで考えると、こういう技術が世の中にたくさんあって、役に立つ直前まできているのに、まだ使ってもらっていない。使ってもらっていないから、技術として重要性が認知されなくて、教員のポストが少なくて悪循環です。

NTIC:今でも活用ができるし、こらからもっともっと活用できる技術なのに、まだまだ県内ではそれを利用できる環境にないということがよく分かりました。勿体ないですし、是非活用できるよう微力ですが、NTICでも協力していきたいです。今日は貴重なお話をありがとうございました。