【ODRピックアップ／半蔵門ビジネストーク】20161128 学習済みモデルが重要〜AI育成は老後の楽しみか？　笑〜

何度目かのブームとなっているAIあるいは人工知能。ブームなのかホンモノなのか。IBMのワトソンは、渡邊謙やボブディランと会話して、未来はすぐそこ、あるいはもう手に取れる場所に来ているようにも感じさせられます。もちろん、何らかの手法でこのように情報がインプットされた「賢いAI」になっているから、賢い対話がなりたっています。

f:id:emandai34:20150707105116j:plain

お客様の中には、「早くAIを導入してくれ。私の好みに文書を作らせたい」との要望を表明している方もいます。ただ明らかに錯覚しているのは、AIを買ってくればすぐに使える、あるいは、覚え込ませるのは簡単なはずだということ。

実際には、ディープラーニングで「賢いAI」に育て上げるには、膨大なインプットが必要です。それは即ちコストがかかるということです。

AlphaGoを例にすれば、3000万の棋譜から指し手を学んだうえに、AlphaGo自身を相手にして3000万局の経験を積んだ末にプロ棋士に勝利しました。学習データを大量にしなければならないという事実は、ディープラーニングの学習には多くの時間と多額の費用がかかることを意味します。

juis.xyz

以下のリンク記事は、AIに関する特許や著作権をどうするかという記事ですが、AIが使えるようになるための構造が解り易く書いてあるので、参考にリンクしました。

www.nikkei.com

AIは”すごく大雑把に”構造化するなら、

１）素のAIエンジン

インプットされる大量データを理解し、蓄積し、構造化し、質問から最適な答えを導き出し、回答する役割

２）大量のインプットデータ

知識の元になるデータ。外部とのコミュニケーションにより学習的に蓄積されるデータ。

これらから、生成される

３）「学習済モデル」

によって、成り立ちます。

２）が１）にインプットされ、３）ができてくる。

そして、質問を１）に入れると、３）のモデルと相談して、解答が出てくる。

前述の囲碁Alpha-goは、２）として３０００万の譜から指し手を学び、自分を相手に３０００万対局して、更に学んだということですから、３）を構築することの大変さが感じられるでしょう。

＊　　　＊　　　＊

これが更に実感できるのが、ちょっと古いチャットbotを作るためのクラウドサービスで体感できます。

使うのは、

rebot.me

構造は、単純で、

入力される質問に対応する答えを登録しておくだけ。例えば、

こんにちは

今日は何曜日？

という質問一つ一つに、

こんにちは＝＞

　　こんにちは。今何時でしたっけ？
　　あ、こんにちは
　　こんちは
　　ちわっす

今日は何曜日？＝＞

あ〜曜日の感覚ないわ〜
金曜日であってほしい
まだ月曜って言う感じ
まだ火曜くらいの感覚
もう水曜になった気がする
明日は金曜だっけ？だったら木曜
土曜日なんだけど無駄にした
サザエさん症候群になりそうな

複数の反応パターンからランダムに返事するように登録します。

質問が少ない段階でも、例えば、

なんとかお役にたてればと頑張っています
さて今週はどうする？
ぶるる。。。寒くない？そうでもないか？
珈琲わかすってのはどうかね？
またやろう。もっとましな失敗すれば、いずれよくなる
それもまた人生
一回深呼吸だ
あーはいはい！あれはねー
え！！ちょっとそれは。。。
あ、電話？違うか。空耳。ごめん、なんだっけ？

などを「答えのない場合の答えとして、」登録しておくと、なんとなく対話となり、あとからそれぞれの質問に解答を登録しておくと、語彙が徐々に増えて行くという仕組みです。

テーマを決めてパターンを学習させていけば、

米国大統領選はどっちでしょう＝＞

微妙ですね。
クリントン優勢かと思いましたが、そうでもないような。
トランプだと恐いようにも思いますし。
あなたはどちらだと思いますか？（クリントン？トランプ？）

トランプ＝＞

トランプの場合、いい面は？
トランプの場合、悪い面は？
防衛費の負担を増やすならどちら？（自力防衛、体制継続）

と入れておくと、

私：米国大統領選はどっちでしょう
ODR-chat-bot: クリントン優勢かと思いましたが、そうでもないような。
私：トランプ
ODR-chat-bot: 防衛費の負担を増やすならどちら？（自力防衛、体制継続）
私：自力防衛
ODR-chat-bot: その場合、核は？（核武装、核以外の戦略、核のみ米国協力）

というような会話ぽいものができてきます。

＊　　　＊　　　＊

日常会話だけでなく、専門的な会話、対話、反応ができるようにするには、そうした専門的な知識ベースを学習済モデルにしていくことになります。語彙やその意味はもちろん、過去の文書等から、文脈的な繋がりや登場頻度、結合度合いなどを解析し、蓄積するということは、前述で実験したbotの方式では到底無理。

AIの現在のキモは、このインプットをいかに、質のいい、適切なデータを、大量に、効率よく、解釈し、登録し、学習済モデルを構築するかということになるでしょう。

でも、botに少しずつ学ばせるのは、子育てみたいで楽しくもあります。老後の楽しみの一つになるかも！！？