毎週のように登場する「すごいAI」、ロボットの知能も大幅進化

近年におけるAI(人工知能)の発展には目覚ましいものがあるが、そのスピードがここに来て急加速している。毎月、いや毎週のように驚くような能力を備えたすごいAIが登場しているのだ。驚くべきAI進化の事例を紹介しよう。

人間の曖昧な言葉に基づきロボットが行動

ごく最近登場した「すごいAI」の代表格は、米Google(グーグル)が2022年8月16日(米国時間)に発表したロボット用の人工知能「PaLM-SayCan」だ。人間が曖昧な言葉でロボットに話しかけるだけで、ロボットが取るべき行動をAIが判断し、行動計画を立案してくれる。

例えば人間が「飲み物をこぼしました。助けてくれませんか」とロボットに話しかけると、PaLM-SayCanはロボットの周囲の状況をカメラによって見渡して何ができるか判断したうえで、近くにあったスポンジを人間のところにまで運ぶようロボットに指示する。

グーグルが発表した「PaLM-SayCan」の仕組み
グーグルが発表した「PaLM-SayCan」の仕組み
(出所:日経クロステック)
[画像のクリックで拡大表示]

従来はロボットを操作する場合、具体的な行動をロボットに対して人間が指示する必要があった。それに対してPaLM-SayCanは、人間の曖昧なリクエストの意味をAIが理解して、ロボットの行動計画に落とし込んでくれる。人間がロボットに合わせるのではなく、ロボットが人間に合わせてくれるようになるわけだ。

PaLM-SayCanは人間によるリクエストを、グーグルが開発した巨大言語モデルである「PaLM(Pathways Language Model)」が解釈し、人間のリクエストに対するふさわしい回答の候補をいくつか導き出す。これは自然言語処理(NLP)における質問応答タスクを応用したものだ。

続いてPaLM-SayCanは、ロボットのカメラが撮影した周囲の状況から、ロボットがその場で行える動作の候補をいくつか導き出す。ロボットの動作パターンなどは、あらかじめ深層強化学習によって開発済みだ。

そしてPaLM-SayCanは、言語モデルが導き出した回答候補と、周囲の環境情報から導き出された可能な動作の候補を照らし合わせて、人間のリクエストにふさわしい動作の候補を選び出して行動計画を立案する。言語モデルが導き出した話す(Say)べき回答候補と、環境情報から導き出される可能な動作(Can)の候補をマッチングすることからPaLM-SayCanとの名称がつけられている。

グーグルによれば、PaLM-SayCanにおいて重要なのは、言語モデルであるPaLMが人間のリクエストを正しく解釈できることなのだという。PaLMはグーグルが2022年4月に発表した最新の言語モデルだ。PaLMではなくグーグルが2021年9月に発表した言語モデルの「FLAN」を使った場合、「飲み物をこぼしました。助けてくれませんか」とのリクエストに対してFLANは「申し訳ありません。こぼすつもりはありませんでした」と見当外れの回答候補を導き出してしまい、適切なロボット行動計画を作れなかったという。

加速する「すごいAI」の登場頻度

現在、PaLM-SayCanのような驚くべき能力を備えたすごいAIが、毎週のように登場している。その頻度は2022年に入って加速する一方だ。

過去1年に発表された主な「すごいAI」
(表:日経クロステック)
時期 組織 概要
2021年7月 ディープマインド タンパク質の立体構造を予測する「AlphaFold」の詳細を論文発表
2021年8月 ディープマインド Transformerの発展版で言語、画像、動画、音声などを扱える「Perceiver IO」発表
2021年10月 マイクロソフトとエヌヴィディア 5300億パラメーターの巨大言語モデル「MT-NLG]を発表
2021年10月 グーグル 1つの機械学習モデルで最大数百万種類のタスクを処理できるAIアーキテクチャー「Pathways」を発表
2021年11月 メタ 画像の一部をマスクして自己教師あり学習する画像表現学習モデル「Masked Autoencoders」を発表
2021年12月 ディープマインド 2800億パラメーターの巨大言語モデル「Gopher」を発表
2021年12月 ディープマインド 分子の内部における量子力学的な挙動のシミュレーション結果を予測する「DM21」を発表
2021年12月 グーグル 1兆2000億パラメーターの巨大言語モデル「GLaM」を発表
2021年12月 オープンAI 拡散モデルによって高精細な画像を生成する「GLIDE」を発表
2022年1月 メタ 音声、画像、テキストを自己教師あり学習する「data2vec」を発表
2022年2月 ディープマインド プログラムのソースコードを生成する「AlphaCode」を発表
2022年2月 ウェイモ 280万枚の写真から米サンフランシスコの町並みの立体画像を合成する「Block-NeRF」を発表
2022年2月 ディープマインド 汎用ゲームAI「MuZero」をYouTubeにおける動画圧縮アルゴリズム開発に応用したと発表
2022年2月 ディープマインド 核融合炉におけるプラズマ制御などに深層強化学習を応用して成果をあげたと発表
2022年4月 グーグル 5400億パラメーターの巨大言語モデル「PaLM」を発表。Pathwaysベース
2022年4月 オープンAI 文章から画像を生成する「DALL-E 2」を発表。内部でGLIDEを使用
2022年4月 ディープマインド テキスト・画像・動画を扱える言語モデル「Flamingo」を発表
2022年5月 メタ 1750億パラメーターの巨大言語モデル「OPT-175B」の学習済みモデルを研究者向けに公開
2022年5月 ディープマインド ゲームやチャット、ロボット操作などができる言語モデル「Gato」を発表
2022年5月 グーグル 文章から画像を生成する「Imagen」を発表。拡散モデルを採用
2022年6月 ギットハブ ソースコードを生成する「GitHub Copilot」が正式サービス開始
2022年6月 グーグル 文章から画像を生成する「Parti」を発表。Pathwaysベース
2022年6月 グーグル 数学や物理の問題に解答できる「Minerva」を発表。PaLMに数学問題などを追加学習した
2022年7月 メタ 200種類の言語を単一のモデルで機械翻訳できる「NLLB-200」を発表
2022年7月 マイクロソフト 文章から高精細の画像を生成する「NUWA-Infinity」を発表
2022年7月 ディープマインド AlphaFoldによって2億種類のタンパク質の立体構造を予測したと発表
2022年8月 グーグル 曖昧な言語によってロボットにタスクを依頼できる「PaLM-SayCan」を発表

AIの応用分野も幅広い。

Pocket
LINEで送る