「リスをつかまえて!」言葉を動作に翻訳するGoogleのAI

  • author Mack DeGeurin - Gizmodo US
  • [原文]
  • 福田ミホ
  • X
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
  • …
「リスをつかまえて!」言葉を動作に翻訳するGoogleのAI
Image: Google

静的なデータの生成から、「動き」の生成へ。

Google DeepMind*が、言葉を元に四足歩行ロボットの動作を作り出す手法を編み出しました。しかもChatGPTなどがそうであるように、コマンドとは言えないような曖昧な言葉にもうまく反応してくれるようです。

*イギリスにて設立され、人工知能の研究と開発を行なった企業DeepMind。2014年にGoogleによって買収されGoogle DeepMindとなりました。

人間の言葉をロボット向けに翻訳

Google DeepMindの研究チームが、言語を四足歩行の動きに変換する手法「SayTap」を開発しました。人間の言葉を、ロボット犬が理解できる形に「翻訳」してくれるんです。

ロボットに「前に歩く」動きが事前にインストールされていなくても、「前に歩いて」と伝えれば、その通り動いてくれるということ

「前に歩いて」「後ろに下がって」といった具体的な言葉だけじゃなく、もっとふわっとした、「リスをつかまえて」とか「地面が熱いから急いで」みたいな指示でどう動けばいいのか「理解」できるとのこと。

大規模言語モデル(LLM)は高レベルなプランニングの能力を示したが、関節の角度のターゲットやモーターのトルクといった低レベルな(訳注:物理的な、といった意味)コマンドの理解はいまだ困難である。

本論文は足の接地パターンを、自然言語による人間のコマンドと、これら低レベルなコマンドを出力する運動制御装置のインターフェースとして提案する。

この結果として、四足歩行ロボットのためのインタラクティブなシステムができ、ユーザーは多様な挙動を柔軟に作り出すことが可能となる。(後略)

一見具体的な「前に歩いて」は、ロボット犬にとっては指示が具体的ではありません。研究チームは、言葉から求められる犬の動きを、前後左右の足の接地・非接地のパターンとして表現することで、ロボットにわかる形にしました。

足を地面に付けた状態=1、足を浮かせた状態=0とし、4本の足それぞれの状態を1と0で表わせば、ある時点での犬の体の状態を4ケタの1・0で表現できます。

たとえば、全部の足が地面に付いていれば「1111」、ジャンプした瞬間は「0000」、トコトコ歩いてる状態は「0110」と「1001」を交互に繰り返す、みたいな具合です。

下の動画はロボット犬に「前にゆっくり歩いて」と命令したところで、右下のボックスには、その命令を足の1・0の接地パターンに変換したものが表示されてます。この接地パターンがロボット犬の運動制御装置に入力され、制御装置が犬の足に対するコマンドを出力し、足がその通りに動く、というわけです。

230831_robodog2
Image: Google

ふわっとした指示にも対応

これだけでもクレバーな感じですが、SayTapがもっとすごいのは「構造化されていない、曖昧な指示」にも対応できることです。

たとえば「ピクニックに行こう」という、犬の動作を明示してない言葉に対し、ロボット犬はぴょんぴょんジャンプするという望ましい反応を見せました。または「地面が熱いみたいに動いて」という指示ではしっかり小走りになり、「リスから離れて」という指示ではゆるゆる後ずさりしました。

SayTapは、自然言語と低レベルな制御装置の間の新たなインターフェースとして、望ましい足の接地パターンを提案しています

研究チームはブログで書いています。

「この新たなインターフェースは簡単かつ柔軟であり、ロボットに対する直接的な指示にも、どう反応すべきか明示しない指示にも、従わせることができます。

こういう研究を進めていけば、ロボットに人間と同じような感覚で話しかけて、掃除を手伝ってもらったり、食事を作ってもらったり、とかができるようになるんでしょうか。

もちろんAIなのでいろんなやらかしが起こると思われ、出力がリアルな動作なだけに今以上に功罪は大きくなりそうですが…そのへんも含めてますます注目していきたいです。