｢リスをつかまえて！｣言葉を動作に翻訳するGoogleのAI

2023.09.03 19:30

Mack DeGeurin - Gizmodo US
［原文］
（福田ミホ）

｢リスをつかまえて！｣言葉を動作に翻訳するGoogleのAI — Image: Google

静的なデータの生成から、｢動き｣の生成へ。

Google DeepMind*が、言葉を元に四足歩行ロボットの動作を作り出す手法を編み出しました。しかもChatGPTなどがそうであるように、コマンドとは言えないような曖昧な言葉にもうまく反応してくれるようです。

*イギリスにて設立され、人工知能の研究と開発を行なった企業DeepMind。2014年にGoogleによって買収されGoogle DeepMindとなりました。

人間の言葉をロボット向けに翻訳

Google DeepMindの研究チームが、言語を四足歩行の動きに変換する手法｢SayTap｣を開発しました。人間の言葉を、ロボット犬が理解できる形に｢翻訳｣してくれるんです。

ロボットに｢前に歩く｣動きが事前にインストールされていなくても、｢前に歩いて｣と伝えれば、その通り動いてくれるということ。

｢前に歩いて｣｢後ろに下がって｣といった具体的な言葉だけじゃなく、もっとふわっとした、｢リスをつかまえて｣とか｢地面が熱いから急いで｣みたいな指示でどう動けばいいのか｢理解｣できるとのこと。

SayTap: Language to Quadrupedal Locomotion

paper page: https://t.co/Dk14Ds1D94

Large language models (LLMs) have demonstrated the potential to perform high-level planning. Yet, it remains a challenge for LLMs to comprehend low-level commands, such as joint angle targets or… pic.twitter.com/BteEUxEmal
— AK (@_akhaliq) June 14, 2023

大規模言語モデル（LLM）は高レベルなプランニングの能力を示したが、関節の角度のターゲットやモーターのトルクといった低レベルな（訳注：物理的な、といった意味）コマンドの理解はいまだ困難である。
本論文は足の接地パターンを、自然言語による人間のコマンドと、これら低レベルなコマンドを出力する運動制御装置のインターフェースとして提案する。
この結果として、四足歩行ロボットのためのインタラクティブなシステムができ、ユーザーは多様な挙動を柔軟に作り出すことが可能となる。（後略）

一見具体的な｢前に歩いて｣は、ロボット犬にとっては指示が具体的ではありません。研究チームは、言葉から求められる犬の動きを、前後左右の足の接地・非接地のパターンとして表現することで、ロボットにわかる形にしました。

足を地面に付けた状態=1、足を浮かせた状態=0とし、4本の足それぞれの状態を1と0で表わせば、ある時点での犬の体の状態を4ケタの1・0で表現できます。

たとえば、全部の足が地面に付いていれば｢1111｣、ジャンプした瞬間は｢0000｣、トコトコ歩いてる状態は｢0110｣と｢1001｣を交互に繰り返す、みたいな具合です。

下の動画はロボット犬に｢前にゆっくり歩いて｣と命令したところで、右下のボックスには、その命令を足の1・0の接地パターンに変換したものが表示されてます。この接地パターンがロボット犬の運動制御装置に入力され、制御装置が犬の足に対するコマンドを出力し、足がその通りに動く、というわけです。