top of page
Writer's pictureRyosuke

Googleが発表したVisual Language Mapsが凄すぎたので解説

VLMaps(Visual Language Maps)とは

Googleが2023/3/8にVisual language maps for robot navigation発表しました。VLMapsについて簡単に調べましたが、今回の論文で初めて出てきた技術みたいです。内容としては

  • 3Dマップ上で直接ラベル付けをするので、ソファーや机がマップ上のどこにあるのか明示的に認識される

  • GPT-4のようなLLMと組み合わせることで、自然言語での指示をもとにロボットを制御できる。

動画中ではカウンターの左側に移動してください、と指示を受けロボットが移動しています。VLMaps上でカウンターがどこにあるか分かっているので、LLMはカウンターまで移動させるようにコードを書くだけです。凄まじいですね。。。



なぜVLMapsが必要なのか

最近だとChatGPT (GPT-4) が画像入力対応され、画像に何が表示されているか理解しテキストで回答できるようになっています。例えば画像内の何が表示されているか聞けばマウスとキーボードがあると回答したり、画像に植物があるか聞いたらYes/Noで回答してくれたりします。つまり画像認識において言語と画像の概念を理解できているといえます(Visual-Language Modelと呼ばれてます)。Microsoftが発表したChatGPT for roboticsについて詳しく知りたい方はこちらの記事を読んでみてください。


このChatGPT for roboticsの課題は、3Dの環境マップ上で概念を獲得できていないことです。ロボットを制御する上で3Dで周囲の環境を認識することは最も重要な要素の一つですが、GPT-4では2Dの画像認識にとどまっています。つまり、2D画像の認識と3Dの環境認識プロセスが切り離されていて、3Dの空間認識精度が欠けてしまうということです。この問題を解消するために、今回発表された記事ではVLMapsが登場しています。VLMapsはVisual-Language Modelを3D空間上で直接融合しちゃおうというものです。もはやなんでもありの世界ですね。


現状何ができているのか

詳しくみたい方はこちらの公式HPを見てみてください。今回は面白いと思った事例を抜粋して解説します。


移動式ロボット(LoCoBot)

このデモでは、人間から「植物まで移動して」と指示を受け、事前に生成したVLMaps上で植物に認識された場所まで自動で移動しています。もちろん移動に必要な制御コードはLLMによって生成されています。そもそも物と衝突せずに移動するだけでも結構ハードル高いんですが、しっかりと認識&制御ができていますね。

そのうちお掃除ロボットに、「壁全部ふいておいて」と指示したら壁に貼ってある絵画やカレンダーを避けて全部拭いてくれるようになりそうですね。


ドローンと移動式ロボットの協調

このデモでは人間から「パソコンと箱まで連続で移動して」と指示を受けています。複数のロボットに指示を出せるマルチプラットフォームとしてのデモです。ここで面白いのが、ドローンと移動式ロボットで使用しているマップが少し異なるということです。これはVLMapsから移動経路を生成するときに使用するマップが、ドローンと移動式ロボットの移動特性の違い(空中と地面)を考慮して自動で生成されているためです。これによってロボット毎に移動効率を自動的に向上しています。この手のカスタマイズが自動になってるのはほんとに目から鱗ですね。。。




まとめ

今回はGoogleが発表したVLMapsについて解説しました。

今までは3D空間で物体認識するのはかなり大変だったんですが、VLMapsで大きく流れが変わりそうですね。自動運転やロボットの自動制御の業界では今まで開発した技術やシステムを一発で壊してしまいかねないほどのインパクトがあります。。

音声を組み込んだAudio VLMapsという意味の分からない技術も発表されたので次回はそちらについて解説したいと思います。


563 views0 comments

Commentaires


bottom of page