ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning

要約

画像内の人物の特性を検出、推定、分析するために、3D ポーズ、形状、接触、人間とオブジェクトの相互作用、感情などの推定を含む、多数の方法が提案されています。
これらの各方法は、相乗的にではなく、単独で機能します。
ここでは、この問題に対処し、さまざまな方法のスキルを組み合わせて統合する、言語駆動型の人間理解システムである ChatHuman を構築します。
そのために、大規模言語モデル (LLM) を微調整して、ユーザー入力に応じて既存のさまざまなツールを選択して使用します。
そうすることで、ChatHuman は複数のツールからの情報を組み合わせて、個々のツール自体よりも正確に問題を解決し、ツールの出力を活用して人間について推論する能力を向上させることができます。
ChatHuman の新しい機能には、学術出版物を活用して 3D ヒューマン関連ツールのアプリケーションをガイドすること、検索拡張生成モデルを採用して新しいツールを処理するためのコンテキスト学習サンプルを生成すること、ツールの結果を識別して統合して 3D ヒューマン関連ツールを強化することなどが含まれます。
理解。
私たちの実験では、複数の 3D 人間関連タスクにわたって、ツール選択の精度とパフォーマンスの両方において、ChatHuman が既存のモデルよりも優れていることがわかりました。
ChatHuman は、人間分析のための多様な手法を 3D 人間推論のための単一の強力なシステムに統合するための一歩です。

要約(オリジナル)

Numerous methods have been proposed to detect, estimate, and analyze properties of people in images, including the estimation of 3D pose, shape, contact, human-object interaction, emotion, and more. Each of these methods works in isolation instead of synergistically. Here we address this problem and build a language-driven human understanding system — ChatHuman, which combines and integrates the skills of many different methods. To do so, we finetune a Large Language Model (LLM) to select and use a wide variety of existing tools in response to user inputs. In doing so, ChatHuman is able to combine information from multiple tools to solve problems more accurately than the individual tools themselves and to leverage tool output to improve its ability to reason about humans. The novel features of ChatHuman include leveraging academic publications to guide the application of 3D human-related tools, employing a retrieval-augmented generation model to generate in-context-learning examples for handling new tools, and discriminating and integrating tool results to enhance 3D human understanding. Our experiments show that ChatHuman outperforms existing models in both tool selection accuracy and performance across multiple 3D human-related tasks. ChatHuman is a step towards consolidating diverse methods for human analysis into a single, powerful, system for 3D human reasoning.

arxiv情報

著者 Jing Lin,Yao Feng,Weiyang Liu,Michael J. Black
発行日 2024-05-07 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク