要約
環境と対話できるリアルな仮想エージェントを作成することは、コンピューターグラフィックスの長年の目標です。
このペーパーでは、視覚情報の収集と環境の手がかりに対する動的な反応のための信頼できるエージェント行動の重要な側面である自然な頭の回転を生成するという課題に対処します。
以前の方法は大きな進歩を遂げていますが、多くはデータ駆動型または顕著性ベースのアプローチに依存しており、多くの場合、多様な設定でパフォーマンスが低下し、リスク評価、情報探索、文脈上の優先順位付けなどのより深い認知要因をキャプチャできません。
したがって、生成された動作は剛性のあるように見えるか、重要なシーン要素を見落とし、それによりリアリズムの感覚が低下します。
この論文では、\ textbf {virac}、a \ textbf {vi} sion- \ textbf {r} easoning \ textbf {a} gent head movement \ textbf {c} ontrolフレームワークを提案します。
ビジョン言語モデル(VLMS)や大規模モデル(LLM)を含む大規模モデルの推論機能。
Viracは、あらゆる認知メカニズムを明示的にモデル化するのではなく、これらのモデルによって内在化された広範なトレーニングから内在化されたバイアスとパターンを活用して、手で調整されたヒューリスティックなしで人間のような知覚プロセスをエミュレートします。
複数のシナリオでの実験結果は、Viracが最近の最先端の技術よりも自然でコンテキストを意識した頭回転を生成することを明らかにしています。
定量的評価では、実際の人間のヘッドモーブメントデータとの密接な整合性が示されていますが、ユーザー調査では、リアリズムと認知的妥当性が改善されたことが確認されています。
要約(オリジナル)
Creating lifelike virtual agents capable of interacting with their environments is a longstanding goal in computer graphics. This paper addresses the challenge of generating natural head rotations, a critical aspect of believable agent behavior for visual information gathering and dynamic responses to environmental cues. Although earlier methods have made significant strides, many rely on data-driven or saliency-based approaches, which often underperform in diverse settings and fail to capture deeper cognitive factors such as risk assessment, information seeking, and contextual prioritization. Consequently, generated behaviors can appear rigid or overlook critical scene elements, thereby diminishing the sense of realism. In this paper, we propose \textbf{ViRAC}, a \textbf{Vi}sion-\textbf{R}easoning \textbf{A}gent Head Movement \textbf{C}ontrol framework, which exploits the common-sense knowledge and reasoning capabilities of large-scale models, including Vision-Language Models (VLMs) and Large-Language Models (LLMs). Rather than explicitly modeling every cognitive mechanism, ViRAC leverages the biases and patterns internalized by these models from extensive training, thus emulating human-like perceptual processes without hand-tuned heuristics. Experimental results in multiple scenarios reveal that ViRAC produces more natural and context-aware head rotations than recent state-of-the-art techniques. Quantitative evaluations show a closer alignment with real human head-movement data, while user studies confirm improved realism and cognitive plausibility.
arxiv情報
著者 | Juyeong Hwang,Seong-Eun Hong,Hyeongyeop Kang |
発行日 | 2025-02-14 09:46:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google