Open-Ended Multi-Modal Relational Reasoning for Video Question Answering

要約

このペーパーでは、外部環境を分析し、参加者の質問に対処するために特別に設計されたロボット エージェントを紹介します。
このエージェントの主な焦点は、ビデオベースのシーン内で言語ベースのインタラクションを使用する個人を支援することです。
私たちが提案する手法は、ロボットエージェント内にビデオ認識技術と自然言語処理モデルを統合します。
私たちは、参加者とロボットエージェントの間で生じる関連問題を調査することで、人間とロボットの相互作用に影響を与える重要な要因を調査します。
方法論的に、私たちの実験結果は、信頼と対話効率の間に正の関係があることを明らかにしています。
さらに、このモデルは、他のベンチマーク手法と比較して 2\% ~ 3\% のパフォーマンス向上を示しています。

要約(オリジナル)

In this paper, we introduce a robotic agent specifically designed to analyze external environments and address participants’ questions. The primary focus of this agent is to assist individuals using language-based interactions within video-based scenes. Our proposed method integrates video recognition technology and natural language processing models within the robotic agent. We investigate the crucial factors affecting human-robot interactions by examining pertinent issues arising between participants and robot agents. Methodologically, our experimental findings reveal a positive relationship between trust and interaction efficiency. Furthermore, our model demonstrates a 2\% to 3\% performance enhancement in comparison to other benchmark methods.

arxiv情報

著者 Haozheng Luo,Ruiyang Qin,Chenwei Xu,Guo Ye,Zening Luo
発行日 2024-06-11 06:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO パーマリンク