要約
この研究では、ビデオ内の意図しない人間の活動を理解するという新しい課題を提示します。
この問題をゼロショット シナリオに基づく推論タスクとして形式化します。このシナリオでは、意図しないアクティビティのビデオが与えられた場合、それが意図的なアクティビティから意図しないアクティビティに移行した理由を知りたいと考えます。
まず、この推論タスクに対する現在の最先端の大規模マルチモーダル モデルの有効性を評価し、それらが幻覚に悩まされていることを観察します。
さらに、Dream of Thoughts (DoT) と呼ばれる新しいプロンプト手法を提案します。これにより、モデルが幻覚思考の中をナビゲートして、より良い推論を達成できるようになります。
このタスクのパフォーマンスを評価するために、モデルの推論能力を定量化するために設計された 3 つの異なる特殊なメトリクスも導入します。
私たちは、OOP と UCF-Crimes という 2 つの異なるデータセットで実験を実行しました。その結果、DOT プロンプト技術が、幻覚を最小限に抑えながら、標準的なプロンプトを上回るパフォーマンスを発揮できることがわかりました。
要約(オリジナル)
In this work we present a novel task of understanding unintentional human activities in videos. We formalize this problem as a reasoning task under zero-shot scenario, where given a video of an unintentional activity we want to know why it transitioned from intentional to unintentional. We first evaluate the effectiveness of current state-of-the-art Large Multimodal Models on this reasoning task and observe that they suffer from hallucination. We further propose a novel prompting technique,termed as Dream of Thoughts (DoT), which allows the model to navigate through hallucinated thoughts to achieve better reasoning. To evaluate the performance on this task, we also introduce three different specialized metrics designed to quantify the models reasoning capability. We perform our experiments on two different datasets, OOPs and UCF-Crimes, and our findings show that DOT prompting technique is able to outperform standard prompting, while minimizing hallucinations.
arxiv情報
著者 | Shresth Grover,Vibhav Vineet,Yogesh S Rawat |
発行日 | 2024-02-29 18:03:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google