Large Language Models are Temporal and Causal Reasoners for Video Question Answering

要約

大規模言語モデル (LLM) は、さまざまな自然言語の理解および生成タスクで顕著なパフォーマンスを示しています。
私たちは、ビデオ質問応答 (VideoQA) における時間的および因果的推論に $\textit{言語的ショートカット}$ を利用する際に、LLM が効果的な事前確率を提供することを観察しました。
ただし、このような事前分布は、モデルが質問、$\textit{i.e.}$、$\textit{言語バイアス}$ に過度に依存し、視覚的なコンテンツを無視することになり、VideoQA で最適でない結果を引き起こすことがよくあります。
これは「根拠のない推測」または「幻覚」としても知られています。
VideoQA における LLM の先行技術を活用しながらこの問題に対処するために、ソース ペアを反転することで $\langle$V、Q、A$\rangle$ トリプレットのすべての組み合わせを予測するようにモデルを奨励する新しいフレームワーク Flipped-VQA を提案します。
$\textit{i.e.}$ は、それぞれの複雑な関係を理解するためのターゲット ラベルであり、VQ、VA、QA のペアが与えられた場合に A、Q、V を予測します。
このペーパーでは、LLaMA に Flipped-VQA を適用して LLaMA-VQA を開発しました。この VQA は、5 つの困難な VideoQA ベンチマークで、LLM ベースのモデルと非 LLM ベースのモデルの両方を上回りました。
さらに、当社の Flipped-VQA は、さまざまな LLM (OPT および GPT-J) に適用できる一般的なフレームワークであり、そのパフォーマンスを一貫して向上させます。
私たちは、Flipped-VQA が言語ショートカットの活用を強化するだけでなく、質問に過度に依存して不正解を引き起こす言語バイアスを軽減することを経験的に示しています。
コードは https://github.com/mlvlab/Flipped-VQA で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable performances on a wide range of natural language understanding and generation tasks. We observe that the LLMs provide effective priors in exploiting $\textit{linguistic shortcuts}$ for temporal and causal reasoning in Video Question Answering (VideoQA). However, such priors often cause suboptimal results on VideoQA by leading the model to over-rely on questions, $\textit{i.e.}$, $\textit{linguistic bias}$, while ignoring visual content. This is also known as `ungrounded guesses’ or `hallucinations’. To address this problem while leveraging LLMs’ prior on VideoQA, we propose a novel framework, Flipped-VQA, encouraging the model to predict all the combinations of $\langle$V, Q, A$\rangle$ triplet by flipping the source pair and the target label to understand their complex relationships, $\textit{i.e.}$, predict A, Q, and V given a VQ, VA, and QA pairs, respectively. In this paper, we develop LLaMA-VQA by applying Flipped-VQA to LLaMA, and it outperforms both LLMs-based and non-LLMs-based models on five challenging VideoQA benchmarks. Furthermore, our Flipped-VQA is a general framework that is applicable to various LLMs (OPT and GPT-J) and consistently improves their performances. We empirically demonstrate that Flipped-VQA not only enhances the exploitation of linguistic shortcuts but also mitigates the linguistic bias, which causes incorrect answers over-relying on the question. Code is available at https://github.com/mlvlab/Flipped-VQA.

arxiv情報

著者 Dohwan Ko,Ji Soo Lee,Wooyoung Kang,Byungseok Roh,Hyunwoo J. Kim
発行日 2023-10-24 11:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク