要約
大規模言語モデル (LLM) の台頭により、現在、マルチモーダル マルチホップ質問応答用にマルチモーダル情報をテキスト記述に変換することが一般的かつ効果的です。
しかし、マルチモーダルマルチホップ質問応答の現在の方法は依然として主に 2 つの課題に直面していると我々は主張します。 1) 大量の冗長情報を含む取得された証拠は、無関係な情報が誤解を招くため、必然的にパフォーマンスの大幅な低下につながります。
予測。
2) 解釈可能な推論ステップを持たない推論プロセスにより、モデルが複雑な質問を処理するための論理エラーを発見することが困難になります。
これらの問題を解決するために、私たちは統合 LLM ベースのアプローチを提案しますが、LLM の潜在的なエラーのためにそれに大きく依存することはなく、マルチモーダル マルチホップ質問応答を結合含意ツリー生成と質問応答問題として革新的に扱います。
具体的には、専門家の混合によるタスク固有のエラーの相互干渉を防ぎながら、解釈可能タスクと予測タスク間で共通の知識の共有を促進することに重点を置いたマルチタスク学習フレームワークを設計します。
その後、潜在的な答えを反復的に改良することを目的として、含意ツリーを再生成するために共同トレーニングの結果を LLM にフィードバックすることで、両方のタスクをさらに強化する反復フィードバック メカニズムを設計します。
特に、私たちの手法は WebQA の公式リーダーボード (2024 年 4 月 10 日以降) で 1 位を獲得し、MultimodalQA で競争力のある結果を達成しています。
要約(オリジナル)
With the rise of large-scale language models (LLMs), it is currently popular and effective to convert multimodal information into text descriptions for multimodal multi-hop question answering. However, we argue that the current methods of multi-modal multi-hop question answering still mainly face two challenges: 1) The retrieved evidence containing a large amount of redundant information, inevitably leads to a significant drop in performance due to irrelevant information misleading the prediction. 2) The reasoning process without interpretable reasoning steps makes the model difficult to discover the logical errors for handling complex questions. To solve these problems, we propose a unified LLMs-based approach but without heavily relying on them due to the LLM’s potential errors, and innovatively treat multimodal multi-hop question answering as a joint entailment tree generation and question answering problem. Specifically, we design a multi-task learning framework with a focus on facilitating common knowledge sharing across interpretability and prediction tasks while preventing task-specific errors from interfering with each other via mixture of experts. Afterward, we design an iterative feedback mechanism to further enhance both tasks by feeding back the results of the joint training to the LLM for regenerating entailment trees, aiming to iteratively refine the potential answer. Notably, our method has won the first place in the official leaderboard of WebQA (since April 10, 2024), and achieves competitive results on MultimodalQA.
arxiv情報
著者 | Qing Zhang,Haocheng Lv,Jie Liu,Zhiyun Chen,Jianyong Duan,Hao Wang,Li He,Mingying Xv |
発行日 | 2024-12-10 17:42:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google