HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization

要約

表形式データには、豊富な構造的セマンティクスが含まれており、情報の整理と操作に重要な役割を果たします。
これらの構造セマンティクスをより適切にキャプチャするために、このペーパーでは、テキストと画像の両方を使用したテーブルを表すハイブリッドモーダル優先最適化(HIPPO)モデルを紹介し、MLLMを最適化して、これらの複数のモダリティからより包括的なテーブル情報を効果的に学習します。
具体的には、Hippoはハイブリッドモーダルのテーブル表現からのモデル応答をサンプルし、DPOトレーニング中に応答の多様性を高め、モダリティバイアスを緩和するためのモダリティ並置的なサンプリング戦略を設計します。
表の質問と表の質問と表の事実検証タスクの実験結果は、カバの有効性を示しており、さまざまなテーブル推論モデルよりも4%の改善を達成しています。
さらなる分析により、Hippoは単峰性のテーブル表現に基づいて推論能力を高めるだけでなく、異なるモーダル表現からの重要で異なるセマンティクスの抽出を促進することが明らかになりました。
すべてのデータとコードは、https://github.com/neuir/hippoで入手できます。

要約(オリジナル)

Tabular data contains rich structural semantics and plays a crucial role in organizing and manipulating information. To better capture these structural semantics, this paper introduces the HybrId-modal Preference oPtimizatiOn (HIPPO) model, which represents tables using both text and image, and optimizes MLLMs to effectively learn more comprehensive table information from these multiple modalities. Specifically, HIPPO samples model responses from hybrid-modal table representations and designs a modality-consistent sampling strategy to enhance response diversity and mitigate modality bias during DPO training. Experimental results on table question answering and table fact verification tasks demonstrate the effectiveness of HIPPO, achieving a 4% improvement over various table reasoning models. Further analysis reveals that HIPPO not only enhances reasoning abilities based on unimodal table representations but also facilitates the extraction of crucial and distinct semantics from different modal representations. All data and codes are available at https://github.com/NEUIR/HIPPO.

arxiv情報

著者 Zhenghao Liu,Haolan Wang,Xinze Li,Qiushi Xiong,Xiaocui Yang,Yu Gu,Yukun Yan,Qi Shi,Fangfang Li,Ge Yu,Maosong Sun
発行日 2025-02-24 16:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク