COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation

要約

英語と中国語のコメントを認識したマルチモーダルと多言語の要約の進歩にもかかわらず、インドの言語の研究は限られたままです。
この調査では、9つの主要なインド言語を特徴とする先駆的なコメントに敏感なマルチモーダルで多言語データセットであるCosmmicを導入することにより、このギャップに対処します。
Cosmmicは、4,959の記事像のペアと24,484の読者のコメントで構成されており、すべての言語で根本的な要約が利用可能です。
私たちのアプローチは、読者の洞察とフィードバックを統合することにより、概要を強化します。
(1)記事テキストのみを使用して、(2)ユーザーのコメントを組み込んだ、(3)画像の使用、(4)テキスト、コメント、画像の組み合わせを組み込む:(1)4つの構成にわたって要約と見出しの生成を検討します。
データセットの有効性を評価するために、LLAMA3やGPT-4などの最先端の言語モデルを採用しています。
サポート的なコメントの識別、Indicbertを使用した専用のコメント分類器を使用したノイズの除外、多言語のクリップベースの分類器を使用した画像からの貴重な洞察を抽出するなど、さまざまなコンポーネントの組み合わせを評価するための包括的な研究を実施します。
これにより、自然言語生成(NLG)タスクの最も効果的な構成を決定するのに役立ちます。
マルチモーダル設定のテキストのみであるか、ユーザーのコメントを欠いている多くの既存のデータセットとは異なり、Cosmmicはテキスト、画像、ユーザーのフィードバックを一意に統合します。
この全体的なアプローチは、インド語のリソースのギャップを埋め、NLPの研究を進め、包括性を促進します。

要約(オリジナル)

Despite progress in comment-aware multimodal and multilingual summarization for English and Chinese, research in Indian languages remains limited. This study addresses this gap by introducing COSMMIC, a pioneering comment-sensitive multimodal, multilingual dataset featuring nine major Indian languages. COSMMIC comprises 4,959 article-image pairs and 24,484 reader comments, with ground-truth summaries available in all included languages. Our approach enhances summaries by integrating reader insights and feedback. We explore summarization and headline generation across four configurations: (1) using article text alone, (2) incorporating user comments, (3) utilizing images, and (4) combining text, comments, and images. To assess the dataset’s effectiveness, we employ state-of-the-art language models such as LLama3 and GPT-4. We conduct a comprehensive study to evaluate different component combinations, including identifying supportive comments, filtering out noise using a dedicated comment classifier using IndicBERT, and extracting valuable insights from images with a multilingual CLIP-based classifier. This helps determine the most effective configurations for natural language generation (NLG) tasks. Unlike many existing datasets that are either text-only or lack user comments in multimodal settings, COSMMIC uniquely integrates text, images, and user feedback. This holistic approach bridges gaps in Indian language resources, advancing NLP research and fostering inclusivity.

arxiv情報

著者 Raghvendra Kumar,S. A. Mohammed Salman,Aryan Sahu,Tridib Nandi,Pragathi Y. P.,Sriparna Saha,Jose G. Moreno
発行日 2025-06-18 11:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク