Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs

要約

大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) は、AI コミュニティ、業界、さまざまな経済セクターに大きな影響を与えています。
ジャーナリズムにおいて、AI の統合は、特にニュース報道の品質と効率の向上において、独特の課題と機会をもたらします。
この研究では、LLM と LMM が、ニュース記事に付随する画像に文脈化されたキャプションを生成することで、ジャーナリズムの実践をどのように支援できるかを調査します。
私たちは、GoodNews データセットを使用して実験を実施し、ニュース記事全体、または抽出された固有表現の 2 種類のコンテキストのいずれかを組み込む LMM (BLIP-2、GPT-4v、または LLaVA) の能力を評価しました。
さらに、LLM (GPT-4 または LLaMA) による事後コンテキスト化を備えたキャプション モデル (BLIP-2、OFA、または ViT-GPT2) で構成される 2 段階のパイプラインとそのパフォーマンスを比較しました。
私たちはモデルの多様性を評価し、コンテキスト化モデルの選択は 2 段階のパイプラインにとって重要な要素である一方、LMM ではそうではなく、小規模なオープンソース モデルがプロプライエタリなモデルと比較して優れたパフォーマンスを発揮することがわかりました。
GPT搭載のもの。
さらに、提供されるコンテキストの量を制御するとパフォーマンスが向上することがわかりました。
これらの結果は、完全に自動化されたアプローチの限界を浮き彫りにし、対話型の人間参加型戦略の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) and large multimodal models (LMMs) have significantly impacted the AI community, industry, and various economic sectors. In journalism, integrating AI poses unique challenges and opportunities, particularly in enhancing the quality and efficiency of news reporting. This study explores how LLMs and LMMs can assist journalistic practice by generating contextualised captions for images accompanying news articles. We conducted experiments using the GoodNews dataset to evaluate the ability of LMMs (BLIP-2, GPT-4v, or LLaVA) to incorporate one of two types of context: entire news articles, or extracted named entities. In addition, we compared their performance to a two-stage pipeline composed of a captioning model (BLIP-2, OFA, or ViT-GPT2) with post-hoc contextualisation with LLMs (GPT-4 or LLaMA). We assess a diversity of models, and we find that while the choice of contextualisation model is a significant factor for the two-stage pipelines, this is not the case in the LMMs, where smaller, open-source models perform well compared to proprietary, GPT-powered ones. Additionally, we found that controlling the amount of provided context enhances performance. These results highlight the limitations of a fully automated approach and underscore the necessity for an interactive, human-in-the-loop strategy.

arxiv情報

著者 Aliki Anagnostopoulou,Thiago Gouvea,Daniel Sonntag
発行日 2024-08-08 09:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク