要約
自然言語を使用して視覚コンテンツについて話す能力は、人間の知能の中核であり、人工知能システムの重要な特徴です。
さまざまな研究では、単一の画像のテキストの生成に焦点を当てています。
対照的に、複数のイメージのビジョンからテキストへの設定に関する作業を徹底的に分析および前進させることには、比較的注意が払われていません。
このポジションペーパーでは、複数の画像またはフレームの一時的に順序付けられたシーケンスを扱うタスクは、視覚コンテンツと対応するテキストの複雑な関係の理解を含む、より広く、より一般的な問題のインスタンスであると主張しています。
この問題のインスタンスである5つのタスクを包括的に分析し、モデリングと評価アプローチの観点から、共通の課題を提起し、類似点を共有すると主張します。
マルチイメージからテキストの生成のこれらのさまざまな側面と段階からの洞察に基づいて、いくつかの未解決の質問を強調し、将来の研究の方向性を提案します。
これらの方向は、このドメインの複雑な現象の理解とより良いモデルの開発を進めることができると考えています。
要約(オリジナル)
The ability to use natural language to talk about visual content is at the core of human intelligence and a crucial feature of any artificial intelligence system. Various studies have focused on generating text for single images. In contrast, comparatively little attention has been paid to exhaustively analyzing and advancing work on multiple-image vision-to-text settings. In this position paper, we claim that any task dealing with temporally ordered sequences of multiple images or frames is an instance of a broader, more general problem involving the understanding of intricate relationships between the visual content and the corresponding text. We comprehensively analyze five tasks that are instances of this problem and argue that they pose a common set of challenges and share similarities in terms of modeling and evaluation approaches. Based on the insights from these various aspects and stages of multi-image-to-text generation, we highlight several open questions and suggest future research directions. We believe that these directions can advance the understanding of complex phenomena in this domain and the development of better models.
arxiv情報
著者 | Aditya K Surikuchi,Raquel Fernández,Sandro Pezzelle |
発行日 | 2025-02-18 16:48:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google