Zero-shot Audio Topic Reranking using Large Language Models

要約

Multimodal Video Search by Examples (MVSE) は、従来のテキスト クエリではなく、情報検索のクエリ用語としてビデオ クリップを使用して調査します。
これにより、画像、話者、コンテンツ、トピック、感情など、より豊富な検索モダリティが可能になります。
このプロセスの重要な要素は、大規模なアーカイブをサポートするための非常に高速かつ柔軟な検索です。MVSE では、ビデオ属性を埋め込みで表すことによってこれが容易になります。
この研究は、再ランキングのアプローチを検討することで、この迅速なアーカイブ検索によるパフォーマンスの損失を補うことを目的としています。
特に、ラージ言語モデル (LLM) を使用したゼロショット再ランキング手法は、あらゆるビデオ アーカイブ オーディオ コンテンツに適用できるため、研究されています。
パフォーマンスは、一般公開されているビデオ アーカイブである BBC Rewind コーパスでのトピックベースの検索に対して評価されます。
結果は、タスク固有のドメイン内トレーニング データを必要とせずに、再ランキングによって検索ランキングが大幅に向上することを示しています。
さらに、LLM 再ランキングの入力としての 3 つの情報源 (ASR 転写、自動要約、および概要) が比較されました。
これらのテキスト ソースのパフォーマンスの違いと制限をより深く理解し、さらに洞察を得るために、ファクト チェックのアプローチを採用してテキスト ソース間の情報の一貫性を分析します。

要約(オリジナル)

Multimodal Video Search by Examples (MVSE) investigates using video clips as the query term for information retrieval, rather than the more traditional text query. This enables far richer search modalities such as images, speaker, content, topic, and emotion. A key element for this process is highly rapid and flexible search to support large archives, which in MVSE is facilitated by representing video attributes with embeddings. This work aims to compensate for any performance loss from this rapid archive search by examining reranking approaches. In particular, zero-shot reranking methods using large language models (LLMs) are investigated as these are applicable to any video archive audio content. Performance is evaluated for topic-based retrieval on a publicly available video archive, the BBC Rewind corpus. Results demonstrate that reranking significantly improves retrieval ranking without requiring any task-specific in-domain training data. Furthermore, three sources of information (ASR transcriptions, automatic summaries and synopses) as input for LLM reranking were compared. To gain a deeper understanding and further insights into the performance differences and limitations of these text sources, we employ a fact-checking approach to analyse the information consistency among them.

arxiv情報

著者 Mengjie Qian,Rao Ma,Adian Liusie,Erfan Loweimi,Kate M. Knill,Mark J. F. Gales
発行日 2024-09-10 13:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク