要約
Multimodal Video Search by Examples (MVSE) プロジェクトでは、情報検索のためのクエリ用語として、従来のテキスト クエリではなく、ビデオ クリップを使用する方法を調査しています。
これにより、画像、話者、コンテンツ、トピック、感情など、より豊富な検索モダリティが可能になります。
このプロセスの重要な要素は、大規模なアーカイブをサポートするための非常に高速かつ柔軟な検索です。MVSE では、埋め込みによってビデオ属性を表すことでこれが容易になります。
この取り組みは、再ランキングのアプローチを検討することで、この迅速なアーカイブ検索によるパフォーマンスの損失を軽減することを目的としています。
特に、大規模な言語モデルを使用したゼロショット再ランキング手法は、あらゆるビデオ アーカイブ オーディオ コンテンツに適用できるため、研究されています。
パフォーマンスは、一般公開されているビデオ アーカイブである BBC Rewind コーパスでのトピックベースの検索に対して評価されます。
結果は、タスク固有のトレーニング データを必要とせずに、再ランキングによって検索ランキングの向上が達成できることを示しています。
要約(オリジナル)
The Multimodal Video Search by Examples (MVSE) project investigates using video clips as the query term for information retrieval, rather than the more traditional text query. This enables far richer search modalities such as images, speaker, content, topic, and emotion. A key element for this process is highly rapid, flexible, search to support large archives, which in MVSE is facilitated by representing video attributes by embeddings. This work aims to mitigate any performance loss from this rapid archive search by examining reranking approaches. In particular, zero-shot reranking methods using large language models are investigated as these are applicable to any video archive audio content. Performance is evaluated for topic-based retrieval on a publicly available video archive, the BBC Rewind corpus. Results demonstrate that reranking can achieve improved retrieval ranking without the need for any task-specific training data.
arxiv情報
著者 | Mengjie Qian,Rao Ma,Adian Liusie,Erfan Loweimi,Kate M. Knill,Mark J. F. Gales |
発行日 | 2023-09-14 11:13:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google