cs.CV」カテゴリーアーカイブ

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

要約 検索エンジンでは未知の情報をテキストで検索することができます。 ただし、モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines はコメントを受け付けていません

Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective

要約 概念の粒度に焦点を当てて、画像テキスト検索 (ITR) 評価パイプラインの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR | Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective はコメントを受け付けていません

Multi-modal AI for comprehensive breast cancer prognostication

要約 乳がんの治療選択は、分子サブタイプと臨床的特徴によって決まります。 再発リ … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Multi-modal AI for comprehensive breast cancer prognostication はコメントを受け付けていません

AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?

要約 Large Vision-Language Model (LVLM) は、 … 続きを読む

カテゴリー: cs.AI, cs.CV | AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? はコメントを受け付けていません

LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

要約 自己回帰 (AR) 生成モデルの現在のビデオ トークン化方法の制限を克服す … 続きを読む

カテゴリー: cs.AI, cs.CV | LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior はコメントを受け付けていません

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup はコメントを受け付けていません

On Inductive Biases That Enable Generalization of Diffusion Transformers

要約 UNet ベースのデノイザーを使用した拡散モデルの一般化を研究する最近の研 … 続きを読む

カテゴリー: cs.CV | On Inductive Biases That Enable Generalization of Diffusion Transformers はコメントを受け付けていません

Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context

要約 アクションの逐次実行と、さまざまな抽象化レベルで構成されるその階層構造は、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context はコメントを受け付けていません

x-RAGE: eXtended Reality — Action & Gesture Events Dataset

要約 メタバースの出現と近年のウェアラブル デバイスへの注目により、ジェスチャ … 続きを読む

カテゴリー: cs.CV, cs.ET | x-RAGE: eXtended Reality — Action & Gesture Events Dataset はコメントを受け付けていません

NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction

要約 非侵襲脳活動からの静的視覚刺激の再構成 fMRI は、CLIP や安定拡散 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction はコメントを受け付けていません