cs.CV」カテゴリーアーカイブ

MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning

要約 構成ゼロショット学習(CZSL)は、見た構成からセマンティックプリミティブ … 続きを読む

カテゴリー: cs.CV | MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning はコメントを受け付けていません

Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

要約 多くの場合、アノテーターグループとエンドユーザーグループ間でニーズと視覚能 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC | Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions はコメントを受け付けていません

TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM

要約 Timezeroを紹介します。Timezeroは、Timezeroを紹介し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM はコメントを受け付けていません

Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning

要約 前処理された大規模な言語モデル(LLM)は、微調整(SFT)段階(Zhou … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning はコメントを受け付けていません

Scale Efficient Training for Large Datasets

要約 データセットスケールの急速な成長は、深い学習研究を進めるための重要な要因と … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Scale Efficient Training for Large Datasets はコメントを受け付けていません

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

要約 科学研究には、マルチモーダルデータよりも洗練された推論が必要です。これは、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, q-bio.CB | MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research はコメントを受け付けていません

U2AD: Uncertainty-based Unsupervised Anomaly Detection Framework for Detecting T2 Hyperintensity in MRI Spinal Cord

要約 脊髄MR画像のT2高強度は、変性頸部骨髄障害などの条件のための重要なバイオ … 続きを読む

カテゴリー: cs.CV, eess.IV | U2AD: Uncertainty-based Unsupervised Anomaly Detection Framework for Detecting T2 Hyperintensity in MRI Spinal Cord はコメントを受け付けていません

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

要約 データ表現の選択は、幾何学的なタスクにおける深い学習の成功における重要な要 … 続きを読む

カテゴリー: cs.CV | DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

CLIP’s Visual Embedding Projector is a Few-shot Cornucopia

要約 少数のショット分類のために、Clip(Radford et al。、202 … 続きを読む

カテゴリー: cs.CV | CLIP’s Visual Embedding Projector is a Few-shot Cornucopia はコメントを受け付けていません