月別アーカイブ: 2024年6月

African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

要約 最近のラージ ビジョン ランゲージ モデル (LVLM) は、数多くの画像 … 続きを読む

カテゴリー: cs.CL, cs.CV | African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification はコメントを受け付けていません

V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data

要約 拡散ベースの生成モデルは、最近、驚くべき画像およびビデオ編集機能を示してい … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data はコメントを受け付けていません

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

要約 ラージ ビジョン ランゲージ モデル (LVLM) の出現により、マルチモ … 続きを読む

カテゴリー: cs.CV, cs.MM | MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding はコメントを受け付けていません

Fantastic Copyrighted Beasts and How (Not) to Generate Them

要約 最近の研究では、画像およびビデオ生成モデルがトレーニング データから著作権 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | Fantastic Copyrighted Beasts and How (Not) to Generate Them はコメントを受け付けていません

STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics

要約 マルチモーダル アルゴリズムの最近の進歩は、大規模な画像テキスト データセ … 続きを読む

カテゴリー: cs.CL, cs.CV, I.2.10, q-bio.GN | STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics はコメントを受け付けていません

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

要約 人間のインタラクション用にリアルなオーディオを生成することは、映画や仮想現 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos はコメントを受け付けていません

MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

要約 深層学習の最近の進歩は、データの依存性と大規模な学習能力により、主に Tr … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection はコメントを受け付けていません

Epicardium Prompt-guided Real-time Cardiac Ultrasound Frame-to-volume Registration

要約 超音波フレームとボリュームの位置合わせに基づいて、術中 2D 画像と術前 … 続きを読む

カテゴリー: cs.CV, eess.IV | Epicardium Prompt-guided Real-time Cardiac Ultrasound Frame-to-volume Registration はコメントを受け付けていません

Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

要約 拡散蒸留は、少数のサンプリング ステップで忠実なテキストから画像への生成を … 続きを読む

カテゴリー: cs.CV | Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps はコメントを受け付けていません

IRASim: Learning Interactive Real-Robot Action Simulators

要約 現実世界でのスケーラブルなロボット学習は、実際のロボットのコストと安全性の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | IRASim: Learning Interactive Real-Robot Action Simulators はコメントを受け付けていません