cs.CV」カテゴリーアーカイブ

ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation

要約 私たちは、より静かなロボットの経路計画のためのナビゲーションに屋内のビジュ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation はコメントを受け付けていません

Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models

要約 モデルが強化されるにつれて、評価はより複雑になり、1 つのベンチマークで、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models はコメントを受け付けていません

Large Spatial Model: End-to-end Unposed Images to Semantic 3D

要約 限られた数の画像から 3D 構造を再構築して理解することは、コンピューター … 続きを読む

カテゴリー: cs.CV | Large Spatial Model: End-to-end Unposed Images to Semantic 3D はコメントを受け付けていません

Stable Consistency Tuning: Understanding and Improving Consistency Models

要約 拡散モデルは優れた生成品質を実現しますが、ノイズ除去の反復的な性質により生 … 続きを読む

カテゴリー: cs.CV, cs.LG | Stable Consistency Tuning: Understanding and Improving Consistency Models はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction

要約 空間知能とは、空間と時間内の 3 次元を認識し、推論し、行動する機械の能力 … 続きを読む

カテゴリー: cs.CV | Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction はコメントを受け付けていません

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

要約 ユーザー インターフェイス (UI) を理解するための汎用モデルを構築する … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms はコメントを受け付けていません

3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation

要約 マルチビュー画像拡散モデルは、オープンドメイン 3D オブジェクト生成を大 … 続きを読む

カテゴリー: cs.AI, cs.CV | 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation はコメントを受け付けていません

Unbounded: A Generative Infinite Game of Character Life Simulation

要約 生成無限ゲームの概念を紹介します。これは、生成モデルを使用することで、ハー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR, cs.LG | Unbounded: A Generative Infinite Game of Character Life Simulation はコメントを受け付けていません

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

要約 近年、さまざまな視覚的推論と理解タスクを実行できる大規模マルチモーダル モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | CAMEL-Bench: A Comprehensive Arabic LMM Benchmark はコメントを受け付けていません