「cs.CV」カテゴリーアーカイブ

ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation

投稿日: 2024年10月25日作成者: jarxiv

要約私たちは、より静かなロボットの経路計画のためのナビゲーションに屋内のビジュ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models

投稿日: 2024年10月25日作成者: jarxiv

要約モデルが強化されるにつれて、評価はより複雑になり、1 つのベンチマークで、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Large Spatial Model: End-to-end Unposed Images to Semantic 3D

投稿日: 2024年10月25日作成者: jarxiv

要約限られた数の画像から 3D 構造を再構築して理解することは、コンピューター … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Stable Consistency Tuning: Understanding and Improving Consistency Models

投稿日: 2024年10月25日作成者: jarxiv

要約拡散モデルは優れた生成品質を実現しますが、ノイズ除去の反復的な性質により生 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Taming Data and Transformers for Audio Generation

投稿日: 2024年10月25日作成者: jarxiv

要約環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction

投稿日: 2024年10月25日作成者: jarxiv

要約空間知能とは、空間と時間内の 3 次元を認識し、推論し、行動する機械の能力 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

投稿日: 2024年10月25日作成者: jarxiv

要約ユーザーインターフェイス (UI) を理解するための汎用モデルを構築する … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation

投稿日: 2024年10月25日作成者: jarxiv

要約マルチビュー画像拡散モデルは、オープンドメイン 3D オブジェクト生成を大 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Unbounded: A Generative Infinite Game of Character Life Simulation

投稿日: 2024年10月25日作成者: jarxiv

要約生成無限ゲームの概念を紹介します。これは、生成モデルを使用することで、ハー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

投稿日: 2024年10月25日作成者: jarxiv

要約近年、さまざまな視覚的推論と理解タスクを実行できる大規模マルチモーダルモ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation

Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models

Large Spatial Model: End-to-end Unposed Images to Semantic 3D

Stable Consistency Tuning: Understanding and Improving Consistency Models

Taming Data and Transformers for Audio Generation

Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation

Unbounded: A Generative Infinite Game of Character Life Simulation

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

最近の投稿

最近のコメント

アーカイブ

カテゴリー