cs.CV」カテゴリーアーカイブ

Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models

要約 脳の活動がさまざまな刺激にどのように対応するかを理解するプロセスである神経 … 続きを読む

カテゴリー: cs.CV | Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models はコメントを受け付けていません

Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models

要約 ピクセル完璧な精度でフォトリアリスティックな画像コンテンツを生成できる拡散 … 続きを読む

カテゴリー: cs.CV, cs.LG | Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models はコメントを受け付けていません

Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis

要約 text-to-image (T2I) モデルは優れた生成機能を示しますが … 続きを読む

カテゴリー: cs.AI, cs.CV | Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis はコメントを受け付けていません

ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition

要約 私たちの世界はさまざまな行動に満ちており、私たち人間はそれを特定し、理解し … 続きを読む

カテゴリー: cs.CV | ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition はコメントを受け付けていません

Edify 3D: Scalable High-Quality 3D Asset Generation

要約 高品質の 3D アセット生成のために設計された高度なソリューションである … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Edify 3D: Scalable High-Quality 3D Asset Generation はコメントを受け付けていません

Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis

要約 文書分析分野のほとんどのデータセットは高度に標準化されたラベルを利用してお … 続きを読む

カテゴリー: cs.CV | Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis はコメントを受け付けていません

Lost in Tracking Translation: A Comprehensive Analysis of Visual SLAM in Human-Centered XR and IoT Ecosystems

要約 追跡アルゴリズムの進歩により、自動運転車の操縦からロボットの誘導、ユーザー … 続きを読む

カテゴリー: cs.CV, cs.RO | Lost in Tracking Translation: A Comprehensive Analysis of Visual SLAM in Human-Centered XR and IoT Ecosystems はコメントを受け付けていません

VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding

要約 リモート センシング画像用の汎用大規模ビジョン言語モデルの開発を促進するた … 続きを読む

カテゴリー: cs.CV | VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding はコメントを受け付けていません

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

要約 高解像度拡散モデルを加速するための新しいオートエンコーダー モデル ファミ … 続きを読む

カテゴリー: cs.AI, cs.CV | Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models はコメントを受け付けていません

FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models

要約 人間の動きの合成は、コンピューター アニメーションの基本的なタスクです。 … 続きを読む

カテゴリー: cs.CV | FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models はコメントを受け付けていません