cs.AI」カテゴリーアーカイブ

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

要約 空間理解は、ロボットが環境に基づいて根拠のある意思決定を行うための重要な能 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics はコメントを受け付けていません

A Review of Mechanistic Models of Event Comprehension

要約 このレビューでは、談話理解理論から現代の出来事認識フレームワークへの進化を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | A Review of Mechanistic Models of Event Comprehension はコメントを受け付けていません

CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features

要約 CLIP のようなマルチモーダル エンコーダは、ゼロショット画像分類やクロ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features はコメントを受け付けていません

CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation

要約 新しく提案された Generalized Referring Expres … 続きを読む

カテゴリー: cs.AI, cs.CV | CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation はコメントを受け付けていません

Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval

要約 テキストから画像への人物検索 (TIPR) の目的は、指定されたテキストの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval はコメントを受け付けていません

Imperceptible Adversarial Examples in the Physical World

要約 ディープラーニングベースのコンピュータービジョンモデルに対するデジタルドメ … 続きを読む

カテゴリー: cs.AI, cs.CV | Imperceptible Adversarial Examples in the Physical World はコメントを受け付けていません

Word4Per: Zero-shot Composed Person Retrieval

要約 特定の人物の検索には大きな社会的利点とセキュリティ上の価値があり、多くの場 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR | Word4Per: Zero-shot Composed Person Retrieval はコメントを受け付けていません

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding

要約 この研究では、最大 2,560$\times$2,560 の解像度で画像を … 続きを読む

カテゴリー: cs.AI, cs.CV | DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding はコメントを受け付けていません

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

要約 ストーリーテリング ビデオ生成 (SVG) は、入力テキスト スクリプトで … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation はコメントを受け付けていません

OminiControl: Minimal and Universal Control for Diffusion Transformer

要約 このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | OminiControl: Minimal and Universal Control for Diffusion Transformer はコメントを受け付けていません