cs.CV」カテゴリーアーカイブ

Towards Interpreting Visual Information Processing in Vision-Language Models

要約 視覚言語モデル (VLM) は、テキストと画像を処理および理解するための強 … 続きを読む

カテゴリー: cs.CV, cs.LG | Towards Interpreting Visual Information Processing in Vision-Language Models はコメントを受け付けていません

CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition

要約 スケルトンベースのマルチエンティティのアクション認識は、複数の多様なエンテ … 続きを読む

カテゴリー: cs.CV, cs.LG | CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition はコメントを受け付けていません

Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis

要約 拡散モデルの最近の進歩により、画像とビデオの生成において優れた機能が実証さ … 続きを読む

カテゴリー: cs.CV | Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis はコメントを受け付けていません

InstructG2I: Synthesizing Images from Multimodal Attributed Graphs

要約 この論文では、見落とされているが重要なタスク Graph2Image、つま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SI | InstructG2I: Synthesizing Images from Multimodal Attributed Graphs はコメントを受け付けていません

AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

要約 拡散モデルの最近の進歩により、4D 全身ヒューマン オブジェクト インタラ … 続きを読む

カテゴリー: cs.CV | AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation はコメントを受け付けていません

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

要約 ラージ ビジョン言語モデル (LVLM) のマルチモーダル事前トレーニング … 続きを読む

カテゴリー: cs.CL, cs.CV | Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate はコメントを受け付けていません

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約 RPG、Stable Diffusion 3、FLUX などの高度な拡散モ … 続きを読む

カテゴリー: cs.CV | IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation はコメントを受け付けていません

Do better language models have crisper vision?

要約 テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Do better language models have crisper vision? はコメントを受け付けていません

MM-Ego: Towards Building Egocentric Multimodal LLMs

要約 この研究は、自己中心的なビデオ理解のためのマルチモーダル基盤モデルの構築を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MM-Ego: Towards Building Egocentric Multimodal LLMs はコメントを受け付けていません

Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約 複数のタスクを完了できるジェネラリストの身体化エージェントを学習するには、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training はコメントを受け付けていません