cs.AI」カテゴリーアーカイブ

3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation

要約 ビジョン言語モデル(VLM)は、多様な視覚的および言語的タスクで顕著なパフ … 続きを読む

カテゴリー: cs.AI, cs.CV | 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation はコメントを受け付けていません

HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

要約 拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要 … 続きを読む

カテゴリー: cs.AI, cs.CV | HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations はコメントを受け付けていません

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

要約 物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む

カテゴリー: cs.AI, cs.CV, I.2.10 | CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models はコメントを受け付けていません

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

要約 ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一された … 続きを読む

カテゴリー: cs.AI, cs.CV | UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting はコメントを受け付けていません

Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos

要約 外部の知識視覚的質問(OK-VQA)では、モデルは画像内に関連する視覚情報 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos はコメントを受け付けていません

Vision Generalist Model: A Survey

要約 最近、私たちは自然言語加工におけるジェネラリストモデルの大成功を目撃しまし … 続きを読む

カテゴリー: cs.AI, cs.CV | Vision Generalist Model: A Survey はコメントを受け付けていません

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

要約 大規模な言語モデル(LLMS)を使用したテキストの推論が大幅に進歩している … 続きを読む

カテゴリー: cs.AI, cs.CV, I.2 | Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing はコメントを受け付けていません

TerraMind: Large-Scale Generative Multimodality for Earth Observation

要約 地球観測のための最初の生成的なマルチモーダル基礎モデル(EO)であるTer … 続きを読む

カテゴリー: cs.AI, cs.CV | TerraMind: Large-Scale Generative Multimodality for Earth Observation はコメントを受け付けていません

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

要約 現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶこ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning はコメントを受け付けていません

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

要約 豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD | InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions はコメントを受け付けていません