cs.CV」カテゴリーアーカイブ

ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification

要約 センチネルなどのシステムからのリモートセンシング画像は、約10メートルの解 … 続きを読む

カテゴリー: cs.CV, cs.LG | ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification はコメントを受け付けていません

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

要約 DeepSeek-R1-Zeroは、補強学習(RL)を通じて純粋にLLMS … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models はコメントを受け付けていません

VAGUE: Visual Contexts Clarify Ambiguous Expressions

要約 人間のコミュニケーションは、多くの場合、曖昧さを解決するために視覚的な手が … 続きを読む

カテゴリー: cs.CL, cs.CV | VAGUE: Visual Contexts Clarify Ambiguous Expressions はコメントを受け付けていません

Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency

要約 ビジョン言語モデル(VLM)は視覚的な推論に優れていますが、多くの場合、高 … 続きを読む

カテゴリー: cs.CL, cs.CV | Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency はコメントを受け付けていません

KinMo: Kinematic-aware Human Motion Understanding and Generation

要約 現在の人間のモーション合成フレームワークは、グローバルなアクションの説明に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | KinMo: Kinematic-aware Human Motion Understanding and Generation はコメントを受け付けていません

Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection

要約 カメラベースのマルチビュー3D検出は、低コストと幅広い適用性により、自律運 … 続きを読む

カテゴリー: cs.AI, cs.CV | Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection はコメントを受け付けていません

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

要約 検証可能な結果報酬(RLVR)による補強学習は、大規模な言語モデル(LLM … 続きを読む

カテゴリー: cs.AI, cs.CV | GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training はコメントを受け付けていません

Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model

要約 この研究では、腎臓の凍結アブレーション中の凍結領域(氷玉)の進行を予測する … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model はコメントを受け付けていません

Forgotten Polygons: Multimodal Large Language Models are Shape-Blind

要約 ビジョン言語のタスクでのパフォーマンスが強いにもかかわらず、マルチモーダル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Forgotten Polygons: Multimodal Large Language Models are Shape-Blind はコメントを受け付けていません

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

要約 テキストからイメージ(T2I)の生成は、拡散モデルで大きな進歩を遂げており … 続きを読む

カテゴリー: cs.CV | GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis はコメントを受け付けていません