月別アーカイブ: 2025年5月

Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need

要約 深いニューラルネットワーク(DNN)は、データ分布が時間とともに変化する現 … 続きを読む

カテゴリー: cs.AI, cs.CV | Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need はコメントを受け付けていません

To Trust Or Not To Trust Your Vision-Language Model’s Prediction

要約 ビジョン言語モデル(VLM)は、視覚的およびテキストのモダリティを調整する … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | To Trust Or Not To Trust Your Vision-Language Model’s Prediction はコメントを受け付けていません

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩により、2Dビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence はコメントを受け付けていません

REOrdering Patches Improves Vision Models

要約 トランスなどのシーケンスモデルでは、入力を1次元シーケンスとして表す必要が … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | REOrdering Patches Improves Vision Models はコメントを受け付けていません

ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks

要約 大規模な言語モデル(LLMS)の最近の進歩により、段階的な推論を通じて複雑 … 続きを読む

カテゴリー: cs.CV | ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks はコメントを受け付けていません

Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping

要約 根底にある幾何学的原始として、3D指向のボックスを使用してローカリゼーショ … 続きを読む

カテゴリー: cs.CV | Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping はコメントを受け付けていません

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

要約 LORAモデルを使用したマルチコンセプト画像編集の最初のフレームワークであ … 続きを読む

カテゴリー: cs.CV | LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers はコメントを受け付けていません

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

要約 自律運転のビジョン言語アクション(VLA)モデルは、主にターゲットベンチマ … 続きを読む

カテゴリー: cs.CV | Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models はコメントを受け付けていません

Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint

要約 レバスパズル、画像を介して言語をエンコードする視覚的な謎、空間的配置、およ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint はコメントを受け付けていません

Diffusion Classifiers Understand Compositionality, but Conditions Apply

要約 視覚的なシーンを理解することは、人間の知性の基本です。 識別モデルにはコン … 続きを読む

カテゴリー: cs.CV | Diffusion Classifiers Understand Compositionality, but Conditions Apply はコメントを受け付けていません