投稿者「jarxiv」のアーカイブ

Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping

投稿日: 2025年5月30日作成者: jarxiv

要約根底にある幾何学的原始として、3D指向のボックスを使用してローカリゼーショ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

投稿日: 2025年5月30日作成者: jarxiv

要約 LORAモデルを使用したマルチコンセプト画像編集の最初のフレームワークであ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

投稿日: 2025年5月30日作成者: jarxiv

要約自律運転のビジョン言語アクション（VLA）モデルは、主にターゲットベンチマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint

投稿日: 2025年5月30日作成者: jarxiv

要約レバスパズル、画像を介して言語をエンコードする視覚的な謎、空間的配置、およ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Diffusion Classifiers Understand Compositionality, but Conditions Apply

投稿日: 2025年5月30日作成者: jarxiv

要約視覚的なシーンを理解することは、人間の知性の基本です。識別モデルにはコン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

投稿日: 2025年5月30日作成者: jarxiv

要約スケッチリサーチは時間とともに集合的に成熟しているため、AT-Massの商 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

投稿日: 2025年5月30日作成者: jarxiv

要約大規模なビジョン言語モデル（VLM）の迅速な進歩により、純粋なビジョンベー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

投稿日: 2025年5月30日作成者: jarxiv

要約空間インテリジェンスは、複雑な物理的世界で動作するマルチモーダル大手言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Weight Space Representation Learning on Diverse NeRF Architectures

投稿日: 2025年5月30日作成者: jarxiv

要約ニューラル放射輝度フィールド（NERF）は、神経ネットワークの重みに形状と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

投稿日: 2025年5月30日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）の最近の進歩は、視覚言語のタスクに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint

Diffusion Classifiers Understand Compositionality, but Conditions Apply

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

Weight Space Representation Learning on Diverse NeRF Architectures

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

最近の投稿

最近のコメント

アーカイブ

カテゴリー