- 
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
 - Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
 - Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
 - Mass-Adaptive Admittance Control for Robotic Manipulators
 - DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
 - 
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models
要約 ビジョン言語モデル(VLM)は、言語のみの対応物の特性と同様の特性であるコ … 続きを読む
Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features
要約 LlavaやQwen-VLのような生成的大規模マルチモーダルモデル(LMM … 続きを読む
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
要約 推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいてオブジェク … 続きを読む
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning
要約 手続き的なアクティビティを理解するには、アクションステップがシーンをどのよ … 続きを読む
									
						カテゴリー: cs.CV					
					
				
				
				What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning はコメントを受け付けていません
							
		CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?
要約 マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた … 続きを読む
Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920
要約 この記事では、デジタル化された教会の移動記録を使用して、1800年から19 … 続きを読む
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards
要約 大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む
SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
要約 手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。 既存の … 続きを読む
SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence
要約 マルチモーダル大手言語モデル(MLLM)は、さまざまなマルチモーダルタスク … 続きを読む
									
						カテゴリー: cs.CV					
					
				
				
				SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence はコメントを受け付けていません
							
		CyberV: Cybernetics for Test-time Scaling in Video Understanding
要約 現在のマルチモーダル大手言語モデル(MLLMS)は、テスト時に計算的な要求 … 続きを読む
									
						カテゴリー: cs.CV					
					
				
				
				CyberV: Cybernetics for Test-time Scaling in Video Understanding はコメントを受け付けていません