-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration
要約 参照式理解(REC)は、言語の理解、イメージの理解、言語から画像への接地の … 続きを読む
カテゴリー: cs.CV
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration はコメントを受け付けていません
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
要約 反りと侵入の方法論を介して、整列した新規ビューイメージとジオメトリ生成を実 … 続きを読む
カテゴリー: cs.CV
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation はコメントを受け付けていません
Real-World Deployment of a Lane Change Prediction Architecture Based on Knowledge Graph Embeddings and Bayesian Inference
要約 レーン変化予測に関する研究は、ここ数年で多くの勢いを獲得しました。 ただし … 続きを読む
Evaluating Sensitivity Parameters in Smartphone-Based Gaze Estimation: A Comparative Study of Appearance-Based and Infrared Eye Trackers
要約 この研究では、パフォーマンスを商用赤外線ベースのアイトラッカーであるTob … 続きを読む
SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis
要約 外科的シミュレーションは、初心者の外科医の訓練、学習曲線の加速、術中エラー … 続きを読む
カテゴリー: cs.CV
SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis はコメントを受け付けていません
Visual Pre-Training on Unlabeled Images using Reinforcement Learning
要約 強化学習(RL)では、価値ベースのアルゴリズムは、各観察結果を状態に関連付 … 続きを読む
YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series
要約 このレビューでは、Yolov1から最近発表されたYolov12への1回のみ … 続きを読む
カテゴリー: cs.CV
YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series はコメントを受け付けていません
How Visual Representations Map to Language Feature Space in Multimodal LLMs
要約 効果的なマルチモーダル推論は、視覚表現と言語表現の整合に依存しますが、視覚 … 続きを読む
Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal
要約 テスト時間スケーリングは、追加のトレーニングなしでビジョン言語大規模モデル … 続きを読む
カテゴリー: cs.CV
Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal はコメントを受け付けていません
VGR: Visual Grounded Reasoning
要約 マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言 … 続きを読む