投稿者「jarxiv」のアーカイブ

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration

要約 参照式理解(REC)は、言語の理解、イメージの理解、言語から画像への接地の … 続きを読む

カテゴリー: cs.CV | New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration はコメントを受け付けていません

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

要約 反りと侵入の方法論を介して、整列した新規ビューイメージとジオメトリ生成を実 … 続きを読む

カテゴリー: cs.CV | Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation はコメントを受け付けていません

Real-World Deployment of a Lane Change Prediction Architecture Based on Knowledge Graph Embeddings and Bayesian Inference

要約 レーン変化予測に関する研究は、ここ数年で多くの勢いを獲得しました。 ただし … 続きを読む

カテゴリー: cs.AI, cs.AR, cs.CV, cs.LG | Real-World Deployment of a Lane Change Prediction Architecture Based on Knowledge Graph Embeddings and Bayesian Inference はコメントを受け付けていません

Evaluating Sensitivity Parameters in Smartphone-Based Gaze Estimation: A Comparative Study of Appearance-Based and Infrared Eye Trackers

要約 この研究では、パフォーマンスを商用赤外線ベースのアイトラッカーであるTob … 続きを読む

カテゴリー: cs.CV, cs.HC | Evaluating Sensitivity Parameters in Smartphone-Based Gaze Estimation: A Comparative Study of Appearance-Based and Infrared Eye Trackers はコメントを受け付けていません

SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis

要約 外科的シミュレーションは、初心者の外科医の訓練、学習曲線の加速、術中エラー … 続きを読む

カテゴリー: cs.CV | SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis はコメントを受け付けていません

Visual Pre-Training on Unlabeled Images using Reinforcement Learning

要約 強化学習(RL)では、価値ベースのアルゴリズムは、各観察結果を状態に関連付 … 続きを読む

カテゴリー: cs.CV, cs.LG | Visual Pre-Training on Unlabeled Images using Reinforcement Learning はコメントを受け付けていません

YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series

要約 このレビューでは、Yolov1から最近発表されたYolov12への1回のみ … 続きを読む

カテゴリー: cs.CV | YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series はコメントを受け付けていません

How Visual Representations Map to Language Feature Space in Multimodal LLMs

要約 効果的なマルチモーダル推論は、視覚表現と言語表現の整合に依存しますが、視覚 … 続きを読む

カテゴリー: cs.CV, cs.LG | How Visual Representations Map to Language Feature Space in Multimodal LLMs はコメントを受け付けていません

Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal

要約 テスト時間スケーリングは、追加のトレーニングなしでビジョン言語大規模モデル … 続きを読む

カテゴリー: cs.CV | Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal はコメントを受け付けていません

VGR: Visual Grounded Reasoning

要約 マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VGR: Visual Grounded Reasoning はコメントを受け付けていません