月別アーカイブ: 2024年6月

Single-image camera calibration with model-free distortion correction

要約 カメラのキャリブレーションは、正確な定量的測定を必要とするコンピュータ ビ … 続きを読む

カテゴリー: cs.CV | Single-image camera calibration with model-free distortion correction はコメントを受け付けていません

Unsupervised Domain Adaptation for Pediatric Brain Tumor Segmentation

要約 成人神経膠腫の正確な自動セグメンテーション モデルの構築に向けて大幅な進歩 … 続きを読む

カテゴリー: cs.CV, eess.IV | Unsupervised Domain Adaptation for Pediatric Brain Tumor Segmentation はコメントを受け付けていません

From Perfect to Noisy World Simulation: Customizable Embodied Multi-modal Perturbations for SLAM Robustness Benchmarking

要約 身体化されたエージェントは、非構造化環境で動作するために堅牢なナビゲーショ … 続きを読む

カテゴリー: cs.CV, cs.RO | From Perfect to Noisy World Simulation: Customizable Embodied Multi-modal Perturbations for SLAM Robustness Benchmarking はコメントを受け付けていません

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

要約 ビジョン言語モデル (VLM) におけるロングコンテキストの抽出推論を評価 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts はコメントを受け付けていません

Long Context Transfer from Language to Vision

要約 ビデオ シーケンスは貴重な時間情報を提供しますが、既存の大規模マルチモーダ … 続きを読む

カテゴリー: cs.CV | Long Context Transfer from Language to Vision はコメントを受け付けていません

DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

要約 パーソナライズされた画像生成は、パーソナライズされたコンテンツを創造的に生 … 続きを読む

カテゴリー: cs.CV | DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation はコメントを受け付けていません

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

要約 視覚中心のアプローチで設計されたマルチモーダル LLM (MLLM) ファ … 続きを読む

カテゴリー: cs.CV | Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs はコメントを受け付けていません

Dreamitate: Real-World Visuomotor Policy Learning via Video Generation

要約 操作における主な課題は、多様な視覚環境に堅牢に一般化できるポリシーを学習す … 続きを読む

カテゴリー: cs.CV, cs.RO | Dreamitate: Real-World Visuomotor Policy Learning via Video Generation はコメントを受け付けていません

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

要約 普及モデルはビデオ生成において顕著な能力を実証しており、生成プロセスに軌道 … 続きを読む

カテゴリー: cs.CV | FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models はコメントを受け付けていません

Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

要約 参照表現理解 (REC) には、テキストの説明に基づいてターゲット インス … 続きを読む

カテゴリー: cs.CV | Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models はコメントを受け付けていません