cs.CV」カテゴリーアーカイブ

Benchmarking the Robustness of Optical Flow Estimation to Corruptions

要約 オプティカル フロー推定は、自動運転やビデオ編集で広く使用されています。 … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | Benchmarking the Robustness of Optical Flow Estimation to Corruptions はコメントを受け付けていません

Implementation of Real-Time Lane Detection on Autonomous Mobile Robot

要約 この論文では、自律移動ロボットへの学習ベースの車線検出アルゴリズムの実装に … 続きを読む

カテゴリー: cs.CV, cs.RO | Implementation of Real-Time Lane Detection on Autonomous Mobile Robot はコメントを受け付けていません

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

要約 Large Vision Language Models (LVLM) の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection はコメントを受け付けていません

Continual SFT Matches Multimodal RLHF with Negative Supervision

要約 マルチモーダル RLHF は通常、視覚言語モデル (VLM) の理解を継続 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Continual SFT Matches Multimodal RLHF with Negative Supervision はコメントを受け付けていません

Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension

要約 参照表現理解 (REC) は、自然言語表現によってシーン内の特定のオブジェ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension はコメントを受け付けていません

Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization

要約 この論文では、ロボットが自然言語の指示に基づいて現実的な 3D 環境をナビ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization はコメントを受け付けていません

VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models

要約 Large Vision-Language Model (LVLM) の急 … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, cs.LG | VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models はコメントを受け付けていません

Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation

要約 拡散モデルはテキストから画像への生成において目覚ましい成功を収めており、こ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation はコメントを受け付けていません

ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

要約 大規模言語モデル (LLM) は、長いテキストから情報を取得することに優れ … 続きを読む

カテゴリー: cs.CL, cs.CV | ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos はコメントを受け付けていません

HistoEncoder: a digital pathology foundation model for prostate cancer

要約 基盤モデルは、複雑なパターンを区別するために大量のデータでトレーニングされ … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | HistoEncoder: a digital pathology foundation model for prostate cancer はコメントを受け付けていません