「cs.CV」カテゴリーアーカイブ

Benchmarking the Robustness of Optical Flow Estimation to Corruptions

投稿日: 2024年11月25日作成者: jarxiv

要約オプティカルフロー推定は、自動運転やビデオ編集で広く使用されています。 … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

Implementation of Real-Time Lane Detection on Autonomous Mobile Robot

投稿日: 2024年11月25日作成者: jarxiv

要約この論文では、自律移動ロボットへの学習ベースの車線検出アルゴリズムの実装に … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

投稿日: 2024年11月25日作成者: jarxiv

要約 Large Vision Language Models (LVLM) の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Continual SFT Matches Multimodal RLHF with Negative Supervision

投稿日: 2024年11月25日作成者: jarxiv

要約マルチモーダル RLHF は通常、視覚言語モデル (VLM) の理解を継続 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension

投稿日: 2024年11月25日作成者: jarxiv

要約参照表現理解 (REC) は、自然言語表現によってシーン内の特定のオブジェ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization

投稿日: 2024年11月25日作成者: jarxiv

要約この論文では、ロボットが自然言語の指示に基づいて現実的な 3D 環境をナビ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models

投稿日: 2024年11月25日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) の急 … 続きを読む →

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation

投稿日: 2024年11月25日作成者: jarxiv

要約拡散モデルはテキストから画像への生成において目覚ましい成功を収めており、こ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

投稿日: 2024年11月25日作成者: jarxiv

要約大規模言語モデル (LLM) は、長いテキストから情報を取得することに優れ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

HistoEncoder: a digital pathology foundation model for prostate cancer

投稿日: 2024年11月25日作成者: jarxiv

要約基盤モデルは、複雑なパターンを区別するために大量のデータでトレーニングされ … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Benchmarking the Robustness of Optical Flow Estimation to Corruptions

Implementation of Real-Time Lane Detection on Autonomous Mobile Robot

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Continual SFT Matches Multimodal RLHF with Negative Supervision

Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension

Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization

VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models

Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation

ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

HistoEncoder: a digital pathology foundation model for prostate cancer

最近の投稿

最近のコメント

アーカイブ

カテゴリー