「cs.CV」カテゴリーアーカイブ

VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

投稿日: 2025年6月2日作成者: jarxiv

要約コンピューター支援設計（CAD）は、時間のかかる複雑なプロセスであり、複雑 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

投稿日: 2025年6月2日作成者: jarxiv

要約このペーパーでは、最先端の大規模な言語モデル（LLM）が私たちの視覚的世界 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Reading Recognition in the Wild

投稿日: 2025年6月2日作成者: jarxiv

要約常にオンのスマートメガネでエゴセントリックコンテキストAIを有効にするには … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

投稿日: 2025年6月2日作成者: jarxiv

要約ビデオカモフラージュオブジェクト検出（VCOD）は、ビデオのバックグラウン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

投稿日: 2025年6月2日作成者: jarxiv

要約このペーパーでは、静かな話の顔のビデオから直接自然でわかりやすいスピーチを … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

投稿日: 2025年6月2日作成者: jarxiv

要約特定の物語および参照画像に合わせて視覚的に一貫した画像のシーケンスを生成す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

投稿日: 2025年6月2日作成者: jarxiv

要約高度な生成モデルによって促進されたトーキングヘッドディープファークジェネレ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Time Blindness: Why Video-Language Models Can’t See What Humans Can?

投稿日: 2025年6月2日作成者: jarxiv

要約ビジョン言語モデル（VLM）の最近の進歩は、ビデオで時空間的関係を理解する … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SiLVR: A Simple Language-based Video Reasoning Framework

投稿日: 2025年6月2日作成者: jarxiv

要約テスト時間最適化の最近の進歩により、大規模な言語モデル（LLM）の顕著な推 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GenSpace: Benchmarking Spatially-Aware Image Generation

投稿日: 2025年6月2日作成者: jarxiv

要約人間は、写真のために3Dスペースでシーンを直感的に構成して配置できます。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

Reading Recognition in the Wild

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

Time Blindness: Why Video-Language Models Can’t See What Humans Can?

SiLVR: A Simple Language-based Video Reasoning Framework

GenSpace: Benchmarking Spatially-Aware Image Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー