「cs.CV」カテゴリーアーカイブ

Data-driven Camera and Lidar Simulation Models for Autonomous Driving: A Review from Generative Models to Volume Renderers

投稿日: 2025年3月24日作成者: jarxiv

要約知覚センサー、特にカメラとLIDARは、自律運転システム（ADS）の重要な … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, cs.RO | コメントを受け付けていません

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

投稿日: 2025年3月24日作成者: jarxiv

要約視覚的な質問応答（VQA）は、ドキュメント画像から特定の情報を抽出するため … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

投稿日: 2025年3月24日作成者: jarxiv

要約具体化された意思決定は、実際の環境で動作するAIエージェントの基本です。 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models

投稿日: 2025年3月24日作成者: jarxiv

要約トークンベースのビデオ表現は、大きな言語モデルがビデオコンテンツを解釈でき … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

投稿日: 2025年3月24日作成者: jarxiv

要約 Sphinx-Xは、Sphinxで開発された広範なマルチモダリティ大手言語 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

投稿日: 2025年3月24日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、ビジョン理解、推論、および相互 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition

投稿日: 2025年3月24日作成者: jarxiv

要約このペーパーでは、プライバシーを提供する人間の行動認識（HAR）のためのス … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV, cs.NE | コメントを受け付けていません

Embedded Visual Prompt Tuning

投稿日: 2025年3月24日作成者: jarxiv

要約大規模なデータで事前に訓練された基礎モデルは、さまざまな自然なイメージング … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Instant Adversarial Purification with Adversarial Consistency Distillation

投稿日: 2025年3月24日作成者: jarxiv

要約ニューラルネットワークは、並外れたパフォーマンスで多数の分野に革命をもたら … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection

投稿日: 2025年3月24日作成者: jarxiv

要約ディープフェイクの検出は、社会に引き起こす害を抑えるために重要です。ただ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Data-driven Camera and Lidar Simulation Models for Autonomous Driving: A Review from Generative Models to Volume Renderers

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition

Embedded Visual Prompt Tuning

Instant Adversarial Purification with Adversarial Consistency Distillation

D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー