cs.CV」カテゴリーアーカイブ

Data-driven Camera and Lidar Simulation Models for Autonomous Driving: A Review from Generative Models to Volume Renderers

要約 知覚センサー、特にカメラとLIDARは、自律運転システム(ADS)の重要な … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.RO | Data-driven Camera and Lidar Simulation Models for Autonomous Driving: A Review from Generative Models to Volume Renderers はコメントを受け付けていません

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

要約 視覚的な質問応答(VQA)は、ドキュメント画像から特定の情報を抽出するため … 続きを読む

カテゴリー: cs.CL, cs.CV | Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction はコメントを受け付けていません

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

要約 具体化された意思決定は、実際の環境で動作するAIエージェントの基本です。 … 続きを読む

カテゴリー: cs.CL, cs.CV | When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making はコメントを受け付けていません

Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models

要約 トークンベースのビデオ表現は、大きな言語モデルがビデオコンテンツを解釈でき … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models はコメントを受け付けていません

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

要約 Sphinx-Xは、Sphinxで開発された広範なマルチモダリティ大手言語 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models はコメントを受け付けていません

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

要約 マルチモーダル大手言語モデル(MLLM)は、ビジョン理解、推論、および相互 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification はコメントを受け付けていません

Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition

要約 このペーパーでは、プライバシーを提供する人間の行動認識(HAR)のためのス … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.NE | Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition はコメントを受け付けていません

Embedded Visual Prompt Tuning

要約 大規模なデータで事前に訓練された基礎モデルは、さまざまな自然なイメージング … 続きを読む

カテゴリー: cs.AI, cs.CV | Embedded Visual Prompt Tuning はコメントを受け付けていません

Instant Adversarial Purification with Adversarial Consistency Distillation

要約 ニューラルネットワークは、並外れたパフォーマンスで多数の分野に革命をもたら … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Instant Adversarial Purification with Adversarial Consistency Distillation はコメントを受け付けていません

D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection

要約 ディープフェイクの検出は、社会に引き起こす害を抑えるために重要です。 ただ … 続きを読む

カテゴリー: cs.AI, cs.CV | D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection はコメントを受け付けていません