cs.AI」カテゴリーアーカイブ

Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning

要約 最近、Large Vision-Language Model (LVLM) … 続きを読む

カテゴリー: cs.AI, cs.CV | Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning はコメントを受け付けていません

Abstracted Gaussian Prototypes for One-Shot Concept Learning

要約 オムニグロット チャレンジからインスピレーションを得たワンショット学習に基 … 続きを読む

カテゴリー: cs.AI, cs.CV | Abstracted Gaussian Prototypes for One-Shot Concept Learning はコメントを受け付けていません

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

要約 基礎モデルは、時系列予測 (TSF) における有望なアプローチとして浮上し … 続きを読む

カテゴリー: cs.AI, cs.CV | VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters はコメントを受け付けていません

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

要約 大規模マルチモーダル モデル (LMM) の最近の評価では、さまざまな領域 … 続きを読む

カテゴリー: cs.AI, cs.CV | UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios はコメントを受け付けていません

CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation

要約 深度推定は、自動運転において 3D シーンを正確に解釈するために重要です。 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.SP | CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation はコメントを受け付けていません

Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering

要約 変圧器ベースのモデルの使用は社会全体で急速に増加しています。 この成長に伴 … 続きを読む

カテゴリー: (Primary), 68T50, cs.AI, cs.CL, cs.CV, cs.LG, I.2.4 | Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering はコメントを受け付けていません

A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text

要約 この研究論文では、デジタル ウルドゥー語テキスト向けに特別に設計された新し … 続きを読む

カテゴリー: cs.AI, cs.CV | A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text はコメントを受け付けていません

Open-vocabulary Temporal Action Localization using VLMs

要約 ビデオ アクションのローカリゼーションは、長いビデオから特定のアクションの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Open-vocabulary Temporal Action Localization using VLMs はコメントを受け付けていません

Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane

要約 私たちは、シングル パスでセマンティック構成の 3D シーンを生成できる拡 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane はコメントを受け付けていません

Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding

要約 既存の研究では、長い形式のビデオを拡張された短いビデオとして扱うことがよく … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding はコメントを受け付けていません