投稿者「jarxiv」のアーカイブ

Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles

要約 ポイントクラウドの表現は最近、コンピュータービジョンの分野での研究ホットス … 続きを読む

カテゴリー: cs.CV | Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles はコメントを受け付けていません

Explorations of the Softmax Space: Knowing When the Neural Network Doesn’t Know

要約 人工知能システムが重要な状況でより広く展開されるため、ニューラルネットワー … 続きを読む

カテゴリー: cs.CV, cs.LG | Explorations of the Softmax Space: Knowing When the Neural Network Doesn’t Know はコメントを受け付けていません

Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

要約 AIGC Foundationモデルの急速な発展は、画像圧縮のパラダイムに … 続きを読む

カテゴリー: cs.CV | Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields はコメントを受け付けていません

Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

要約 Deevisum(要約のための蒸留早期出口ビジョン言語モデル)を紹介します … 続きを読む

カテゴリー: cs.AI, cs.CV | Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization はコメントを受け付けていません

ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People

要約 なじみのないシナリオでオブジェクトを検索することは、盲人にとって挑戦的な作 … 続きを読む

カテゴリー: cs.CV, cs.HC | ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People はコメントを受け付けていません

Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games

要約 ビデオゲームは意思決定コミュニティにとって有用なベンチマークとして機能しま … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games はコメントを受け付けていません

3D Stylization via Large Reconstruction Model

要約 テキストまたはイメージガイド付き3Dジェネレーターの成功が高まっているため … 続きを読む

カテゴリー: cs.CV | 3D Stylization via Large Reconstruction Model はコメントを受け付けていません

Active Light Modulation to Counter Manipulation of Speech Visual Content

要約 有名なスピーチビデオは、そのアクセシビリティと影響力のために、偽造の主要な … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV | Active Light Modulation to Counter Manipulation of Speech Visual Content はコメントを受け付けていません

Differentiable Room Acoustic Rendering with Multi-View Vision Priors

要約 空間オーディオによって可能になった没入型の音響体験は、現実的な仮想環境を作 … 続きを読む

カテゴリー: cs.CV, cs.SD | Differentiable Room Acoustic Rendering with Multi-View Vision Priors はコメントを受け付けていません

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

要約 マルチモーダル大手言語モデル(MLLM)は、単純なビジョン言語タスクに優れ … 続きを読む

カテゴリー: cs.CV | COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning はコメントを受け付けていません