月別アーカイブ: 2025年5月

Dynamic Network Flow Optimization for Task Scheduling in PTZ Camera Surveillance Systems

要約 このペーパーでは、動的監視環境でのパンチルトズーム(PTZ)カメラのスケジ … 続きを読む

カテゴリー: cs.CV, cs.SY, eess.SY, math.OC | Dynamic Network Flow Optimization for Task Scheduling in PTZ Camera Surveillance Systems はコメントを受け付けていません

Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models

要約 テキストからイメージ(T2I)モデルは、インパクトのある現実のアプリケーシ … 続きを読む

カテゴリー: cs.CV | Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models はコメントを受け付けていません

Uncertainty for SVBRDF Acquisition using Frequency Analysis

要約 このペーパーは、マルチビューキャプチャのSVBRDF取得の不確実性を定量化 … 続きを読む

カテゴリー: cs.CV, cs.GR | Uncertainty for SVBRDF Acquisition using Frequency Analysis はコメントを受け付けていません

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

要約 2021年初頭にリリースされたOpenAIのクリップは、マルチモーダルファ … 続きを読む

カテゴリー: cs.CV | OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning はコメントを受け付けていません

FastMap: Revisiting Dense and Scalable Structure from Motion

要約 速度とシンプルさに焦点を当てたモーションメソッドからの新しいグローバル構造 … 続きを読む

カテゴリー: cs.CV | FastMap: Revisiting Dense and Scalable Structure from Motion はコメントを受け付けていません

Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait

要約 制約のない環境における全身の人認識の問題に対処します。 この問題は、高度お … 続きを読む

カテゴリー: cs.CV | Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait はコメントを受け付けていません

Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation

要約 ビジョンは、特に視覚サーボを使用して、操作での使用でよく知られています。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation はコメントを受け付けていません

On Path to Multimodal Generalist: General-Level and General-Bench

要約 Multimodal Large Languageモデル(MLLM)は、L … 続きを読む

カテゴリー: cs.CV | On Path to Multimodal Generalist: General-Level and General-Bench はコメントを受け付けていません

PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

要約 複雑な3D形状を単純な幾何学的要素に分解し、人間の視覚認知において重要な役 … 続きを読む

カテゴリー: cs.CV, cs.GR | PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer はコメントを受け付けていません

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

要約 マルチモーダル大手言語モデル(MLLM)は、テキスト、ビジョン、オーディオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning はコメントを受け付けていません