月別アーカイブ: 2025年1月

A Multi-task Supervised Compression Model for Split Computing

要約 スプリットコンピューティング(分割学習)は、リソースに制約のあるエッジコン … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | A Multi-task Supervised Compression Model for Split Computing はコメントを受け付けていません

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

要約 シーン座標回帰(SCR)を用いた学習ベースの視覚的定位法は、マップサイズを … 続きを読む

カテゴリー: cs.CV | R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization はコメントを受け付けていません

Multi-Modal Video Feature Extraction for Popularity Prediction

要約 この研究は、動画そのものとそれに関連する特徴を用いて、短い動画の人気を予測 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Multi-Modal Video Feature Extraction for Popularity Prediction はコメントを受け付けていません

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

要約 Transformerアーキテクチャを持つ潜在拡散モデルは、忠実度の高い画 … 続きを読む

カテゴリー: cs.CV, cs.LG | Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models はコメントを受け付けていません

Object-level Visual Prompts for Compositional Image Generation

要約 我々は、テキストから画像への拡散モデルの中で、オブジェクトレベルの視覚的プ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Object-level Visual Prompts for Compositional Image Generation はコメントを受け付けていません

Unifying Specialized Visual Encoders for Video Language Models

要約 最近の大規模言語モデル(Large Language Models:LLM … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Unifying Specialized Visual Encoders for Video Language Models はコメントを受け付けていません

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

要約 生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む

カテゴリー: cs.CV | Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions はコメントを受け付けていません

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

要約 映像生成における著しい進歩にもかかわらず、与えられたオブジェクトを映像に挿 … 続きを読む

カテゴリー: cs.CV | VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control はコメントを受け付けていません

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

要約 近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む

カテゴリー: cs.CV | GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models はコメントを受け付けていません

An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals

要約 表面筋電図 (sEMG) は、手の動きのパターンの認識、病気の診断、プロテ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO, eess.SP | An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals はコメントを受け付けていません