cs.CV」カテゴリーアーカイブ

C3T: Cross-modal Transfer Through Time for Human Action Recognition

要約 多様なセンサーの可能性を解き放つために、人間行動認識 (HAR) のための … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, eess.SP | C3T: Cross-modal Transfer Through Time for Human Action Recognition はコメントを受け付けていません

Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis

要約 QUIC は、ますます使用されている新しいトランスポート プロトコルであり … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI | Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis はコメントを受け付けていません

In the Era of Prompt Learning with Vision-Language Models

要約 CLIP のような大規模な基盤モデルは、強力なゼロショット汎化を示していま … 続きを読む

カテゴリー: cs.CV | In the Era of Prompt Learning with Vision-Language Models はコメントを受け付けていません

Robust Iris Centre Localisation for Assistive Eye-Gaze Tracking

要約 この研究作業では、視線追跡プラットフォームの中核コンポーネントとして、制約 … 続きを読む

カテゴリー: cs.CV | Robust Iris Centre Localisation for Assistive Eye-Gaze Tracking はコメントを受け付けていません

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

要約 視覚模倣学習方法は強力なパフォーマンスを示しますが、照明やテクスチャの変化 … 続きを読む

カテゴリー: cs.CV, cs.RO | Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion はコメントを受け付けていません

VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

要約 ビデオ内の複雑な空間的および時間的ダイナミクスのため、ビデオとテキストの間 … 続きを読む

カテゴリー: cs.CV | VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos はコメントを受け付けていません

MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

要約 私たちは、まばらな観測のみを使用して、現実世界の多様なシーンの 360{\ … 続きを読む

カテゴリー: cs.CV | MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views はコメントを受け付けていません

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

要約 AI 生成コンテンツ (AIGC) の出現により、従来のプロセスを合理化す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MA | StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration はコメントを受け付けていません

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

要約 このペーパーでは、ビデオ拡散を使用して単一の画像からフォトリアリスティック … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion はコメントを受け付けていません

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering

要約 Audio-Visual Question Answering (AVQA … 続きを読む

カテゴリー: cs.CV | SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering はコメントを受け付けていません