「cs.CV」カテゴリーアーカイブ

C3T: Cross-modal Transfer Through Time for Human Action Recognition

投稿日: 2024年11月8日作成者: jarxiv

要約多様なセンサーの可能性を解き放つために、人間行動認識 (HAR) のための … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, eess.SP | コメントを受け付けていません

Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis

投稿日: 2024年11月8日作成者: jarxiv

要約 QUIC は、ますます使用されている新しいトランスポートプロトコルであり … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI | コメントを受け付けていません

In the Era of Prompt Learning with Vision-Language Models

投稿日: 2024年11月8日作成者: jarxiv

要約 CLIP のような大規模な基盤モデルは、強力なゼロショット汎化を示していま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Robust Iris Centre Localisation for Assistive Eye-Gaze Tracking

投稿日: 2024年11月8日作成者: jarxiv

要約この研究作業では、視線追跡プラットフォームの中核コンポーネントとして、制約 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

投稿日: 2024年11月8日作成者: jarxiv

要約視覚模倣学習方法は強力なパフォーマンスを示しますが、照明やテクスチャの変化 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

投稿日: 2024年11月8日作成者: jarxiv

要約ビデオ内の複雑な空間的および時間的ダイナミクスのため、ビデオとテキストの間 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

投稿日: 2024年11月8日作成者: jarxiv

要約私たちは、まばらな観測のみを使用して、現実世界の多様なシーンの 360{\ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

投稿日: 2024年11月8日作成者: jarxiv

要約 AI 生成コンテンツ (AIGC) の出現により、従来のプロセスを合理化す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MA | コメントを受け付けていません

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

投稿日: 2024年11月8日作成者: jarxiv

要約このペーパーでは、ビデオ拡散を使用して単一の画像からフォトリアリスティック … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering

投稿日: 2024年11月8日作成者: jarxiv

要約 Audio-Visual Question Answering (AVQA … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

C3T: Cross-modal Transfer Through Time for Human Action Recognition

Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis

In the Era of Prompt Learning with Vision-Language Models

Robust Iris Centre Localisation for Assistive Eye-Gaze Tracking

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering

最近の投稿

最近のコメント

アーカイブ

カテゴリー