月別アーカイブ: 2024年7月

STARS: Self-supervised Tuning for 3D Action Recognition in Skeleton Sequences

要約 マスクされた予測を使用した自己教師あり事前トレーニング手法は、スケルトンベ … 続きを読む

カテゴリー: cs.CV | STARS: Self-supervised Tuning for 3D Action Recognition in Skeleton Sequences はコメントを受け付けていません

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

要約 人間中心のビデオ生成は大幅に進歩しましたが、ビデオ深度の共同生成の問題は依 … 続きを読む

カテゴリー: cs.CV | IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation はコメントを受け付けていません

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

要約 視覚言語モデルの最近の進歩により、視覚的命令の調整を通じて幅広いタスクが顕 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant はコメントを受け付けていません

GRUtopia: Dream General Robots in a City at Scale

要約 最近の研究では、身体化された AI の分野におけるスケーリングの法則を調査 … 続きを読む

カテゴリー: cs.CV, cs.RO | GRUtopia: Dream General Robots in a City at Scale はコメントを受け付けていません

Can Textual Semantics Mitigate Sounding Object Segmentation Preference?

要約 オーディオビジュアルセグメンテーション (AVS) タスクは、オーディオキ … 続きを読む

カテゴリー: cs.CV | Can Textual Semantics Mitigate Sounding Object Segmentation Preference? はコメントを受け付けていません

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

要約 従来の参照セグメンテーション タスクは主に静かな視覚シーンに焦点を当ててお … 続きを読む

カテゴリー: cs.AI, cs.CV | Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes はコメントを受け付けていません

InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models

要約 既製のテキストから画像への潜在拡散モデルを使用して、ビデオ内のオブジェクト … 続きを読む

カテゴリー: cs.CV | InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models はコメントを受け付けていません

Multi-Attention Integrated Deep Learning Frameworks for Enhanced Breast Cancer Segmentation and Identification

要約 乳がんは世界中で生命に深刻な脅威を与えており、毎年多くの命が奪われています … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV, F.2.2 | Multi-Attention Integrated Deep Learning Frameworks for Enhanced Breast Cancer Segmentation and Identification はコメントを受け付けていません

No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations

要約 このペーパーでは、自己教師あり勾配を活用してビジョン エンコーダーの機能を … 続きを読む

カテゴリー: cs.CV, cs.LG | No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations はコメントを受け付けていません

VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation

要約 視覚モデルの領域では、主な表現モードはピクセルを使用して視覚世界をラスタラ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation はコメントを受け付けていません