「cs.MM」カテゴリーアーカイブ

Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion

投稿日: 2024年4月18日作成者: jarxiv

要約人間の動きの理解は、大規模なモーションキャプチャデータセットの利用によ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

State Space Model for New-Generation Network Alternative to Transformers: A Survey

投稿日: 2024年4月16日作成者: jarxiv

要約ディープラーニング後の時代において、Transformer アーキテクチャ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

投稿日: 2024年4月16日作成者: jarxiv

要約大規模ビジョン言語モデル (LVLM) は、自然言語に基づいて視覚表現を導 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

投稿日: 2024年4月15日作成者: jarxiv

要約 CLIP などの大規模な視覚および言語モデルは、通常、Web スケールのデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture

投稿日: 2024年4月11日作成者: jarxiv

要約この研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を促進 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.HC, cs.MM | コメントを受け付けていません

GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models

投稿日: 2024年4月11日作成者: jarxiv

要約本稿では、ドラッグ編集の安定性と画質を向上させる新しいアプローチである G … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

投稿日: 2024年4月10日作成者: jarxiv

要約ビデオ内の人間のアクションやアクティビティの認識は、監視と監視、自動運転車 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.MM, I.2 | コメントを受け付けていません

Dynamic Resolution Guidance for Facial Expression Recognition

投稿日: 2024年4月10日作成者: jarxiv

要約顔の表情認識 (FER) は、人間とコンピューターのインタラクションや感情 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

投稿日: 2024年4月8日作成者: jarxiv

要約人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning

投稿日: 2024年4月8日作成者: jarxiv

要約クロスリンガルの画像キャプション付けは、マルチメディア分析におけるクロスリ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture

GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

Dynamic Resolution Guidance for Facial Expression Recognition

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning

最近の投稿

最近のコメント

アーカイブ

カテゴリー