cs.MM」カテゴリーアーカイブ

State Space Model for New-Generation Network Alternative to Transformers: A Survey

要約 ディープラーニング後の時代において、Transformer アーキテクチャ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | State Space Model for New-Generation Network Alternative to Transformers: A Survey はコメントを受け付けていません

Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

要約 大規模ビジョン言語モデル (LVLM) は、自然言語に基づいて視覚表現を導 … 続きを読む

カテゴリー: cs.CV, cs.MM | Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection はコメントを受け付けていません

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

要約 CLIP などの大規模な視覚および言語モデルは、通常、Web スケールのデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models はコメントを受け付けていません

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture

要約 この研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を促進 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.MM | WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture はコメントを受け付けていません

GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models

要約 本稿では、ドラッグ編集の安定性と画質を向上させる新しいアプローチである G … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models はコメントを受け付けていません

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

要約 ビデオ内の人間のアクションやアクティビティの認識は、監視と監視、自動運転車 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.MM, I.2 | ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos はコメントを受け付けていません

Dynamic Resolution Guidance for Facial Expression Recognition

要約 顔の表情認識 (FER) は、人間とコンピューターのインタラクションや感情 … 続きを読む

カテゴリー: cs.CV, cs.MM | Dynamic Resolution Guidance for Facial Expression Recognition はコメントを受け付けていません

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

要約 人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar はコメントを受け付けていません

Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning

要約 クロスリンガルの画像キャプション付けは、マルチメディア分析におけるクロスリ … 続きを読む

カテゴリー: cs.CV, cs.MM | Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning はコメントを受け付けていません

WorDepth: Variational Language Prior for Monocular Depth Estimation

要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | WorDepth: Variational Language Prior for Monocular Depth Estimation はコメントを受け付けていません