cs.MM」カテゴリーアーカイブ

Can We Edit Multimodal Large Language Models?

要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Can We Edit Multimodal Large Language Models? はコメントを受け付けていません

A Perspective on Deep Vision Performance with Standard Image and Video Codecs

要約 エッジ デバイスや携帯電話など、リソースに制約のあるハードウェアは、ディー … 続きを読む

カテゴリー: cs.CV, cs.MM | A Perspective on Deep Vision Performance with Standard Image and Video Codecs はコメントを受け付けていません

Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion

要約 人間の動きの理解は、大規模なモーション キャプチャ データセットの利用によ … 続きを読む

カテゴリー: cs.CV, cs.MM | Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion はコメントを受け付けていません

State Space Model for New-Generation Network Alternative to Transformers: A Survey

要約 ディープラーニング後の時代において、Transformer アーキテクチャ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | State Space Model for New-Generation Network Alternative to Transformers: A Survey はコメントを受け付けていません

Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

要約 大規模ビジョン言語モデル (LVLM) は、自然言語に基づいて視覚表現を導 … 続きを読む

カテゴリー: cs.CV, cs.MM | Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection はコメントを受け付けていません

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

要約 CLIP などの大規模な視覚および言語モデルは、通常、Web スケールのデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models はコメントを受け付けていません

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture

要約 この研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を促進 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.MM | WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture はコメントを受け付けていません

GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models

要約 本稿では、ドラッグ編集の安定性と画質を向上させる新しいアプローチである G … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models はコメントを受け付けていません

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

要約 ビデオ内の人間のアクションやアクティビティの認識は、監視と監視、自動運転車 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.MM, I.2 | ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos はコメントを受け付けていません

Dynamic Resolution Guidance for Facial Expression Recognition

要約 顔の表情認識 (FER) は、人間とコンピューターのインタラクションや感情 … 続きを読む

カテゴリー: cs.CV, cs.MM | Dynamic Resolution Guidance for Facial Expression Recognition はコメントを受け付けていません