「cs.MM」カテゴリーアーカイブ

Vision-Language Instruction Tuning: A Review and Analysis

投稿日: 2023年11月15日作成者: jarxiv

要約命令チューニングは、大規模言語モデル (LLM) にとって不可欠な教師あり … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Instant3D: Instant Text-to-3D Generation

投稿日: 2023年11月15日作成者: jarxiv

要約 Text-to-3D 生成は、テキストプロンプトから鮮やかな 3D オブ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

NewsGPT: ChatGPT Integration for Robot-Reporter

投稿日: 2023年11月14日作成者: jarxiv

要約大規模言語モデル (LLM) とソーシャルロボットの統合は、人工知能 ( … 続きを読む →

カテゴリー: cs.HC, cs.MM, cs.RO | コメントを受け付けていません

GPT-4V(ision) as A Social Media Analysis Engine

投稿日: 2023年11月14日作成者: jarxiv

要約最近の研究により、さまざまな一般的な視覚および言語タスクにおける大規模マル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

(Un)likelihood Training for Interpretable Embedding

投稿日: 2023年11月13日作成者: jarxiv

要約クロスモーダル表現学習は、テキストとビジュアルデータの間の意味論的なギャ … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

Learning Contrastive Self-Distillation for Ultra-Fine-Grained Visual Categorization Targeting Limited Samples

投稿日: 2023年11月13日作成者: jarxiv

要約インテリジェントなマルチメディア分析の分野では、超細粒視覚分類 (Ultr … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

VDIP-TGV: Blind Image Deconvolution via Variational Deep Image Prior Empowered by Total Generalized Variation

投稿日: 2023年11月13日作成者: jarxiv

要約未知のブラーカーネルを使用してぼやけた画像から鮮明な画像を回復することは … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

MultiIoT: Towards Large-scale Multisensory Learning for the Internet of Things

投稿日: 2023年11月13日作成者: jarxiv

要約モノのインターネット (IoT) は、他のデバイスやシステムと接続してデー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

投稿日: 2023年11月10日作成者: jarxiv

要約 LLaVA-Plus は、大規模なマルチモーダルモデルの機能を拡張する汎 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Control3D: Towards Controllable Text-to-3D Generation

投稿日: 2023年11月10日作成者: jarxiv

要約大規模なテキストから画像への拡散モデルにおける最近の目覚ましい進歩により、 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Vision-Language Instruction Tuning: A Review and Analysis

Instant3D: Instant Text-to-3D Generation

NewsGPT: ChatGPT Integration for Robot-Reporter

GPT-4V(ision) as A Social Media Analysis Engine

(Un)likelihood Training for Interpretable Embedding

Learning Contrastive Self-Distillation for Ultra-Fine-Grained Visual Categorization Targeting Limited Samples

VDIP-TGV: Blind Image Deconvolution via Variational Deep Image Prior Empowered by Total Generalized Variation

MultiIoT: Towards Large-scale Multisensory Learning for the Internet of Things

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Control3D: Towards Controllable Text-to-3D Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー