「cs.AI」カテゴリーアーカイブ

Revisiting the Role of Language Priors in Vision-Language Models

投稿日: 2024年5月16日作成者: jarxiv

要約視覚言語モデル (VLM) が影響力を持つ理由の 1 つは、微調整を行わず … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Transforming gradient-based techniques into interpretable methods

投稿日: 2024年5月16日作成者: jarxiv

要約 xAI 技術による畳み込みニューラルネットワーク (CNN) の説明では … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

投稿日: 2024年5月16日作成者: jarxiv

要約最先端のマルチモーダルビジョン言語モデルである Xmodel-VLM を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

投稿日: 2024年5月16日作成者: jarxiv

要約音楽からダンスを生成するというタスクは重要ですが、主に関節シーケンスを生成 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Sensitivity Decouple Learning for Image Compression Artifacts Reduction

投稿日: 2024年5月16日作成者: jarxiv

要約深層学習技術の恩恵により、最近の研究では画像圧縮アーティファクトの削減にお … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

ReconBoost: Boosting Can Achieve Modality Reconcilement

投稿日: 2024年5月16日作成者: jarxiv

要約この論文では、ユニモーダル機能の活用とクロスモーダル相互作用の探索の間の調 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study

投稿日: 2024年5月16日作成者: jarxiv

要約コンテンツベースの画像検索 (CBIR) は自然画像検索において広く研究さ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR | コメントを受け付けていません

Vision-Based Neurosurgical Guidance: Unsupervised Localization and Camera-Pose Prediction

投稿日: 2024年5月16日作成者: jarxiv

要約内視鏡処置中に自分の位置を特定することは、識別可能なテクスチャやランドマー … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Fourier Boundary Features Network with Wider Catchers for Glass Segmentation

投稿日: 2024年5月16日作成者: jarxiv

要約ガラスは現実世界と反射の間の境界を大幅に曖昧にします。特殊な透過率と反射 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

A Unified Sequence Parallelism Approach for Long Context Generative AI

投稿日: 2024年5月16日作成者: jarxiv

要約入力テンソルのシーケンス次元を複数の計算デバイスに分割するシーケンス並列処 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Revisiting the Role of Language Priors in Vision-Language Models

Transforming gradient-based techniques into interpretable methods

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

Sensitivity Decouple Learning for Image Compression Artifacts Reduction

ReconBoost: Boosting Can Achieve Modality Reconcilement

Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study

Vision-Based Neurosurgical Guidance: Unsupervised Localization and Camera-Pose Prediction

Fourier Boundary Features Network with Wider Catchers for Glass Segmentation

A Unified Sequence Parallelism Approach for Long Context Generative AI

最近の投稿

最近のコメント

アーカイブ

カテゴリー