cs.AI」カテゴリーアーカイブ

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

要約 コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.SD | ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition はコメントを受け付けていません

Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

要約 時系列モチーフディスカバリー(TSMD)は、時系列データの繰り返しパターン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery はコメントを受け付けていません

iFormer: Integrating ConvNet and Transformer for Mobile Application

要約 Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいフ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | iFormer: Integrating ConvNet and Transformer for Mobile Application はコメントを受け付けていません

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

要約 この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパ … 続きを読む

カテゴリー: cs.AI, cs.CV | DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation はコメントを受け付けていません

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

要約 マルチモーダル大手言語モデル(MLLMS)の急速な開発により、テキストや画 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs はコメントを受け付けていません

Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023

要約 SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023 はコメントを受け付けていません

Learning Generalizable Prompt for CLIP with Class Similarity Knowledge

要約 Vision-Language Models(VLMS)では、迅速なチュー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Learning Generalizable Prompt for CLIP with Class Similarity Knowledge はコメントを受け付けていません

Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images

要約 拡散モデルで生成された画像は、本物の写真と区別できないように見える場合があ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC | Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images はコメントを受け付けていません

Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

要約 実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models はコメントを受け付けていません

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

要約 統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な … 続きを読む

カテゴリー: cs.AI, cs.CV | HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation はコメントを受け付けていません