「cs.AI」カテゴリーアーカイブ

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

投稿日: 2025年2月18日作成者: jarxiv

要約コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.SD | コメントを受け付けていません

Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

投稿日: 2025年2月18日作成者: jarxiv

要約時系列モチーフディスカバリー（TSMD）は、時系列データの繰り返しパターン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

iFormer: Integrating ConvNet and Transformer for Mobile Application

投稿日: 2025年2月18日作成者: jarxiv

要約 Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいフ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

投稿日: 2025年2月18日作成者: jarxiv

要約この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

投稿日: 2025年2月18日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLMS）の急速な開発により、テキストや画 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023

投稿日: 2025年2月18日作成者: jarxiv

要約 SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Learning Generalizable Prompt for CLIP with Class Similarity Knowledge

投稿日: 2025年2月18日作成者: jarxiv

要約 Vision-Language Models（VLMS）では、迅速なチュー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images

投稿日: 2025年2月18日作成者: jarxiv

要約拡散モデルで生成された画像は、本物の写真と区別できないように見える場合があ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC | コメントを受け付けていません

Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

投稿日: 2025年2月18日作成者: jarxiv

要約実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

投稿日: 2025年2月18日作成者: jarxiv

要約統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

iFormer: Integrating ConvNet and Transformer for Mobile Application

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023

Learning Generalizable Prompt for CLIP with Class Similarity Knowledge

Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images

Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

最近の投稿

最近のコメント

アーカイブ

カテゴリー