「cs.AI」カテゴリーアーカイブ

Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures

投稿日: 2025年3月20日作成者: jarxiv

要約 Deep Learning（DL）モデル画像を処理して、大規模なインフラス … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Temporal Regularization Makes Your Video Generator Stronger

投稿日: 2025年3月20日作成者: jarxiv

要約一時的な品質は、フレーム全体で一貫した動きと現実的なダイナミクスを保証する … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

投稿日: 2025年3月20日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は、さまざまな画像関連のタスクに … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

投稿日: 2025年3月20日作成者: jarxiv

要約マスクされた拡散モデル（MDMS）は、強力な生成モデリング手法として浮上し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

投稿日: 2025年3月20日作成者: jarxiv

要約計算病理学においてマルチモーダルラージランゲージモデル（MLLMS）が行っ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

投稿日: 2025年3月20日作成者: jarxiv

要約マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

投稿日: 2025年3月20日作成者: jarxiv

要約テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification

投稿日: 2025年3月19日作成者: jarxiv

要約このホワイトペーパーでは、RFUAVを無線周波ベース（RFベース）無人航空 … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures

Temporal Regularization Makes Your Video Generator Stronger

Visual Position Prompt for MLLM based Visual Grounding

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

TULIP: Towards Unified Language-Image Pretraining

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

MoonCast: High-Quality Zero-Shot Podcast Generation

RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification

最近の投稿

最近のコメント

アーカイブ

カテゴリー