cs.AI」カテゴリーアーカイブ

Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures

要約 Deep Learning(DL)モデル画像を処理して、大規模なインフラス … 続きを読む

カテゴリー: cs.AI, cs.CV | Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures はコメントを受け付けていません

Temporal Regularization Makes Your Video Generator Stronger

要約 一時的な品質は、フレーム全体で一貫した動きと現実的なダイナミクスを保証する … 続きを読む

カテゴリー: cs.AI, cs.CV | Temporal Regularization Makes Your Video Generator Stronger はコメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

要約 マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに … 続きを読む

カテゴリー: cs.AI, cs.CV | Visual Position Prompt for MLLM based Visual Grounding はコメントを受け付けていません

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

要約 マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator はコメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

要約 エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む

カテゴリー: cs.AI, cs.CV | EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining はコメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TULIP: Towards Unified Language-Image Pretraining はコメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

要約 マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む

カテゴリー: cs.AI, cs.CV | State Space Model Meets Transformer: A New Paradigm for 3D Object Detection はコメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification

要約 このホワイトペーパーでは、RFUAVを無線周波ベース(RFベース)無人航空 … 続きを読む

カテゴリー: cs.AI, cs.RO | RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification はコメントを受け付けていません