cs.AI」カテゴリーアーカイブ

Hierarchical localization with panoramic views and triplet loss functions

要約 この論文の主な目的は、移動ロボットの安全なナビゲーションに不可欠な視覚的位 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Hierarchical localization with panoramic views and triplet loss functions はコメントを受け付けていません

Semantically-Prompted Language Models Improve Visual Descriptions

要約 CLIP のような言語視覚モデルは、ゼロショット画像分類 (ZSIC) な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Semantically-Prompted Language Models Improve Visual Descriptions はコメントを受け付けていません

Controlling Language and Diffusion Models by Transporting Activations

要約 大規模な生成モデルの機能が向上し、その導入がますます広範囲に行われるように … 続きを読む

カテゴリー: 49Q22, 68T07, cs.AI, cs.CL, cs.CV, cs.LG, I.2.6 | Controlling Language and Diffusion Models by Transporting Activations はコメントを受け付けていません

OminiControl: Minimal and Universal Control for Diffusion Transformer

要約 このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | OminiControl: Minimal and Universal Control for Diffusion Transformer はコメントを受け付けていません

About Time: Advances, Challenges, and Outlooks of Action Understanding

要約 私たちは、ビデオアクションの理解における目覚ましい進歩を目の当たりにしてき … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | About Time: Advances, Challenges, and Outlooks of Action Understanding はコメントを受け付けていません

Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion

要約 テキストから画像へのモデルがますます強力かつ複雑になるにつれて、そのサイズ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion はコメントを受け付けていません

VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

要約 最近のテキストからビデオへの (T2V) 普及モデルは、さまざまなドメイン … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement はコメントを受け付けていません

ReXrank: A Public Leaderboard for AI-Powered Radiology Report Generation

要約 AI 駆動モデルは、胸部 X 線検査の放射線レポート生成の自動化において大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ReXrank: A Public Leaderboard for AI-Powered Radiology Report Generation はコメントを受け付けていません

Health AI Developer Foundations

要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | Health AI Developer Foundations はコメントを受け付けていません

t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving

要約 自動運転車 (AV) によるマルチモーダル センサー (カメラ、ライダー、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DC, cs.LG, cs.RO | t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving はコメントを受け付けていません