cs.AI」カテゴリーアーカイブ

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

要約 拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion はコメントを受け付けていません

AdaTP: Attention-Debiased Token Pruning for Video Large Language Models

要約 ビデオ大規模な言語モデル(ビデオLLM)は、ビデオ理解のタスクで顕著な結果 … 続きを読む

カテゴリー: cs.AI, cs.CV | AdaTP: Attention-Debiased Token Pruning for Video Large Language Models はコメントを受け付けていません

Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

要約 このペーパーでは、少数のショット学習を使用して、OCT診断画像を主要かつ希 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases はコメントを受け付けていません

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

要約 大規模な自然なシーン画像で対比訓練された視覚エンコーダーの恩恵を受けて、大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models はコメントを受け付けていません

EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion

要約 医療画像の分類は臨床的意思決定には重要ですが、正確性、解釈可能性、一般化に … 続きを読む

カテゴリー: cs.AI, cs.CV | EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion はコメントを受け付けていません

Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction

要約 メッセージパスグラフニューラルネットワーク(MPNNS)と構造的特徴(SF … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction はコメントを受け付けていません

DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration

要約 物理的な人間のロボットコラボレーション(PHRC)では、正確な人間の意図の … 続きを読む

カテゴリー: cs.AI, cs.RO | DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration はコメントを受け付けていません

LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios

要約 堅牢で安全で適応的なモーションプランナーに対する自律的な運転研究の最近の進 … 続きを読む

カテゴリー: 68T05, cs.AI, cs.RO, I.2.6 | LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios はコメントを受け付けていません

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

要約 模倣学習は、ジェネラリストのロボットを構築するための有望なアプローチとして … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets はコメントを受け付けていません

Bootstrapping Imitation Learning for Long-horizon Manipulation via Hierarchical Data Collection Space

要約 人間のデモを備えた模倣学習(IL)は、ロボット操作タスクの有望な方法です。 … 続きを読む

カテゴリー: cs.AI, cs.RO | Bootstrapping Imitation Learning for Long-horizon Manipulation via Hierarchical Data Collection Space はコメントを受け付けていません