月別アーカイブ: 2025年5月

Fill the Gap: Quantifying and Reducing the Modality Gap in Image-Text Representation Learning

要約 ビジョン言語モデル(VLM)により、共有表現スペースにテキストと画像を埋め … 続きを読む

カテゴリー: cs.CV, cs.LG | Fill the Gap: Quantifying and Reducing the Modality Gap in Image-Text Representation Learning はコメントを受け付けていません

Adversarial Robustness of Deep Learning Models for Inland Water Body Segmentation from SAR Images

要約 合成開口レーダー(SAR)画像からの内陸水域のセグメンテーションは、洪水マ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Adversarial Robustness of Deep Learning Models for Inland Water Body Segmentation from SAR Images はコメントを受け付けていません

DISARM++: Beyond scanner-free harmonization

要約 さまざまなスキャナーにわたるT1強調MR画像の調和は、神経画像研究の一貫性 … 続きを読む

カテゴリー: cs.CV | DISARM++: Beyond scanner-free harmonization はコメントを受け付けていません

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

要約 グラフィカルユーザーインターフェイス(GUI)をナビゲートしてドキュメント … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction はコメントを受け付けていません

Visual Imitation Enables Contextual Humanoid Control

要約 ヒューマノイドに階段を登り、周囲の環境のコンテキストを使用して椅子に座るよ … 続きを読む

カテゴリー: cs.CV, cs.RO | Visual Imitation Enables Contextual Humanoid Control はコメントを受け付けていません

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

要約 アクションカスタマイズには、被験者が入力制御信号によって決定されるアクショ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios はコメントを受け付けていません

Multi-Agent System for Comprehensive Soccer Understanding

要約 AI主導のサッカー理解における最近の進歩は急速な進歩を示していますが、既存 … 続きを読む

カテゴリー: cs.CV | Multi-Agent System for Comprehensive Soccer Understanding はコメントを受け付けていません

A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction

要約 このペーパーでは、非線形音響コンピューティングと強化学習を統合した新しいフ … 続きを読む

カテゴリー: 68T01, cs.AI, cs.RO, I.2.8, physics.app-ph | A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction はコメントを受け付けていません

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

要約 拡散モデルは、テキストから画像の生成において優れたパフォーマンスを示してい … 続きを読む

カテゴリー: cs.CV | MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation はコメントを受け付けていません

A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

要約 大規模な言語モデル(LLM)は、合成表形式データ生成に有望を示していますが … 続きを読む

カテゴリー: cs.AI, cs.LG | A Note on Statistically Accurate Tabular Data Generation Using Large Language Models はコメントを受け付けていません