月別アーカイブ: 2025年5月

Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey

要約 多時代のリモートセンシング画像の解釈は、バイナリまたはセマンティックマスク … 続きを読む

カテゴリー: cs.CV | Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey はコメントを受け付けていません

RealEngine: Simulating Autonomous Driving in Realistic Context

要約 運転シミュレーションは、制御された評価環境を提供することにより、信頼できる … 続きを読む

カテゴリー: cs.CV, cs.RO | RealEngine: Simulating Autonomous Driving in Realistic Context はコメントを受け付けていません

DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?

要約 最近のテキストからイメージ(T2I)モデルは、簡単な説明から画像を合成する … 続きを読む

カテゴリー: cs.AI, cs.CV | DetailMaster: Can Your Text-to-Image Model Handle Long Prompts? はコメントを受け付けていません

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

要約 マルチモーダル大手言語モデル(MLLMS)は、ユーザーがサビされたデータセ … 続きを読む

カテゴリー: cs.CR, cs.CV | Backdoor Cleaning without External Guidance in MLLM Fine-tuning はコメントを受け付けていません

L2RDaS: Synthesizing 4D Radar Tensors for Model Generalization via Dataset Expansion

要約 4次元(4D)レーダーは、有害な気象条件下での堅牢性により、知覚タスクの自 … 続きを読む

カテゴリー: cs.CV, eess.IV | L2RDaS: Synthesizing 4D Radar Tensors for Model Generalization via Dataset Expansion はコメントを受け付けていません

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

要約 この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムか … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning はコメントを受け付けていません

NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

要約 人工知能(AI)は、科学研究のパラダイムの変換を加速し、研究効率を高めるだ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification はコメントを受け付けていません

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

要約 最近の光フロー推定方法は、しばしば密な全ペア相関ボリュームからのローカルコ … 続きを読む

カテゴリー: cs.CV, cs.LG | Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation はコメントを受け付けていません

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

要約 テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生 … 続きを読む

カテゴリー: cs.CV | Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation はコメントを受け付けていません

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

要約 既存の医療用VQAベンチマークは、主に単一イメージ分析に焦点を当てています … 続きを読む

カテゴリー: cs.CL, cs.CV | MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning はコメントを受け付けていません