cs.LG」カテゴリーアーカイブ

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

要約 継続的なトレーニング後のテキストから画像間拡散モデルを適応させて、個別のモ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | T2I-ConBench: Text-to-Image Benchmark for Continual Post-training はコメントを受け付けていません

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

要約 この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムか … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning はコメントを受け付けていません

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

要約 最近の光フロー推定方法は、しばしば密な全ペア相関ボリュームからのローカルコ … 続きを読む

カテゴリー: cs.CV, cs.LG | Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation はコメントを受け付けていません

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

要約 分散除外(OOD)検出とセグメンテーションは、自律運転やロボット支援手術な … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation はコメントを受け付けていません

Native Segmentation Vision Transformers

要約 均一なダウンサンプリングは、視覚バックボーンの空間分解能を減らすための事実 … 続きを読む

カテゴリー: cs.CV, cs.LG | Native Segmentation Vision Transformers はコメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

要約 モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心 … 続きを読む

カテゴリー: cs.CV, cs.LG | When Are Concepts Erased From Diffusion Models? はコメントを受け付けていません

Interactive Post-Training for Vision-Language-Action Models

要約 リップVLAを紹介します。これは、スパースバイナリの成功報酬のみを使用して … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Interactive Post-Training for Vision-Language-Action Models はコメントを受け付けていません

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

要約 最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO はコメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約 視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning はコメントを受け付けていません

UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models

要約 都市のダイナミクスを理解し、予測することは、輸送システムの管理、都市計画の … 続きを読む

カテゴリー: cs.LG | UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models はコメントを受け付けていません