「cs.LG」カテゴリーアーカイブ

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

投稿日: 2025年5月23日作成者: jarxiv

要約継続的なトレーニング後のテキストから画像間拡散モデルを適応させて、個別のモ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

投稿日: 2025年5月23日作成者: jarxiv

要約この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムか … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

投稿日: 2025年5月23日作成者: jarxiv

要約最近の光フロー推定方法は、しばしば密な全ペア相関ボリュームからのローカルコ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

投稿日: 2025年5月23日作成者: jarxiv

要約分散除外（OOD）検出とセグメンテーションは、自律運転やロボット支援手術な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Native Segmentation Vision Transformers

投稿日: 2025年5月23日作成者: jarxiv

要約均一なダウンサンプリングは、視覚バックボーンの空間分解能を減らすための事実 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

投稿日: 2025年5月23日作成者: jarxiv

要約モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Interactive Post-Training for Vision-Language-Action Models

投稿日: 2025年5月23日作成者: jarxiv

要約リップVLAを紹介します。これは、スパースバイナリの成功報酬のみを使用して … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

投稿日: 2025年5月23日作成者: jarxiv

要約最近の進歩は、大規模な言語モデル（LLM）の考え方（COT）の推論能力を高 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

投稿日: 2025年5月23日作成者: jarxiv

要約視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models

投稿日: 2025年5月23日作成者: jarxiv

要約都市のダイナミクスを理解し、予測することは、輸送システムの管理、都市計画の … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Native Segmentation Vision Transformers

When Are Concepts Erased From Diffusion Models?

Interactive Post-Training for Vision-Language-Action Models

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー