cs.CL」カテゴリーアーカイブ

From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization

要約 拡散モデルや大規模な視覚言語モデル(LVLMS)などの基礎モデル(FMS) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization はコメントを受け付けていません

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

要約 大規模な言語モデル(LLM)が3Dの物理的世界を理解できるようにすることは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding はコメントを受け付けていません

ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning

要約 Federated Learning(FL)は、分散型の参加者全体でデータ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning はコメントを受け付けていません

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

要約 大規模なファンデーションモデルは、特に剛性テンプレートまたは群衆発表の命令 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? はコメントを受け付けていません

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

要約 この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムか … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning はコメントを受け付けていません

NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

要約 人工知能(AI)は、科学研究のパラダイムの変換を加速し、研究効率を高めるだ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification はコメントを受け付けていません

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

要約 既存の医療用VQAベンチマークは、主に単一イメージ分析に焦点を当てています … 続きを読む

カテゴリー: cs.CL, cs.CV | MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning はコメントを受け付けていません

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

要約 マルチモーダルの大手言語モデル(MLLM)は視覚的なタスクで急速に進歩して … 続きを読む

カテゴリー: cs.CL, cs.CV | Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models はコメントを受け付けていません

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

要約 最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO はコメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約 視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning はコメントを受け付けていません