cs.CL」カテゴリーアーカイブ

Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization

要約 大規模な視覚言語モデル(LVLMS)は、複数のタスクにわたって印象的な機能 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Multimodal Tabular Reasoning with Privileged Structured Information

要約 表形式の推論には、表形式データに対するマルチステップ情報抽出と論理的推論が … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

要約 ビデオのシーケンシャル構造は、マルチフレームの証拠を見つけてマルチモーダル … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

A Survey on (M)LLM-Based GUI Agents

要約 グラフィカルユーザーインターフェイス(GUI)エージェントは、ルールベース … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントする

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

要約 複雑なテキストタスクにおけるDeepSeek-R1の顕著な推論能力に触発さ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

要約 スカラー報酬のような数値フィードバックを用いた強化学習(RL)の最近の進歩 … 続きを読む

カテゴリー: cs.AI, cs.CL | コメントする

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約 既存の統一モデルは、視覚言語理解やテキストから画像への生成では高い性能を発 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

On the class of coding optimality of human languages and the origins of Zipf’s law

要約 ここでは、符号化システムの最適性に関する新しいクラスを提示する。そのクラス … 続きを読む

カテゴリー: cs.CL, physics.soc-ph | コメントする

DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors

要約 オープンベンチマークは、再現性と透明性を提供し、大規模な言語モデルの評価と … 続きを読む

カテゴリー: cs.CL | コメントする

X-Driver: Explainable Autonomous Driving with Vision-Language Models

要約 エンド・ツー・エンドの自律走行は著しく進歩しており、従来のパイプラインより … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.ET, cs.RO | コメントする