cs.CL」カテゴリーアーカイブ

Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure

要約 整数の加算などの単純な算術タスクの場合でも、Transformer がトレ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure はコメントを受け付けていません

COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences

要約 人間のフィードバックからの強化学習 (RLHF) を含む多くの調整手法は、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.GT, cs.LG | COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences はコメントを受け付けていません

Data Contamination Can Cross Language Barriers

要約 大規模言語モデル (LLM) の開発の不透明さにより、トレーニング前のデー … 続きを読む

カテゴリー: cs.AI, cs.CL | Data Contamination Can Cross Language Barriers はコメントを受け付けていません

Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models

要約 視覚言語推論における優れたパフォーマンスにもかかわらず、大規模視覚言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models はコメントを受け付けていません

Unbounded: A Generative Infinite Game of Character Life Simulation

要約 生成無限ゲームの概念を紹介します。これは、生成モデルを使用することで、ハー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR, cs.LG | Unbounded: A Generative Infinite Game of Character Life Simulation はコメントを受け付けていません

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models

要約 人工知能は、特に Medical Large Vision Languag … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.CY, cs.LG | CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models はコメントを受け付けていません

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

要約 GUI エージェントを構築する既存の取り組みは、GPT-4o や Gemi … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC | OS-ATLAS: A Foundation Action Model for Generalist GUI Agents はコメントを受け付けていません

EMMA: End-to-End Multimodal Model for Autonomous Driving

要約 自動運転のためのエンドツーエンドのマルチモーダルモデルであるEMMAを紹介 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | EMMA: End-to-End Multimodal Model for Autonomous Driving はコメントを受け付けていません

TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

要約 既存のベンチマークでは、ビデオ理解のための時間的コンテキストを活用する際に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models はコメントを受け付けていません

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

要約 人間には、一般的な世界の動きの遅い学習と、新しい経験からのエピソード記憶の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation はコメントを受け付けていません