投稿者「jarxiv」のアーカイブ

J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization

要約 大規模な言語モデル(LLM)開発のペースの増加に対応するために、モデルの出 … 続きを読む

カテゴリー: cs.AI, cs.CL | J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization はコメントを受け付けていません

Yes, Q-learning Helps Offline In-Context RL

要約 既存のオフライン内コンテキスト補強学習(ICRL)メソッドは、主にオフライ … 続きを読む

カテゴリー: cs.AI, cs.LG | Yes, Q-learning Helps Offline In-Context RL はコメントを受け付けていません

Multi-Armed Bandits Meet Large Language Models

要約 Banditアルゴリズムと大規模な言語モデル(LLM)は、人工知能の強力な … 続きを読む

カテゴリー: cs.AI | Multi-Armed Bandits Meet Large Language Models はコメントを受け付けていません

One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

要約 拡散ベースの生成モデルは並外れたパフォーマンスを実証していますが、それらの … 続きを読む

カテゴリー: cs.AI, cs.LG | One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling はコメントを受け付けていません

Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning

要約 最近の研究では、ドメインが固定され、一連のトレーニング問題(計画ではない) … 続きを読む

カテゴリー: cs.AI | Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning はコメントを受け付けていません

Thinkless: LLM Learns When to Think

要約 拡張されたチェーンの推論が可能な推論言語モデルは、複雑な論理推論を必要とす … 続きを読む

カテゴリー: cs.AI, cs.CL | Thinkless: LLM Learns When to Think はコメントを受け付けていません

CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition

要約 エキスパートのまばらな混合物(SMOE)は、ネットワークの深さまたは幅を増 … 続きを読む

カテゴリー: cs.AI, cs.CL | CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition はコメントを受け付けていません

How Adding Metacognitive Requirements in Support of AI Feedback in Practice Exams Transforms Student Learning Behaviors

要約 大規模な学部のSTEMコースで規模でパーソナライズされた詳細なフィードバッ … 続きを読む

カテゴリー: cs.AI, cs.HC, H.5.2 | How Adding Metacognitive Requirements in Support of AI Feedback in Practice Exams Transforms Student Learning Behaviors はコメントを受け付けていません

R3: Robust Rubric-Agnostic Reward Models

要約 報酬モデルは、言語モデルの出力を人間の好みに合わせるために不可欠ですが、既 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | R3: Robust Rubric-Agnostic Reward Models はコメントを受け付けていません

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

要約 この記事では、Ig Parserの概要を説明します。これは、正式な(例:法 … 続きを読む

カテゴリー: 68T30, 68T50, cs.AI, cs.CL, cs.MA, E.2 | IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar はコメントを受け付けていません