投稿者「jarxiv」のアーカイブ

J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization

投稿日: 2025年5月20日作成者: jarxiv

要約大規模な言語モデル（LLM）開発のペースの増加に対応するために、モデルの出 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Yes, Q-learning Helps Offline In-Context RL

投稿日: 2025年5月20日作成者: jarxiv

要約既存のオフライン内コンテキスト補強学習（ICRL）メソッドは、主にオフライ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Multi-Armed Bandits Meet Large Language Models

投稿日: 2025年5月20日作成者: jarxiv

要約 Banditアルゴリズムと大規模な言語モデル（LLM）は、人工知能の強力な … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

投稿日: 2025年5月20日作成者: jarxiv

要約拡散ベースの生成モデルは並外れたパフォーマンスを実証していますが、それらの … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning

投稿日: 2025年5月20日作成者: jarxiv

要約最近の研究では、ドメインが固定され、一連のトレーニング問題（計画ではない） … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

Thinkless: LLM Learns When to Think

投稿日: 2025年5月20日作成者: jarxiv

要約拡張されたチェーンの推論が可能な推論言語モデルは、複雑な論理推論を必要とす … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition

投稿日: 2025年5月20日作成者: jarxiv

要約エキスパートのまばらな混合物（SMOE）は、ネットワークの深さまたは幅を増 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

How Adding Metacognitive Requirements in Support of AI Feedback in Practice Exams Transforms Student Learning Behaviors

投稿日: 2025年5月20日作成者: jarxiv

要約大規模な学部のSTEMコースで規模でパーソナライズされた詳細なフィードバッ … 続きを読む →

カテゴリー: cs.AI, cs.HC, H.5.2 | コメントを受け付けていません

R3: Robust Rubric-Agnostic Reward Models

投稿日: 2025年5月20日作成者: jarxiv

要約報酬モデルは、言語モデルの出力を人間の好みに合わせるために不可欠ですが、既 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

投稿日: 2025年5月20日作成者: jarxiv

要約この記事では、Ig Parserの概要を説明します。これは、正式な（例：法 … 続きを読む →

カテゴリー: 68T30, 68T50, cs.AI, cs.CL, cs.MA, E.2 | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization

Yes, Q-learning Helps Offline In-Context RL

Multi-Armed Bandits Meet Large Language Models

One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning

Thinkless: LLM Learns When to Think

CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition

How Adding Metacognitive Requirements in Support of AI Feedback in Practice Exams Transforms Student Learning Behaviors

R3: Robust Rubric-Agnostic Reward Models

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

最近の投稿

最近のコメント

アーカイブ

カテゴリー