EvalAgent: Discovering Implicit Evaluation Criteria from the Web

要約

構造化されたライティングタスクでの言語モデル出力の評価は、通常、人間の評価者または大規模な言語モデル(LLM)に提示される多くの望ましい基準で実施されます。
たとえば、「コーヒー摂取量と研究生産性に関するアカデミックトークの起草を手伝ってください」などのプロンプトで、モデルの反応は、精度や一貫性などの基準について評価される場合があります。
ただし、高品質の応答は、基本的なタスク要件を満たすだけではありません。
このクエリに対する効果的な応答には、魅力的なオープニング、明確な研究の質問、持ち帰りなど、学術講演の典型的な機能を含める必要があります。
これらの暗黙の基準を特定するために、微妙な微妙でタスク固有の基準を自動的に明らかにするように設計された新しいフレームワークであるEvalagentを紹介します。
評価剤ファーストマインズエキスパートを執筆したオンラインガイダンス。
次に、この証拠を使用して、信頼できる外部ソースに基づいた多様で長期の評価基準を提案します。
我々の実験は、評価剤によって生成された接地基準がしばしば暗黙的であることを示しています(ユーザーのプロンプトに直接記載されていません)、しかし具体的な(高度な語彙精度)。
さらに、評価基準は多くの場合、初期の応答によって満たされませんが、それらは実用的であるため、応答を洗練してそれらを満たすことができます。
最後に、LLM生成と評価剤の基準を組み合わせることで、LLMのみを使用するよりも多くの人間の価値基準が明らかになることを示します。

要約(オリジナル)

Evaluation of language model outputs on structured writing tasks is typically conducted with a number of desirable criteria presented to human evaluators or large language models (LLMs). For instance, on a prompt like ‘Help me draft an academic talk on coffee intake vs research productivity’, a model response may be evaluated for criteria like accuracy and coherence. However, high-quality responses should do more than just satisfy basic task requirements. An effective response to this query should include quintessential features of an academic talk, such as a compelling opening, clear research questions, and a takeaway. To help identify these implicit criteria, we introduce EvalAgent, a novel framework designed to automatically uncover nuanced and task-specific criteria. EvalAgent first mines expert-authored online guidance. It then uses this evidence to propose diverse, long-tail evaluation criteria that are grounded in reliable external sources. Our experiments demonstrate that the grounded criteria produced by EvalAgent are often implicit (not directly stated in the user’s prompt), yet specific (high degree of lexical precision). Further, EvalAgent criteria are often not satisfied by initial responses but they are actionable, such that responses can be refined to satisfy them. Finally, we show that combining LLM-generated and EvalAgent criteria uncovers more human-valued criteria than using LLMs alone.

arxiv情報

著者 Manya Wadhwa,Zayne Sprague,Chaitanya Malaviya,Philippe Laban,Junyi Jessy Li,Greg Durrett
発行日 2025-04-21 16:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EvalAgent: Discovering Implicit Evaluation Criteria from the Web はコメントを受け付けていません

Fully Bayesian Approaches to Topics over Time

要約

時間の経過とともにトピック(TOT)モデルは、Word共起パターンと共同で公開日を明示的にモデル化することにより、タイムスタンプ付きデータセットのテーマの変更をキャプチャします。
しかし、TOTは完全にベイジアンの方法でアプローチされていませんでした。これは、安定性の問題を受けやすくする欠陥です。
この問題に対処するために、ベータ分布の前にコンジュゲートを導入することにより、時間の経過とともに完全にベイジアントピック(BTOT)モデルを提案します。
これは、トピックがミニバッチで不十分に表現されていない場合に、アルゴリズムのオンラインバージョンのアルゴリズムを不安定な更新から防止する正則化として機能します。
ベータ分布の前のこの特性は、初めてここで研究されています。
それでも、このモデルは、ドキュメントあたりの単語の多数の観測との間のスケールの違いに苦しんでいます。
BTOTのバリエーション、時間の経過に伴うベイジアントピック(WBTOT)が解決策として提案されています。
WBTOTでは、公開日はドキュメントごとに一定の回数を繰り返します。これは、推論プロセスに沿った単語とタイムスタンプの相対的な影響のバランスをとります。
2つのデータセットでモデルをテストしました。200年以上の米国のユニオン(SOTU)アドレスのコレクションと、1,000万ツイートの大規模なCovid-19 Twitterコーパスです。
結果は、WBTOTが潜在的なDirichletの割り当てやBertopicのような他のSOTAトピックモデルよりも優れたイベントをキャプチャすることを示しています。
また、私たちの実験は、BTOTよりもWBTOTの優れた一貫性を示しています。これは、時間と単語のモダリティのバランスをとることの重要性を強調しています。
最後に、WBTOTのオンライン最適化アルゴリズムの安定性を説明します。これにより、標準TOTに不可欠な問題にWBTOTを適用することができます。

要約(オリジナル)

The Topics over Time (ToT) model captures thematic changes in timestamped datasets by explicitly modeling publication dates jointly with word co-occurrence patterns. However, ToT was not approached in a fully Bayesian fashion, a flaw that makes it susceptible to stability problems. To address this issue, we propose a fully Bayesian Topics over Time (BToT) model via the introduction of a conjugate prior to the Beta distribution. This prior acts as a regularization that prevents the online version of the algorithm from unstable updates when a topic is poorly represented in a mini-batch. The characteristics of this prior to the Beta distribution are studied here for the first time. Still, this model suffers from a difference in scale between the single-time observations and the multiplicity of words per document. A variation of BToT, Weighted Bayesian Topics over Time (WBToT), is proposed as a solution. In WBToT, publication dates are repeated a certain number of times per document, which balances the relative influence of words and timestamps along the inference process. We have tested our models on two datasets: a collection of over 200 years of US state-of-the-union (SOTU) addresses and a large-scale COVID-19 Twitter corpus of 10 million tweets. The results show that WBToT captures events better than Latent Dirichlet Allocation and other SOTA topic models like BERTopic: the median absolute deviation of the topic presence over time is reduced by $51\%$ and $34\%$, respectively. Our experiments also demonstrate the superior coherence of WBToT over BToT, which highlights the importance of balancing the time and word modalities. Finally, we illustrate the stability of the online optimization algorithm in WBToT, which allows the application of WBToT to problems that are intractable for standard ToT.

arxiv情報

著者 Julián Cendrero,Julio Gonzalo,Ivar Zapata
発行日 2025-04-21 16:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Fully Bayesian Approaches to Topics over Time はコメントを受け付けていません

MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning

要約

大規模な言語モデル(LLM)は、侵入などの敵対的な攻撃の影響を受けやすく、有害または危険な行動を引き出すことができます。
この脆弱性は、多言語の安全性データがしばしば限られている多言語の設定では悪化しています。
したがって、多様な言語で安全でないコンテンツを検出およびフィルタリングできるガードレールを開発することは、実際のアプリケーションにLLMを展開するために重要です。
この作業では、推論で多言語のガードレールを構築するアプローチを提案します。
私たちの方法は、(1)文化的および言語的に微妙なバリアントを組み込んだ合成多言語データ生成、(2)監視された微調整、および(3)カリキュラム誘導グループの相対的な政策最適化(GRPO)フレームワークをさらに改善するカリキュラム誘導グループの相対的な政策最適化(GRPO)フレームワークで構成されています。
実験結果は、私たちの多言語のガードレールが、ドメイン内とドメイン外の言語の両方で最近のベースラインを常に上回ることを示しています。
Guardrailの多言語の推論能力により、多言語の説明を生成することができます。これは、多言語のコンテンツモデレーションにおける言語固有のリスクと曖昧さを理解するのに特に役立ちます。

要約(オリジナル)

Large Language Models (LLMs) are susceptible to adversarial attacks such as jailbreaking, which can elicit harmful or unsafe behaviors. This vulnerability is exacerbated in multilingual setting, where multilingual safety-aligned data are often limited. Thus, developing a guardrail capable of detecting and filtering unsafe content across diverse languages is critical for deploying LLMs in real-world applications. In this work, we propose an approach to build a multilingual guardrail with reasoning. Our method consists of: (1) synthetic multilingual data generation incorporating culturally and linguistically nuanced variants, (2) supervised fine-tuning, and (3) a curriculum-guided Group Relative Policy Optimization (GRPO) framework that further improves performance. Experimental results demonstrate that our multilingual guardrail consistently outperforms recent baselines across both in-domain and out-of-domain languages. The multilingual reasoning capability of our guardrail enables it to generate multilingual explanations, which are particularly useful for understanding language-specific risks and ambiguities in multilingual content moderation.

arxiv情報

著者 Yahan Yang,Soham Dan,Shuo Li,Dan Roth,Insup Lee
発行日 2025-04-21 17:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning はコメントを受け付けていません

Can LLMs Rank the Harmfulness of Smaller LLMs? We are Not There Yet

要約

大規模な言語モデル(LLM)は遍在するため、リスクと制限を理解することが重要です。
エッジデバイスなどのコンピューティングリソースが制約されている場合は、より小さなLLMを展開できますが、有害な出力を生成する傾向が異なります。
LLMの害の軽減は、通常、LLM出力の有害性に注釈を付けることに依存します。これは人間から収集するのに費用がかかります。
この作業は、2つの質問を研究しています。LLMSは、有害なコンテンツの生成に関してどのようにランク付けされますか?
より大きなLLMSはどの程度有害に注釈を付けることができますか?
3つの小さなLLMに、差別的な言葉、攻撃的な内容、プライバシー侵害、マイナスの影響など、さまざまなタイプの有害なコンテンツを引き出すように促し、生産物の人間のランキングを収集します。
次に、これらの応答の有害性に注釈を付ける能力について、3つの最先端の大規模LLMを評価します。
小さいモデルは、有害性に関して異なることがわかります。
また、大きなLLMが人間との低から中程度の一致を示すことがわかります。
これらの調査結果は、LLMSにおける危害緩和に関するさらなる作業の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have become ubiquitous, thus it is important to understand their risks and limitations. Smaller LLMs can be deployed where compute resources are constrained, such as edge devices, but with different propensity to generate harmful output. Mitigation of LLM harm typically depends on annotating the harmfulness of LLM output, which is expensive to collect from humans. This work studies two questions: How do smaller LLMs rank regarding generation of harmful content? How well can larger LLMs annotate harmfulness? We prompt three small LLMs to elicit harmful content of various types, such as discriminatory language, offensive content, privacy invasion, or negative influence, and collect human rankings of their outputs. Then, we evaluate three state-of-the-art large LLMs on their ability to annotate the harmfulness of these responses. We find that the smaller models differ with respect to harmfulness. We also find that large LLMs show low to moderate agreement with humans. These findings underline the need for further work on harm mitigation in LLMs.

arxiv情報

著者 Berk Atil,Vipul Gupta,Sarkar Snigdha Sarathi Das,Rebecca J. Passonneau
発行日 2025-04-21 17:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs Rank the Harmfulness of Smaller LLMs? We are Not There Yet はコメントを受け付けていません

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators

要約

テスト時間計算のスケーリング、または推論中に発電機の大規模言語モデル(LLM)の追加計算を提供すると、通常、外部の非生成評価者(つまり、報酬モデル)の助けを採用します。
同時に、自然言語で評価と批評(説明)を生成するために訓練されたモデルであるLLM judgesは、自動評価でますます一般的になりつつあります。
裁判官の経験的成功にもかかわらず、テスト時間スケーリング設定の評価者としての有効性はほとんど不明です。
このホワイトペーパーでは、3つのドメイン(数学の推論、コード生成、および次の指示)で裁判官のパフォーマンスを評価するテスト時間スケーリング(Jetts)ベンチマークの裁判官評価を紹介します。
8つの異なるベースジェネレーターモデル(6.7b-72bパラメーター)について、10の異なる裁判官モデル(7b-70bパラメーター)を評価します。
私たちのベンチマークは、審査員が再ランキングの結果報酬モデルと競争しているが、ビーム検索手順でプロセス報酬モデルよりも一貫して悪いモデルであることを示しています。
さらに、LLMジャッジに固有のものですが、彼らの自然言語の批評は現在、発電機をより良い応答に導くのに効果がありません。

要約(オリジナル)

Scaling test-time computation, or affording a generator large language model (LLM) extra compute during inference, typically employs the help of external non-generative evaluators (i.e., reward models). Concurrently, LLM-judges, models trained to generate evaluations and critiques (explanations) in natural language, are becoming increasingly popular in automatic evaluation. Despite judge empirical successes, their effectiveness as evaluators in test-time scaling settings is largely unknown. In this paper, we introduce the Judge Evaluation for Test-Time Scaling (JETTS) benchmark, which evaluates judge performance in three domains (math reasoning, code generation, and instruction following) under three task settings: response reranking, step-level beam search, and critique-based response refinement. We evaluate 10 different judge models (7B-70B parameters) for 8 different base generator models (6.7B-72B parameters). Our benchmark shows that while judges are competitive with outcome reward models in reranking, they are consistently worse than process reward models in beam search procedures. Furthermore, though unique to LLM-judges, their natural language critiques are currently ineffective in guiding the generator towards better responses.

arxiv情報

著者 Yilun Zhou,Austin Xu,Peifeng Wang,Caiming Xiong,Shafiq Joty
発行日 2025-04-21 17:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators はコメントを受け付けていません

CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation

要約

Cからust骨の輸送は、現代の錆生態系との安全性と相互運用性を高めながら、レガシーCコードを近代化するために不可欠です。
ただし、システムがCを安全な錆に透過させることができるかどうかを評価するためのデータセットは現在存在していません。
100 Cのリポジトリのデータセットであるクラストベンチを紹介します。それぞれが、安全な錆の手動で書かれたインターフェイスと、輸送の正確性を検証するために使用できるテストケースと組み合わせます。
孤立した機能ではなくリポジトリ全体を考慮することにより、Crust-Benchは複数のファイルに依存する複雑なプロジェクトを翻訳するという課題を捉えています。
提供された錆びインターフェイスは、慣用的なメモリ安全性の錆パターンを遵守する一方、添付のテストケースが機能的正しさを強制する明示的な仕様を提供します。
このタスクで最先端の大規模な言語モデル(LLM)を評価し、安全で慣用的な錆の生成は、さまざまな最先端の方法と技術にとって依然として困難な問題であることがわかります。
また、LLMが通常、CからSafe Rustにコードを延ばしに行うエラーに関する洞察を提供します。
最高のパフォーマンスモデルであるOpenai O1は、シングルショット設定で15のタスクのみを解くことができます。
クラストベンチの改善は、複雑なシナリオについて推論することができるトランスピレーションシステムの改善につながり、メモリの安全を確保する錆のような言語にレガシーコードベースを移行するのに役立ちます。
https://github.com/anirudhkhatry/crust-benchでデータセットとコードを見つけることができます。

要約(オリジナル)

C-to-Rust transpilation is essential for modernizing legacy C code while enhancing safety and interoperability with modern Rust ecosystems. However, no dataset currently exists for evaluating whether a system can transpile C into safe Rust that passes a set of test cases. We introduce CRUST-Bench, a dataset of 100 C repositories, each paired with manually-written interfaces in safe Rust as well as test cases that can be used to validate correctness of the transpilation. By considering entire repositories rather than isolated functions, CRUST-Bench captures the challenges of translating complex projects with dependencies across multiple files. The provided Rust interfaces provide explicit specifications that ensure adherence to idiomatic, memory-safe Rust patterns, while the accompanying test cases enforce functional correctness. We evaluate state-of-the-art large language models (LLMs) on this task and find that safe and idiomatic Rust generation is still a challenging problem for various state-of-the-art methods and techniques. We also provide insights into the errors LLMs usually make in transpiling code from C to safe Rust. The best performing model, OpenAI o1, is able to solve only 15 tasks in a single-shot setting. Improvements on CRUST-Bench would lead to improved transpilation systems that can reason about complex scenarios and help in migrating legacy codebases from C into languages like Rust that ensure memory safety. You can find the dataset and code at https://github.com/anirudhkhatry/CRUST-bench.

arxiv情報

著者 Anirudh Khatry,Robert Zhang,Jia Pan,Ziteng Wang,Qiaochu Chen,Greg Durrett,Isil Dillig
発行日 2025-04-21 17:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation はコメントを受け付けていません

DataComp-LM: In search of the next generation of training sets for language models

要約

言語モデルを改善することを目的とした、制御されたデータセット実験のテストベッドである言語モデル(DCLM)のデータコンプを紹介します。
DCLMの一部として、一般的なクロールから抽出された240Tトークンの標準化されたコーパス、OpenLMフレームワークに基づいた効果的な前登録レシピ、および53のダウンストリーム評価の幅広いスイートを提供します。
DCLMベンチマークの参加者は、412Mから7Bのパラメーターの範囲のモデルスケールでの重複排除、フィルタリング、データの混合などのデータキュレーション戦略を実験できます。
DCLMのベースラインとして、広範な実験を実施し、モデルベースのフィルタリングが高品質のトレーニングセットを組み立てるための鍵であることがわかります。
結果のデータセットであるDCLMベースラインは、2.6Tトレーニングトークンを使用してMMLUで7Bパラメーター言語モデルをゼロから64%5ショット精度にトレーニングできます。
Open-Data言語モデルの以前の最先端のMAP-Neoと比較して、DCLMベースラインは、MMLUの6.6パーセントポイントの改善を表し、40%の計算でトレーニングされています。
私たちのベースラインモデルは、MMLUのMistral-7B-V0.3およびLlama 3 8Bにも匹敵し(63%&66%)、平均53の自然言語理解タスクで同様に実行され、Llama 3 8bよりも6.6倍少ないコンピューティングで訓練されています。
私たちの結果は、言語モデルをトレーニングするためのデータセット設計の重要性を強調し、データキュレーションに関するさらなる研究の出発点を提供します。

要約(オリジナル)

We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretraining recipes based on the OpenLM framework, and a broad suite of 53 downstream evaluations. Participants in the DCLM benchmark can experiment with data curation strategies such as deduplication, filtering, and data mixing at model scales ranging from 412M to 7B parameters. As a baseline for DCLM, we conduct extensive experiments and find that model-based filtering is key to assembling a high-quality training set. The resulting dataset, DCLM-Baseline enables training a 7B parameter language model from scratch to 64% 5-shot accuracy on MMLU with 2.6T training tokens. Compared to MAP-Neo, the previous state-of-the-art in open-data language models, DCLM-Baseline represents a 6.6 percentage point improvement on MMLU while being trained with 40% less compute. Our baseline model is also comparable to Mistral-7B-v0.3 and Llama 3 8B on MMLU (63% & 66%), and performs similarly on an average of 53 natural language understanding tasks while being trained with 6.6x less compute than Llama 3 8B. Our results highlight the importance of dataset design for training language models and offer a starting point for further research on data curation.

arxiv情報

著者 Jeffrey Li,Alex Fang,Georgios Smyrnis,Maor Ivgi,Matt Jordan,Samir Gadre,Hritik Bansal,Etash Guha,Sedrick Keh,Kushal Arora,Saurabh Garg,Rui Xin,Niklas Muennighoff,Reinhard Heckel,Jean Mercat,Mayee Chen,Suchin Gururangan,Mitchell Wortsman,Alon Albalak,Yonatan Bitton,Marianna Nezhurina,Amro Abbas,Cheng-Yu Hsieh,Dhruba Ghosh,Josh Gardner,Maciej Kilian,Hanlin Zhang,Rulin Shao,Sarah Pratt,Sunny Sanyal,Gabriel Ilharco,Giannis Daras,Kalyani Marathe,Aaron Gokaslan,Jieyu Zhang,Khyathi Chandu,Thao Nguyen,Igor Vasiljevic,Sham Kakade,Shuran Song,Sujay Sanghavi,Fartash Faghri,Sewoong Oh,Luke Zettlemoyer,Kyle Lo,Alaaeldin El-Nouby,Hadi Pouransari,Alexander Toshev,Stephanie Wang,Dirk Groeneveld,Luca Soldaini,Pang Wei Koh,Jenia Jitsev,Thomas Kollar,Alexandros G. Dimakis,Yair Carmon,Achal Dave,Ludwig Schmidt,Vaishaal Shankar
発行日 2025-04-21 17:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DataComp-LM: In search of the next generation of training sets for language models はコメントを受け付けていません

Federated Latent Factor Model for Bias-Aware Recommendation with Privacy-Preserving

要約

推奨システム(RS)は、ユーザーにパーソナライズされたアイテムの推奨事項を提供し、全体的なエクスペリエンスを向上させることを目的としています。
従来のRSSは、中央サーバー上のすべてのユーザーデータを収集および処理します。
ただし、この集中化されたアプローチは、データ侵害とプライバシーリークのリスクを高めるため、プライバシーに敏感なユーザーにますます容認できなくなっているため、大きなプライバシーの懸念を引き起こします。
これらのプライバシーの課題に対処するために、Federated LearningはRSSに統合されており、ユーザーデータが安全であることを保証しています。
集中RSSでは、評価バイアスの問題は、すべてのユーザーの生の相互作用データを共同で分析することにより、効果的に対処されます。
ただし、プライバシーを提供する制約のために生データがアクセスできないため、これはフェデレートRSSで重要な課題になります。
この問題を克服するために、フェデレートバイアスアウェア潜在因子(FBALF)モデルを提案します。
FBALFでは、トレーニングバイアスがすべてのローカルモデルの損失関数に明示的に組み込まれ、データプライバシーを損なうことなく評価バイアスを効果的に排除できるようになります。
3つの実際のデータセットで実施された広範な実験は、FBALFが他の最先端のフェデレーションRSSと比較して、推奨の精度が大幅に高いことを示しています。

要約(オリジナル)

A recommender system (RS) aims to provide users with personalized item recommendations, enhancing their overall experience. Traditional RSs collect and process all user data on a central server. However, this centralized approach raises significant privacy concerns, as it increases the risk of data breaches and privacy leakages, which are becoming increasingly unacceptable to privacy-sensitive users. To address these privacy challenges, federated learning has been integrated into RSs, ensuring that user data remains secure. In centralized RSs, the issue of rating bias is effectively addressed by jointly analyzing all users’ raw interaction data. However, this becomes a significant challenge in federated RSs, as raw data is no longer accessible due to privacy-preserving constraints. To overcome this problem, we propose a Federated Bias-Aware Latent Factor (FBALF) model. In FBALF, training bias is explicitly incorporated into every local model’s loss function, allowing for the effective elimination of rating bias without compromising data privacy. Extensive experiments conducted on three real-world datasets demonstrate that FBALF achieves significantly higher recommendation accuracy compared to other state-of-the-art federated RSs.

arxiv情報

著者 Junxiang Gao,Yixin Ran,Jia Chen
発行日 2025-04-21 13:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Federated Latent Factor Model for Bias-Aware Recommendation with Privacy-Preserving はコメントを受け付けていません

Rethinking the Potential of Multimodality in Collaborative Problem Solving Diagnosis with Large Language Models

要約

学生の共同問題解決(CPS)コンピテンシーを解釈するために、デジタルトレースから共同解決の行動を検出することは、教育における人工知能(AIED)分野の長期的な目標です。
マルチモーダルデータと高度なモデルは、複雑なCPS行動を検出する可能性があると主張されていますが、その価値に関する経験的証拠は、いくつかの対照的な証拠が限られたままです。
この研究では、本物の教育環境における78の中学生のCPSサブスキルと指標を診断する際のモデルパフォーマンスを改善するためのマルチモーダルデータの可能性を調査しました。
特に、口頭データからのテキストの埋め込みと、CPS診断のマルチモーダル分類モデルでは、オーディオデータからの音響埋め込みが使用されました。
ユニモーダルトランスベースのモデルとマルチモーダルトランスベースの両方のモデルは、CPSクラスの検出において従来のモデルよりも優れていました。
マルチモダリティを含めることは、従来の単峰性モデルのパフォーマンスを改善しませんでしたが、変圧器ベースのモデルへの統合により、単峰性の変圧器ベースのモデルと比較して、社会的認知CPSクラスの診断のパフォーマンスが向上しました。
結果に基づいて、この論文は、すべてのCPSサブスキルとインジケーターの自動検出において最高のパフォーマンスを達成するために、マルチモダリティと特定のモデリング手法の選択は当然のこととは言えないと主張しています。
むしろ、それらの値は、特定のタイプのCPSインジケーターに限定され、ラベルの複雑さの影響を受け、データセット内のインジケーターの構成に依存します。
自動化されたCPS診断におけるLLMの価値とマルチモダリティを検討する際に必要なニュアンスについて議論し、人間とaiの相補性の必要性を強調し、認証された教育的文脈におけるCPS診断を改善するための関連するモデルアーキテクチャと技術の調査を提案することにより、論文を締めくくります。

要約(オリジナル)

Detecting collaborative and problem-solving behaviours from digital traces to interpret students’ collaborative problem solving (CPS) competency is a long-term goal in the Artificial Intelligence in Education (AIEd) field. Although multimodal data and advanced models are argued to have the potential to detect complex CPS behaviours, empirical evidence on their value remains limited with some contrasting evidence. In this study, we investigated the potential of multimodal data to improve model performance in diagnosing 78 secondary school students’ CPS subskills and indicators in authentic educational settings. In particular, text embeddings from verbal data and acoustic embeddings from audio data were used in a multimodal classification model for CPS diagnosis. Both unimodal and multimodal transformer-based models outperformed traditional models in detecting CPS classes. Although the inclusion of multimodality did not improve the performance of traditional unimodal models, its integration into transformer-based models demonstrated improved performance for diagnosing social-cognitive CPS classes compared to unimodal transformer-based models. Based on the results, the paper argues that multimodality and the selection of a particular modelling technique should not be taken for granted to achieve the best performance in the automated detection of every CPS subskill and indicator. Rather, their value is limited to certain types of CPS indicators, affected by the complexity of the labels, and dependent on the composition of indicators in the dataset. We conclude the paper by discussing the required nuance when considering the value of LLMs and multimodality in automated CPS diagnosis, highlighting the need for human-AI complementarity, and proposing the exploration of relevant model architectures and techniques to improve CPS diagnosis in authentic educational contexts.

arxiv情報

著者 K. Wong,B. Wu,S. Bulathwela,M. Cukurova
発行日 2025-04-21 13:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Rethinking the Potential of Multimodality in Collaborative Problem Solving Diagnosis with Large Language Models はコメントを受け付けていません

Fast-Slow Co-advancing Optimizer: Toward Harmonious Adversarial Training of GAN

要約

これまで、特にトレーニングセットの全体的な分散が大きい場合、典型的な生成敵対的ネットワーク(GAN)のトレーニングプロセスは、データプロパティとハイパーパラメーターに特に敏感であり、収束の困難さ、または収束の障害にさえつながる可能性があります。
これらの現象は、多くの場合、そのようなネットワークのトレーニング特性に起因します。
この問題を目指して、このペーパーでは、新しいインテリジェントなオプティマイザー、高速スローの共同アドバンスオプティマイザー(FSCO)を開発します。これは、トレーニングを容易にするためにGANのトレーニングプロセスで強化学習を採用しています。
具体的には、このペーパーでは、トレーニングステップサイズをエージェントによって制御してトレーニングの安定性を改善することを可能にし、トレーニングプロセスをさまざまな学習レートでよりインテリジェントにし、GANがステップサイズに敏感になります。
開発されたFSCOの有効性を検証するために、3つのベンチマークデータセットで実験が行われました。

要約(オリジナル)

Up to now, the training processes of typical Generative Adversarial Networks (GANs) are still particularly sensitive to data properties and hyperparameters, which may lead to severe oscillations, difficulties in convergence, or even failures to converge, especially when the overall variances of the training sets are large. These phenomena are often attributed to the training characteristics of such networks. Aiming at the problem, this paper develops a new intelligent optimizer, Fast-Slow Co-advancing Optimizer (FSCO), which employs reinforcement learning in the training process of GANs to make training easier. Specifically, this paper allows the training step size to be controlled by an agent to improve training stability, and makes the training process more intelligent with variable learning rates, making GANs less sensitive to step size. Experiments have been conducted on three benchmark datasets to verify the effectiveness of the developed FSCO.

arxiv情報

著者 Lin Wang,Xiancheng Wang,Rui Wang,Zhibo Zhang,Minghang Zhao
発行日 2025-04-21 13:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Fast-Slow Co-advancing Optimizer: Toward Harmonious Adversarial Training of GAN はコメントを受け付けていません