AI Literacy in K-12 and Higher Education in the Wake of Generative AI: An Integrative Review

要約

AIリテラシーは、生成的AIをきっかけに著名な教育トピックとして浮上しましたが、その定義は曖昧なままです。
研究者と実践者の間で、AIリテラシーの介入について議論し、設計する方法についてはほとんどコンセンサスがありません。
この用語は、学部生を訓練してChatGPTを効果的に使用するように訓練する学習活動の両方を説明するために使用されており、幼稚園の子供がソーシャルロボットと交流することです。
このホワイトペーパーでは、2020年以降に公開された経験的および理論的なAIリテラシー研究を調べるための統合レビュー方法を適用します。124のレビューされた研究、リテラシー機能、批判的、および間接的な有益、および3つの視点を概念化する3つの方法と、AI技術的な詳細、ツール、ツール、および社会学的幅の概要を反映する方法を反映する方法を反映する方法についての特定の3つの視点を適用します。
このフレームワークは、AIリテラシーの談話内でより専門的な用語の必要性を強調し、特定のAIリテラシーの目的の研究ギャップを示しています。

要約(オリジナル)

Even though AI literacy has emerged as a prominent education topic in the wake of generative AI, its definition remains vague. There is little consensus among researchers and practitioners on how to discuss and design AI literacy interventions. The term has been used to describe both learning activities that train undergraduate students to use ChatGPT effectively and having kindergarten children interact with social robots. This paper applies an integrative review method to examine empirical and theoretical AI literacy studies published since 2020. In synthesizing the 124 reviewed studies, three ways to conceptualize literacy-functional, critical, and indirectly beneficial-and three perspectives on AI-technical detail, tool, and sociocultural-were identified, forming a framework that reflects the spectrum of how AI literacy is approached in practice. The framework highlights the need for more specialized terms within AI literacy discourse and indicates research gaps in certain AI literacy objectives.

arxiv情報

著者 Xingjian Gu,Barbara J. Ericson
発行日 2025-03-28 16:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, I.2.0 | AI Literacy in K-12 and Higher Education in the Wake of Generative AI: An Integrative Review はコメントを受け付けていません

A RAG-Based Multi-Agent LLM System for Natural Hazard Resilience and Adaptation

要約

大規模な言語モデル(LLMS)は、人工知能と機械学習のフロンティアでの変革能力であり、極端な自然災害イベントなどの差し迫った社会的課題に対処する際に意思決定者をサポートできます。
一般化されたモデルとして、LLMはしばしば、特に特別な知識を必要とする分野で、コンテキスト固有の情報を提供するのに苦労しています。
この作業では、自然災害と極端な気象現象のコンテキストでの分析と意思決定をサポートするために、検索された生成(RAG)ベースのマルチエージェントLLMシステムを提案します。
概念実証として、山火事シナリオに焦点を当てた専門システムであるWildFiregptを提示します。
このアーキテクチャは、ユーザー中心のマルチエージェント設計を採用して、多様な利害関係者グループ全体でテーラードリスクの洞察を提供します。
ドメイン固有の投影データ、観測データセット、および科学文献をRAGフレームワークを通じて統合することにより、システムは、提供する情報の精度とコンテキストの関連性の両方を保証します。
10の専門家主導のケーススタディにわたる評価は、WildFiregptが自然災害および極端な天候の文脈での意思決定支援のための既存のLLMベースのソリューションを大幅に上回ることを示しています。

要約(オリジナル)

Large language models (LLMs) are a transformational capability at the frontier of artificial intelligence and machine learning that can support decision-makers in addressing pressing societal challenges such as extreme natural hazard events. As generalized models, LLMs often struggle to provide context-specific information, particularly in areas requiring specialized knowledge. In this work, we propose a Retrieval-Augmented Generation (RAG)-based multi-agent LLM system to support analysis and decision-making in the context of natural hazards and extreme weather events. As a proof of concept, we present WildfireGPT, a specialized system focused on wildfire scenarios. The architecture employs a user-centered, multi-agent design to deliver tailored risk insights across diverse stakeholder groups. By integrating domain-specific projection data, observational datasets, and scientific literature through a RAG framework, the system ensures both accuracy and contextual relevance of the information it provides. Evaluation across ten expert-led case studies demonstrates that WildfireGPT significantly outperforms existing LLM-based solutions for decision support in natural hazard and extreme weather contexts.

arxiv情報

著者 Yangxinyu Xie,Bowen Jiang,Tanwi Mallick,Joshua David Bergerson,John K. Hutchison,Duane R. Verner,Jordan Branham,M. Ross Alexander,Robert B. Ross,Yan Feng,Leslie-Anne Levy,Weijie Su,Camillo J. Taylor
発行日 2025-03-28 17:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A RAG-Based Multi-Agent LLM System for Natural Hazard Resilience and Adaptation はコメントを受け付けていません

Can Language Models Follow Multiple Turns of Entangled Instructions?

要約

大規模な言語モデル(LLMS)の指導能力を改善する上での重要な成果にもかかわらず、複数の潜在的に絡み合ったまたは矛盾する指示を処理する能力は依然としてかなりの課題です。
実際のシナリオは、秘密のプライバシー、個人的な好み、優先順位付けなど、時間の経過とともに複数の指示にわたって一貫性を必要とすることがよくあります。これは、複数のターンを統合する洗練された能力を要求し、命令が交差または競合するときに競合する目標のバランスを慎重にバランスさせます。
この作業は、複数のターンの命令を処理する際のLLMSの機能の体系的な調査を提示し、3つのレベルの難易度をカバーします。(1)命令から情報を取得し、(2)ターン全体の追跡と推論、および(3)指示間の競合を解決する。
人間のループアプローチを通じて約1.1kの高品質のマルチターン会話を備えたマルチハーヒント構造を構築し、静的とダイナミクス、推論、マルチタスクなどの9つの機能カテゴリを作成します。
私たちの発見は、異なる機能間の興味深いトレードオフを明らかにしています。
GPTモデルは優れた暗記を示していますが、選択的な情報源泉徴収を必要とするプライバシー保護タスクの有効性の低下を示しています。
より大きなモデルは、より強い推論能力を示しますが、矛盾する指示の解決に依然として苦労しています。
重要なことに、これらのパフォーマンスのギャップは、記憶のタスクに関する強力なBLEUスコアを示しているため、これらのパフォーマンスのギャップは情報の損失のみに起因することはできませんが、その注意メカニズムは複数の関連命令を効果的に統合できません。
これらの調査結果は、マルチターン命令を含む複雑な現実世界のタスクの改善のための重要な領域を強調しています。

要約(オリジナル)

Despite significant achievements in improving the instruction-following capabilities of large language models (LLMs), the ability to process multiple potentially entangled or conflicting instructions remains a considerable challenge. Real-world scenarios often require consistency across multiple instructions over time, such as secret privacy, personal preferences, and prioritization, which demand sophisticated abilities to integrate multiple turns and carefully balance competing objectives when instructions intersect or conflict. This work presents a systematic investigation of LLMs’ capabilities in handling multiple turns of instructions, covering three levels of difficulty: (1) retrieving information from instructions, (2) tracking and reasoning across turns, and (3) resolving conflicts among instructions. We construct MultiTurnInstruct with around 1.1K high-quality multi-turn conversations through the human-in-the-loop approach and result in nine capability categories, including statics and dynamics, reasoning, and multitasking. Our finding reveals an intriguing trade-off between different capabilities. While GPT models demonstrate superior memorization, they show reduced effectiveness in privacy-protection tasks requiring selective information withholding. Larger models exhibit stronger reasoning capabilities but still struggle with resolving conflicting instructions. Importantly, these performance gaps cannot be attributed solely to information loss, as models demonstrate strong BLEU scores on memorization tasks but their attention mechanisms fail to integrate multiple related instructions effectively. These findings highlight critical areas for improvement in complex real-world tasks involving multi-turn instructions.

arxiv情報

著者 Chi Han
発行日 2025-03-28 17:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can Language Models Follow Multiple Turns of Entangled Instructions? はコメントを受け付けていません

Challenges and Paths Towards AI for Software Engineering

要約

ソフトウェアエンジニアリングのAIは最近顕著な進歩を遂げ、生成AIで顕著な成功を収めました。
それにもかかわらず、自動化されたソフトウェアエンジニアリングがその潜在能力を最大限に発揮する前に、対処する必要がある多くの課題がまだあります。
ほとんどの日常的な開発努力が自動化されている間、人間が何を構築するか、どのように困難なトレードオフのバランスをとるかの重要な決定に集中できる高レベルの自動化に到達することが可能であるべきです。
このレベルの自動化に到達するには、学界と産業全体で実質的な研究と工学の取り組みが必要です。
この論文では、これに向けた進捗について3つの方法で議論することを目指しています。
まず、ソフトウェアエンジニアリングのAIでコンクリートタスクの構造化された分類法を提供し、コード生成と完了を超えてソフトウェアエンジニアリングの他の多くのタスクを強調します。
第二に、現在のアプローチを制限するいくつかの重要なボトルネックの概要を説明します。
最後に、この急速に成熟した分野での将来の研究を促すことを望んで、これらのボトルネックの進歩を遂げるための有望な研究の方向性に関する意見のあるリストを提供します。

要約(オリジナル)

AI for software engineering has made remarkable progress recently, becoming a notable success within generative AI. Despite this, there are still many challenges that need to be addressed before automated software engineering reaches its full potential. It should be possible to reach high levels of automation where humans can focus on the critical decisions of what to build and how to balance difficult tradeoffs while most routine development effort is automated away. Reaching this level of automation will require substantial research and engineering efforts across academia and industry. In this paper, we aim to discuss progress towards this in a threefold manner. First, we provide a structured taxonomy of concrete tasks in AI for software engineering, emphasizing the many other tasks in software engineering beyond code generation and completion. Second, we outline several key bottlenecks that limit current approaches. Finally, we provide an opinionated list of promising research directions toward making progress on these bottlenecks, hoping to inspire future research in this rapidly maturing field.

arxiv情報

著者 Alex Gu,Naman Jain,Wen-Ding Li,Manish Shetty,Yijia Shao,Ziyang Li,Diyi Yang,Kevin Ellis,Koushik Sen,Armando Solar-Lezama
発行日 2025-03-28 17:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Challenges and Paths Towards AI for Software Engineering はコメントを受け付けていません

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

要約

特定の主張をサポートするために意図的にデータ表現を操作する誤解を招くチャートの視覚化は、認識を歪め、誤った結論につながる可能性があります。
数十年にわたる研究にもかかわらず、誤解を招く視覚化は、広範で差し迫った問題のままです。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、強力なチャート理解能力を実証していますが、誤解を招くチャートを検出および解釈する能力を体系的に評価した既存の作業はありません。
このペーパーでは、誤解を招くチャートの質問応答(誤解を招くChartqa)ベンチマークを紹介します。これは、誤解を招くチャートの特定と推論においてMLLMを評価するために設計された大規模なマルチモーダルデータセットです。
3,000を超えるキュレーションされた例が含まれており、21種類の誤ったリーダーと10種類のチャートタイプをカバーしています。
各例には、標準化されたチャートコード、CSVデータ、およびマルチラウンドMLLMチェックと使い果たされた専門家のヒューマンレビューを通じて検証された、ラベル付き説明を含む複数選択の質問が含まれます。
データセットに16の最先端のMLLMをベンチマークし、視覚的に欺cept的な慣行を特定する際の制限を明らかにします。
また、誤解を招く誤解を招くために、誤解を招くチャートの解釈におけるMLLMの精度を高める新しいパイプラインを提案します。
私たちの仕事は、MLLM主導の誤解を招くチャートの理解を進めるための基盤を確立しています。
サンプルデータセットを公開して、この重要な領域でのさらなる研究をサポートします。

要約(オリジナル)

Misleading chart visualizations, which intentionally manipulate data representations to support specific claims, can distort perceptions and lead to incorrect conclusions. Despite decades of research, misleading visualizations remain a widespread and pressing issue. Recent advances in multimodal large language models (MLLMs) have demonstrated strong chart comprehension capabilities, yet no existing work has systematically evaluated their ability to detect and interpret misleading charts. This paper introduces the Misleading Chart Question Answering (Misleading ChartQA) Benchmark, a large-scale multimodal dataset designed to assess MLLMs in identifying and reasoning about misleading charts. It contains over 3,000 curated examples, covering 21 types of misleaders and 10 chart types. Each example includes standardized chart code, CSV data, and multiple-choice questions with labeled explanations, validated through multi-round MLLM checks and exhausted expert human review. We benchmark 16 state-of-the-art MLLMs on our dataset, revealing their limitations in identifying visually deceptive practices. We also propose a novel pipeline that detects and localizes misleaders, enhancing MLLMs’ accuracy in misleading chart interpretation. Our work establishes a foundation for advancing MLLM-driven misleading chart comprehension. We publicly release the sample dataset to support further research in this critical area.

arxiv情報

著者 Zixin Chen,Sicheng Song,Kashun Shum,Yanna Lin,Rui Sheng,Huamin Qu
発行日 2025-03-28 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering はコメントを受け付けていません

Empirical Analysis of Sim-and-Real Cotraining Of Diffusion Policies For Planar Pushing from Pixels

要約

ロボット工学の模倣学習では、シミュレーションと実際のハードウェアの両方で生成されたデモデータを共有することが、SIM2realギャップを克服するための強力なレシピとして浮上しています。
この作業は、シミュレーションの設計、SIMとリアルのデータセット作成、およびポリシートレーニングの情報を提供するために、このSim-and-Real Cotrainingの基本原則を解明しようとしています。
カメラの入力からプラングする平面の標準的なタスクに狭く焦点を当てることにより、私たちは私たちの研究で徹底的になることができました。
これらの実験では、特に実際のデータが制限されている場合、シミュレートされたデータを使用した共同\ emph {can}が実際のパフォーマンスを劇的に改善することが確認されています。
パフォーマンスはシミュレートされたデータを使用してスケールを獲得しますが、最終的にはプラトーになります。
実際のデータは、このパフォーマンスの上限を増やします。
また、結果は、物理学のドメインギャップを減らすことが、非摂取操作タスクの視覚的忠実度よりも重要である可能性があることを示唆しています。
おそらく驚くべきことに、いくつかの視覚的なドメインギャップを持つことは、実際には同時化されたポリシーに役立ちます。バイナリプローブは、高性能のポリシーがシミュレートされたドメインを実際と区別することを学ぶことを明らかにしています。
私たちは、SIMとリアルの間の肯定的な移動を促進するこのニュアンスとメカニズムを調査することで結論付けます。
合計で、私たちの実験は、40を超える実世界のポリシー(800以上の試験で評価)と200のシミュレートされたポリシー(40,000以上の試験で評価)に及びます。

要約(オリジナル)

In imitation learning for robotics, cotraining with demonstration data generated both in simulation and on real hardware has emerged as a powerful recipe to overcome the sim2real gap. This work seeks to elucidate basic principles of this sim-and-real cotraining to help inform simulation design, sim-and-real dataset creation, and policy training. Focusing narrowly on the canonical task of planar pushing from camera inputs enabled us to be thorough in our study. These experiments confirm that cotraining with simulated data \emph{can} dramatically improve performance in real, especially when real data is limited. Performance gains scale with simulated data, but eventually plateau; real-world data increases this performance ceiling. The results also suggest that reducing the domain gap in physics may be more important than visual fidelity for non-prehensile manipulation tasks. Perhaps surprisingly, having some visual domain gap actually helps the cotrained policy — binary probes reveal that high-performing policies learn to distinguish simulated domains from real. We conclude by investigating this nuance and mechanisms that facilitate positive transfer between sim-and-real. In total, our experiments span over 40 real-world policies (evaluated on 800+ trials) and 200 simulated policies (evaluated on 40,000+ trials).

arxiv情報

著者 Adam Wei,Abhinav Agarwal,Boyuan Chen,Rohan Bosworth,Nicholas Pfaff,Russ Tedrake
発行日 2025-03-28 17:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Empirical Analysis of Sim-and-Real Cotraining Of Diffusion Policies For Planar Pushing from Pixels はコメントを受け付けていません

Exploring the Effectiveness of Multi-stage Fine-tuning for Cross-encoder Re-rankers

要約

最先端のクロスエンコーダーは、パッセージの再ランクに非常に効果的であるように微調整できます。
再ランカーとしてのクロスエンコーダーの典型的な微調整プロセスには、手動でラベル付けされたデータ、対照的な学習目標、およびヒューリスト的にサンプリングされたネガのセットが必要です。
代わりに、微調整のための別の最近のアプローチでは、蒸留目標を使用して非常に効果的な大きな言語モデルのランキングを模倣するためにモデルを教えることが含まれます。
これらの微調整戦略は、個別に、または順番に適用できます。
この作業では、単一の段階で独立して微調整されたとき、または2つの段階で順次微調整されたときに、ポイントごとのクロスエンコーダーの有効性を体系的に調査します。
私たちの実験は、コントラシティブ学習を使用して微調整されたポイントごとのクロスエンコーダーの有効性は、マルチステージアプローチで微調整されたモデルと同等であることを示しています。
コードは、https://github.com/fpezzuti/multistage-finetuningで複製に利用できます。

要約(オリジナル)

State-of-the-art cross-encoders can be fine-tuned to be highly effective in passage re-ranking. The typical fine-tuning process of cross-encoders as re-rankers requires large amounts of manually labelled data, a contrastive learning objective, and a set of heuristically sampled negatives. An alternative recent approach for fine-tuning instead involves teaching the model to mimic the rankings of a highly effective large language model using a distillation objective. These fine-tuning strategies can be applied either individually, or in sequence. In this work, we systematically investigate the effectiveness of point-wise cross-encoders when fine-tuned independently in a single stage, or sequentially in two stages. Our experiments show that the effectiveness of point-wise cross-encoders fine-tuned using contrastive learning is indeed on par with that of models fine-tuned with multi-stage approaches. Code is available for reproduction at https://github.com/fpezzuti/multistage-finetuning.

arxiv情報

著者 Francesca Pezzuti,Sean MacAvaney,Nicola Tonellotto
発行日 2025-03-28 17:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Exploring the Effectiveness of Multi-stage Fine-tuning for Cross-encoder Re-rankers はコメントを受け付けていません

ActionStudio: A Lightweight Framework for Data and Training of Action Models

要約

アクションモデルは、自律エージェントが複雑なタスクを実行できるようにするために不可欠です。
ただし、エージェント環境の多様性とエージェントデータの複雑さにより、大規模なアクションモデルのトレーニングは依然として困難です。
関心が高まっているにもかかわらず、既存のインフラストラクチャは、スケーラブルなエージェント固有の微調整に対する限られたサポートを提供します。
アクションモデル向けに設計された軽量で拡張可能なデータおよびトレーニングフレームワークであるActionStudioを提示します。
ActionStudioは、標準化された形式を介して不均一なエージェントの軌跡を統合し、LORA、完全な微調整、分散セットアップなどの多様なトレーニングパラダイムをサポートし、堅牢な前処理と検証ツールを統合します。
公共および現実的な業界の両方のベンチマークにわたるその有効性を検証し、強力なパフォーマンスと実用的なスケーラビリティを示しています。
コミュニティでの研究を促進するために、https://github.com/salesforceairesearch/xlamでコードとデータをオープンしました。

要約(オリジナル)

Action models are essential for enabling autonomous agents to perform complex tasks. However, training large action models remains challenging due to the diversity of agent environments and the complexity of agentic data. Despite growing interest, existing infrastructure provides limited support for scalable, agent-specific fine-tuning. We present ActionStudio, a lightweight and extensible data and training framework designed for action models. ActionStudio unifies heterogeneous agent trajectories through a standardized format, supports diverse training paradigms including LoRA, full fine-tuning, and distributed setups, and integrates robust preprocessing and verification tools. We validate its effectiveness across both public and realistic industry benchmarks, demonstrating strong performance and practical scalability. We open-sourced code and data at https://github.com/SalesforceAIResearch/xLAM to facilitate research in the community.

arxiv情報

著者 Jianguo Zhang,Thai Hoang,Ming Zhu,Zuxin Liu,Shiyu Wang,Tulika Awalgaonkar,Akshara Prabhakar,Haolin Chen,Weiran Yao,Zhiwei Liu,Juntao Tan,Juan Carlos Niebles,Shelby Heinecke,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-03-28 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ActionStudio: A Lightweight Framework for Data and Training of Action Models はコメントを受け付けていません

QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?

要約

最近、大量の作業により、数学やロジックなどのベンチマークの推論に関する大規模な言語モデル(LLMS ‘)のパフォーマンスの改善に焦点を当てています。
しかし、過去の仕事は、タスクが明確に定義されていると主に想定しています。
現実の世界では、LLMSへの質問はしばしば不足しており、欠落している情報を取得することによってのみ解決できます。
これは、変数割り当てが欠落している制約満足度の問題(CSP)として正式化します。
必要な変数割り当てのみが欠落しているこの形式主義の特殊なケースを使用して、各問題の難易度の軸を尋ねて定量化するために必要な最小限の質問を特定するLLMの能力を厳密に評価できます。
We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of
GSM-Q単語の問題がヒトのアノテーターによって方程式に変換される場合。
LLMは、オプションのリストから正しい明確化の質問を選択することを任されています。
最先端のモデルはGSM-QおよびGSME-Qで優れていますが、それらの精度はLogic-QおよびPlanning-Qでわずか40〜50%です。
分析は、適切に指定された推論問題を解決する能力は、ベンチマークで成功するのに十分ではないかもしれないことを示しています。モデルは、問題の完全に指定されたバージョンを解決できる場合でも、正しい質問を識別するのが困難です。
さらに、Planning-Qドメインでは、LLMは「わからない」と予測するオプションを明示的に提示したとしても、ヘッジしない傾向があります。これは、モデルの情報収集機能をより深く調査する必要性を強調しています。

要約(オリジナル)

Recently, a large amount of work has focused on improving large language models’ (LLMs’) performance on reasoning benchmarks such as math and logic. However, past work has largely assumed that tasks are well-defined. In the real world, queries to LLMs are often underspecified, only solvable through acquiring missing information. We formalize this as a constraint satisfaction problem (CSP) with missing variable assignments. Using a special case of this formalism where only one necessary variable assignment is missing, we can rigorously evaluate an LLM’s ability to identify the minimal necessary question to ask and quantify axes of difficulty levels for each problem. We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of GSM-Q where word problems are translated into equations by human annotators. The LLM is tasked with selecting the correct clarification question(s) from a list of options. While state-of-the-art models excel at GSM-Q and GSME-Q, their accuracy is only 40-50% on Logic-Q and Planning-Q. Analysis demonstrates that the ability to solve well-specified reasoning problems may not be sufficient for success on our benchmark: models have difficulty identifying the right question to ask, even when they can solve the fully specified version of the problem. Furthermore, in the Planning-Q domain, LLMs tend not to hedge, even when explicitly presented with the option to predict “not sure.” This highlights the need for deeper investigation into models’ information acquisition capabilities.

arxiv情報

著者 Belinda Z. Li,Been Kim,Zi Wang
発行日 2025-03-28 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks? はコメントを受け付けていません

Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation

要約

シーケンシャル推奨(SEQREC)は、ユーザーの歴史的相互作用からシーケンシャルパターンをキャプチャし、多くの実際の推奨システムで重要な役割を果たすことにより、次の項目を予測することを目的としています。
ただし、既存のアプローチは、主に直接的なフォワード計算パラダイムを採用しています。ここでは、シーケンスエンコーダの最終的な隠された状態がユーザー表現として機能します。
この推論パラダイムは、計算の深さが限られているため、ユーザーの好みの複雑な進化性の性質をモデル化するのに苦労し、長期尾アイテムの微妙な理解を欠いて、最適ではないパフォーマンスにつながると主張します。
この問題に対処するために、暗黙のマルチステップ推論を通じてユーザー表現を強化する推奨システムの最初の推論時間コンピューティングフレームワークである\ textBf {Recec}を提案します。
具体的には、Recherecは、マルチステップ推論スペースからスペースをエンコードする元のアイテムを分離するための特別な推論位置の埋め込みを組み込んでいる間、シーケンスの最後の隠し状態をシーケンシャルな推奨に自動網羅してフィードします。
さらに、2つの軽量の推論ベースの学習方法、アンサンブル推論学習(ERL)と進歩的な推論学習(PRL)を導入して、ReceCの推論の可能性をさらに活用します。
5つの公開現実世界のデータセットとさまざまなSEQRECアーキテクチャに関する広範な実験は、提案されたREECの一般性と有効性を示しています。
驚くべきことに、事後分析により、RECECは複数の連続的な推奨バックボーンの性能上限を約30 \%-50 \%増加させることが明らかになりました。
したがって、この作業は、連続的な推奨のための推論時間コンピューティングの将来の研究のための新しい有望な手段を開くことができると考えています。

要約(オリジナル)

Sequential Recommendation (SeqRec) aims to predict the next item by capturing sequential patterns from users’ historical interactions, playing a crucial role in many real-world recommender systems. However, existing approaches predominantly adopt a direct forward computation paradigm, where the final hidden state of the sequence encoder serves as the user representation. We argue that this inference paradigm, due to its limited computational depth, struggles to model the complex evolving nature of user preferences and lacks a nuanced understanding of long-tail items, leading to suboptimal performance. To address this issue, we propose \textbf{ReaRec}, the first inference-time computing framework for recommender systems, which enhances user representations through implicit multi-step reasoning. Specifically, ReaRec autoregressively feeds the sequence’s last hidden state into the sequential recommender while incorporating special reasoning position embeddings to decouple the original item encoding space from the multi-step reasoning space. Moreover, we introduce two lightweight reasoning-based learning methods, Ensemble Reasoning Learning (ERL) and Progressive Reasoning Learning (PRL), to further effectively exploit ReaRec’s reasoning potential. Extensive experiments on five public real-world datasets and different SeqRec architectures demonstrate the generality and effectiveness of our proposed ReaRec. Remarkably, post-hoc analyses reveal that ReaRec significantly elevates the performance ceiling of multiple sequential recommendation backbones by approximately 30\%-50\%. Thus, we believe this work can open a new and promising avenue for future research in inference-time computing for sequential recommendation.

arxiv情報

著者 Jiakai Tang,Sunhao Dai,Teng Shi,Jun Xu,Xu Chen,Wen Chen,Wu Jian,Yuning Jiang
発行日 2025-03-28 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation はコメントを受け付けていません