Does It Make Sense to Speak of Introspection in Large Language Models?

要約

大規模な言語モデル(LLM)は、魅力的な言語行動を示し、時には自己報告を提供します。
人間では、そのような報告はしばしば内省の学部に起因し、通常意識に関連しています。
これは、LLMSによって生成された自己報告をどのように解釈するかという問題を提起します。
内省の概念をどの程度(もしあれば)LLMに有意義に適用できますか?
ここでは、LLMSからの見かけの内省的自己報告の2つの例を提示し、批評します。
最初の例では、LLMは独自の「クリエイティブ」な執筆の背後にあるプロセスを説明しようとします。これは内省の有効な例ではないと主張します。
2番目の例では、LLMは独自の温度パラメーターの値を正しく推進します。これは、(おそらく)意識的な経験を伴わない(おそらく)内省の最小限の例と見なすことができると主張します。

要約(オリジナル)

Large language models (LLMs) exhibit compelling linguistic behaviour, and sometimes offer self-reports, that is to say statements about their own nature, inner workings, or behaviour. In humans, such reports are often attributed to a faculty of introspection and are typically linked to consciousness. This raises the question of how to interpret self-reports produced by LLMs, given their increasing linguistic fluency and cognitive capabilities. To what extent (if any) can the concept of introspection be meaningfully applied to LLMs? Here, we present and critique two examples of apparent introspective self-report from LLMs. In the first example, an LLM attempts to describe the process behind its own “creative” writing, and we argue this is not a valid example of introspection. In the second example, an LLM correctly infers the value of its own temperature parameter, and we argue that this can be legitimately considered a minimal example of introspection, albeit one that is (presumably) not accompanied by conscious experience.

arxiv情報

著者 Iulia Comşa,Murray Shanahan
発行日 2025-06-05 14:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation

要約

大規模な言語モデル(LLMS)の進歩に駆られ、それらを推奨タスクに統合することで、強力な意味的理解と迅速な柔軟性により関心が高まっています。
以前の作業は、ユーザーとアイテムのインタラクションまたはメタデータを推奨のプロンプトにエンコードしました。
並行して、テスト時間のスケーリングと強化学習によって後押しされたLLM推論は、数学やコードなどの分野で優れており、推論の痕跡と正確さの信号が明確で、高性能と解釈可能性を可能にします。
ただし、ユーザーのフィードバックが暗黙的であり、推論の監督がないため、これらの推論方法を推奨に直接適用することは効果がありません。
これに対処するために、$ \ textbf {r2rec} $を提案します。これは、ユーザーのアイテムグラフからの相互作用チェーンをサンプリングし、それらを構造化されたマスクプロンプト戦略を介して構造化された相互作用に変換する推論強化された推奨フレームワークを提案します。
これにより、LLMは暗黙的なパターンに基づいて段階的な意思決定をシミュレートできます。
2段階のトレーニングパイプラインを設計します。監視された微調整は、高品質の痕跡からの基本的な推論を教え、補強学習は報酬信号を介して推論を改善し、まばらな明示的な監督を緩和します。
3つの実際のデータセットでの実験では、R2RECがクラシックおよびLLMベースのベースラインを平均$ \ textBF {10.48%} $のhitratio@1および$ \ textBf {131.81%} $の元のLLMを上回ることを示しています。
さらに、明示的な推論チェーンは、決定プロセスを明らかにすることにより、解釈性を高めます。
私たちのコードは、https://anonymous.4open.science/r/r2rec-7c5dで入手できます。

要約(オリジナル)

Driven by advances in Large Language Models (LLMs), integrating them into recommendation tasks has gained interest due to their strong semantic understanding and prompt flexibility. Prior work encoded user-item interactions or metadata into prompts for recommendations. In parallel, LLM reasoning, boosted by test-time scaling and reinforcement learning, has excelled in fields like mathematics and code, where reasoning traces and correctness signals are clear, enabling high performance and interpretability. However, directly applying these reasoning methods to recommendation is ineffective because user feedback is implicit and lacks reasoning supervision. To address this, we propose $\textbf{R2Rec}$, a reasoning-enhanced recommendation framework that samples interaction chains from the user-item graph and converts them into structured interaction-of-thoughts via a progressive masked prompting strategy, with each thought representing stepwise reasoning grounded in interaction context. This allows LLMs to simulate step-by-step decision-making based on implicit patterns. We design a two-stage training pipeline: supervised fine-tuning teaches basic reasoning from high-quality traces, and reinforcement learning refines reasoning via reward signals, alleviating sparse explicit supervision. Experiments on three real-world datasets show R2Rec outperforms classical and LLM-based baselines with an average $\textbf{10.48%}$ improvement in HitRatio@1 and $\textbf{131.81%}$ gain over the original LLM. Furthermore, the explicit reasoning chains enhance interpretability by revealing the decision process. Our code is available at: https://anonymous.4open.science/r/R2Rec-7C5D.

arxiv情報

著者 Keyu Zhao,Fengli Xu,Yong Li
発行日 2025-06-05 14:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | コメントする

GoRA: Gradient-driven Adaptive Low Rank Adaptation

要約

低ランク適応(LORA)は、ランクの選択と重量の初期化という2つの重要な要因に影響される、その有効性を効率的に微調整するための重要な方法(LLMS)です。
これらの側面の1つに対処することでパフォーマンスを改善するために多数のLORAバリエーションが提案されていますが、それらはしばしば使いやすさや計算効率を妥協します。
この論文では、既存のアプローチの中核的な制限を分析および特定し、統一されたフレームワーク内でランクと初期化戦略の両方を同時に適応させる新しいフレームワーク(勾配駆動型の適応低ランク適応)を提案します。
Goraは、トレーニング中に勾配情報を活用して、最適なランクを動的に割り当て、低ランクアダプターの重みを適応的に初期化します。
私たちの知る限り、ゴラは、ランクの選択または単独の初期化に焦点を当てた以前のアプローチの制限に対処するだけでなく、単一のフレームワーク内の両方の側面を統一し、より効果的で効率的な適応を可能にする最初の方法です。
さまざまなアーキテクチャとモダリティにわたる広範な実験は、Goraがバニラロラの効率を維持しながら、既存のロラベースの方法を常に上回ることを示しています。
たとえば、数学的な推論のためにllama3.1-8bベースを微調整する場合、Goraは標準のLORAよりも5.13ポイントの改善を達成し、高ランクの設定で2.05ポイントの完全な微調整を上回ります。

要約(オリジナル)

Low-Rank Adaptation (LoRA) is a crucial method for efficiently fine-tuning large language models (LLMs), with its effectiveness influenced by two key factors: rank selection and weight initialization. While numerous LoRA variants have been proposed to improve performance by addressing one of these aspects, they often compromise usability or computational efficiency. In this paper, we analyze and identify the core limitations of existing approaches and propose a novel framework — GoRA (Gradient-driven Adaptive Low Rank Adaptation) — that simultaneously adapts both the rank and initialization strategy within a unified framework. GoRA leverages gradient information during training to dynamically assign optimal ranks and initialize low-rank adapter weights in an adaptive manner. To our knowledge, GoRA is the first method that not only addresses the limitations of prior approaches — which often focus on either rank selection or initialization in isolation — but also unifies both aspects within a single framework, enabling more effective and efficient adaptation. Extensive experiments across various architectures and modalities show that GoRA consistently outperforms existing LoRA-based methods while preserving the efficiency of vanilla LoRA. For example, when fine-tuning Llama3.1-8B-Base for mathematical reasoning, GoRA achieves a 5.13-point improvement over standard LoRA and even outperforms full fine-tuning by 2.05 points under high-rank settings.

arxiv情報

著者 Haonan He,Peng Ye,Yuchen Ren,Yuan Yuan,Luyang Zhou,Shucun Ju,Lei Chen
発行日 2025-06-05 14:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation

要約

大規模な言語モデル(LLM)は、英語を含む多くの言語で自然言語理解(NLU)タスクで非常にうまく機能します。
しかし、世界で5番目に発言された言語であるにもかかわらず、バングラの文法誤差補正(GEC)は未発達のままです。
この作業では、バングラGECを改善するためにLLMSを活用する方法を調査します。
そのために、最初にバングラで12のエラークラスを広範囲に分類し、ネイティブバングラスピーカーの調査を行って、実際のエラーを収集します。
次に、正しいものに対応する文法的に間違った文を作成するためのルールベースのノイズインジェクション方法を考案します。
このように作成されたVaiyakaranaデータセットは、5,67,422文で構成され、そのうち2,27,119は誤っています。
このデータセットは、バングラのGECのタスクについてLLMSを指示するために使用されます。
評価によると、\名を使用した命令調整により、ゼロショット設定と比較してLLMSのGECパフォーマンスが3-7パーセントポイント改善され、文法エラーの識別において人間のようなパフォーマンスを達成することが示されています。
しかし、人間は誤差の補正において優れたままです。

要約(オリジナル)

Large Language Models (LLMs) perform exceedingly well in Natural Language Understanding (NLU) tasks for many languages including English. However, despite being the fifth most-spoken language globally, Grammatical Error Correction (GEC) in Bangla remains underdeveloped. In this work, we investigate how LLMs can be leveraged for improving Bangla GEC. For that, we first do an extensive categorization of 12 error classes in Bangla, and take a survey of native Bangla speakers to collect real-world errors. We next devise a rule-based noise injection method to create grammatically incorrect sentences corresponding to correct ones. The Vaiyakarana dataset, thus created, consists of 5,67,422 sentences of which 2,27,119 are erroneous. This dataset is then used to instruction-tune LLMs for the task of GEC in Bangla. Evaluations show that instruction-tuning with \name improves GEC performance of LLMs by 3-7 percentage points as compared to the zero-shot setting, and makes them achieve human-like performance in grammatical error identification. Humans, though, remain superior in error correction.

arxiv情報

著者 Pramit Bhattacharyya,Arnab Bhattacharya
発行日 2025-06-05 14:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Survey on the Evaluation of Generative Models in Music

要約

音楽における生成システムに関する研究は、近年かなりの注目と成長を遂げています。
そのようなシステムを体系的に評価するためのさまざまな試みがなされています。
主観的および客観的なアプローチ、定性的および定量的アプローチ、および経験的および計算方法をカバーする、システム出力とモデルの使いやすさの両方を評価するための共通の評価目標、方法論、およびメトリックの学際的なレビューを提供します。
音楽学、エンジニアリング、およびHCIの観点から、このようなアプローチの利点と課題について説明します。

要約(オリジナル)

Research on generative systems in music has seen considerable attention and growth in recent years. A variety of attempts have been made to systematically evaluate such systems. We provide an interdisciplinary review of the common evaluation targets, methodologies, and metrics for the evaluation of both system output and model usability, covering subjective and objective approaches, qualitative and quantitative approaches, as well as empirical and computational methods. We discuss the advantages and challenges of such approaches from a musicological, an engineering, and an HCI perspective.

arxiv情報

著者 Alexander Lerch,Claire Arthur,Nick Bryan-Kinns,Corey Ford,Qianyi Sun,Ashvala Vinay
発行日 2025-06-05 14:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD | コメントする

Truly Self-Improving Agents Require Intrinsic Metacognitive Learning

要約

自己改善エージェントは、監督を最小限に抑えて新しい機能を継続的に取得することを目指しています。
ただし、現在のアプローチは2つの重要な制限に直面しています。自己改善プロセスはしばしば厳格であり、タスクドメイン全体で一般化することができず、エージェント機能の増加に応じて拡大するのに苦労しています。
効果的な自己改善には、独自の学習プロセスを積極的に評価し、反映し、適応させるエージェントの固有の能力として定義される固有のメタ認知学習が必要であると主張します。
人間のメタ認知からインスピレーションを得て、3つのコンポーネントを含む正式なフレームワークを紹介します:メタ認知知識(能力、タスク、学習戦略の自己評価)、メタ認知計画(学習方法と学習方法の決定)、およびメタ認知評価(将来の学習を改善するための学習経験を反映)。
既存の自己改善剤を分析すると、それらは、スケーラビリティと適応性を制限する固定されたヒトが設計したループである外因性メタ認知メカニズムに主に依存していることがわかります。
各コンポーネントを調べると、本質的なメタ認知のための多くの成分がすでに存在していると主張します。
最後に、人間とエージェントの間でメタ認知的責任を最適に配布し、内因性のメタ認知学習を強く評価し、改善する方法を探ります。これは、真に持続、一般化、および整合した自己改善を可能にするために対処する必要がある重要な課題です。

要約(オリジナル)

Self-improving agents aim to continuously acquire new capabilities with minimal supervision. However, current approaches face two key limitations: their self-improvement processes are often rigid, fail to generalize across tasks domains, and struggle to scale with increasing agent capabilities. We argue that effective self-improvement requires intrinsic metacognitive learning, defined as an agent’s intrinsic ability to actively evaluate, reflect on, and adapt its own learning processes. Drawing inspiration from human metacognition, we introduce a formal framework comprising three components: metacognitive knowledge (self-assessment of capabilities, tasks, and learning strategies), metacognitive planning (deciding what and how to learn), and metacognitive evaluation (reflecting on learning experiences to improve future learning). Analyzing existing self-improving agents, we find they rely predominantly on extrinsic metacognitive mechanisms, which are fixed, human-designed loops that limit scalability and adaptability. Examining each component, we contend that many ingredients for intrinsic metacognition are already present. Finally, we explore how to optimally distribute metacognitive responsibilities between humans and agents, and robustly evaluate and improve intrinsic metacognitive learning, key challenges that must be addressed to enable truly sustained, generalized, and aligned self-improvement.

arxiv情報

著者 Tennison Liu,Mihaela van der Schaar
発行日 2025-06-05 14:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

LLM Social Simulations Are a Promising Research Method

要約

人間の研究対象の正確で検証可能な大手言語モデル(LLM)シミュレーションは、人間の行動を理解し、新しいAIシステムをトレーニングするためのアクセス可能なデータソースを約束します。
しかし、これまでの結果は限られており、この方法を採用した社会科学者はほとんどいません。
このポジションペーパーでは、LLMの社会シミュレーションの約束は、5つの扱いやすい課題に対処することで達成できると主張します。
LLMSと人間の研究対象の間の経験的比較のレビュー、トピックに関する解説、および関連する作業において、私たちの議論を根拠としています。
コンテキストが豊富なプロンプトと、社会科学データセットでの微調整など、有望な方向を特定します。
LLMソーシャルシミュレーションはすでにパイロットおよび探索的研究に使用できると考えており、LLM機能を急速に進めるには、より広範な使用がすぐに可能になる可能性があると考えています。
研究者は、新しいAIシステムを最大限に活用するために、概念モデルの開発と反復評価を優先する必要があります。

要約(オリジナル)

Accurate and verifiable large language model (LLM) simulations of human research subjects promise an accessible data source for understanding human behavior and training new AI systems. However, results to date have been limited, and few social scientists have adopted this method. In this position paper, we argue that the promise of LLM social simulations can be achieved by addressing five tractable challenges. We ground our argument in a review of empirical comparisons between LLMs and human research subjects, commentaries on the topic, and related work. We identify promising directions, including context-rich prompting and fine-tuning with social science datasets. We believe that LLM social simulations can already be used for pilot and exploratory studies, and more widespread use may soon be possible with rapidly advancing LLM capabilities. Researchers should prioritize developing conceptual models and iterative evaluations to make the best use of new AI systems.

arxiv情報

著者 Jacy Reese Anthis,Ryan Liu,Sean M. Richardson,Austin C. Kozlowski,Bernard Koch,James Evans,Erik Brynjolfsson,Michael Bernstein
発行日 2025-06-05 15:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | コメントする

DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning

要約

ゼロショットイベント検出(ED)、トレーニングデータなしで自然言語テキストでイベントの言及を特定するタスクは、専門ドメインでのドキュメントの理解に重要です。
複雑なイベントオントロジーを理解し、パッセージからドメイン固有のトリガーを抽出し、それらを適切に過負荷にして構造化し、ゼロショットedの大規模な言語モデル(LLM)の有用性を制限します。
この目的のために、DreamerとGranderを使用してEDのタスクを切り離す多様な推論的推論フレームワークであるDicoreを提案します。
Dreamerは、オープンエンドのイベントの発見を通じて、イベントのカバレッジを後押しするのに役立つ異なる推論を奨励しています。
逆に、Granderは収束的な推論を導入して、フリーフォームの予測を有限状態のマシンガイド制約デコードを使用してタスク固有の命令に合わせます。
さらに、LLM-Judgeは最終出力を検証して高精度を確保します。
5つのドメインと9つのLLMにわたる6つのデータセットでの広範な実験を通じて、Dicoreが以前のゼロショット、転送学習、および推論ベースラインを一貫して上回り、最高のベースラインで4〜7%の平均F1を達成し、Dicoreを強力なゼロショットエドフレームワークとして確立する方法を示します。

要約(オリジナル)

Zero-shot Event Detection (ED), the task of identifying event mentions in natural language text without any training data, is critical for document understanding in specialized domains. Understanding the complex event ontology, extracting domain-specific triggers from the passage, and structuring them appropriately overloads and limits the utility of Large Language Models (LLMs) for zero-shot ED. To this end, we propose DiCoRe, a divergent-convergent reasoning framework that decouples the task of ED using Dreamer and Grounder. Dreamer encourages divergent reasoning through open-ended event discovery, which helps to boost event coverage. Conversely, Grounder introduces convergent reasoning to align the free-form predictions with the task-specific instructions using finite-state machine guided constrained decoding. Additionally, an LLM-Judge verifies the final outputs to ensure high precision. Through extensive experiments on six datasets across five domains and nine LLMs, we demonstrate how DiCoRe consistently outperforms prior zero-shot, transfer-learning, and reasoning baselines, achieving 4-7% average F1 gains over the best baseline — establishing DiCoRe as a strong zero-shot ED framework.

arxiv情報

著者 Tanmay Parekh,Kartik Mehta,Ninareh Mehrabi,Kai-Wei Chang,Nanyun Peng
発行日 2025-06-05 15:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models

要約

大規模なオーディオ言語モデル(LALMS)の内部メカニズムを理解することは、その動作を解釈し、パフォーマンスを改善するために重要です。
この作業は、LALMSが聴覚属性を内部的に認識し、認識する方法の最初の詳細な分析を示しています。
3つの最先端のラームに語彙投影を適用することにより、属性情報がレイヤーとトークンの位置を越えてどのように進化するかを追跡します。
属性情報は一般に、認識が失敗すると層の深さとともに減少し、以前の層での解決属性はより良い精度と相関することがわかります。
さらに、LALMSは、属性状態の属性状態に必要な情報を集約するのではなく、属性を予測するために聴覚入力のクエリを照会することに大きく依存しています。
調査結果に基づいて、ラームを強化する方法を実証します。
私たちの結果は、聴覚属性処理に関する洞察を提供し、将来の改善への道を開いています。

要約(オリジナル)

Understanding the internal mechanisms of large audio-language models (LALMs) is crucial for interpreting their behavior and improving performance. This work presents the first in-depth analysis of how LALMs internally perceive and recognize auditory attributes. By applying vocabulary projection on three state-of-the-art LALMs, we track how attribute information evolves across layers and token positions. We find that attribute information generally decreases with layer depth when recognition fails, and that resolving attributes at earlier layers correlates with better accuracy. Moreover, LALMs heavily rely on querying auditory inputs for predicting attributes instead of aggregating necessary information in hidden states at attribute-mentioning positions. Based on our findings, we demonstrate a method to enhance LALMs. Our results offer insights into auditory attribute processing, paving the way for future improvements.

arxiv情報

著者 Chih-Kai Yang,Neo Ho,Yi-Jyun Lee,Hung-yi Lee
発行日 2025-06-05 15:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントする

AnyTop: Character Animation Diffusion with Any Topology

要約

任意のスケルトンの動きを生成することは、コンピューターグラフィックスの長年の課題であり、多様なデータセットの不足とデータの不規則な性質のためにほとんど未発表のままです。
この作業では、骨格構造のみを入力として使用して、異なるモーションダイナミクスを持つ多様な文字の動きを生成する拡散モデルであるAnyTopを紹介します。
私たちの作品は、任意のスケルトン学習に合わせた変圧器ベースの除去ネットワークを特徴としており、トポロジー情報を従来の注意メカニズムに統合しています。
さらに、テキストの共同説明を潜在的な特徴表現に組み込むことにより、AnyTopは、多様なスケルトン全体のジョイント間のセマンティック対応を学習します。
私たちの評価は、トポロジごとにわずか3つのトレーニング例であっても、Anytopがよく一般化され、目に見えないスケルトンの動きも生成できることを示しています。
さらに、モデルの潜在スペースは非常に有益であり、共同通信、時間的セグメンテーション、モーション編集などの下流タスクを可能にします。
当社のWebページhttps://anytop2025.github.io/anytop-pageには、ビデオとコードへのリンクが含まれています。

要約(オリジナル)

Generating motion for arbitrary skeletons is a longstanding challenge in computer graphics, remaining largely unexplored due to the scarcity of diverse datasets and the irregular nature of the data. In this work, we introduce AnyTop, a diffusion model that generates motions for diverse characters with distinct motion dynamics, using only their skeletal structure as input. Our work features a transformer-based denoising network, tailored for arbitrary skeleton learning, integrating topology information into the traditional attention mechanism. Additionally, by incorporating textual joint descriptions into the latent feature representation, AnyTop learns semantic correspondences between joints across diverse skeletons. Our evaluation demonstrates that AnyTop generalizes well, even with as few as three training examples per topology, and can produce motions for unseen skeletons as well. Furthermore, our model’s latent space is highly informative, enabling downstream tasks such as joint correspondence, temporal segmentation and motion editing. Our webpage, https://anytop2025.github.io/Anytop-page, includes links to videos and code.

arxiv情報

著者 Inbar Gat,Sigal Raab,Guy Tevet,Yuval Reshef,Amit H. Bermano,Daniel Cohen-Or
発行日 2025-06-05 15:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | コメントする