Prediction hubs are context-informed frequent tokens in LLMs

要約

ハブネス、少数のポイントの傾向は、他のポイントの不均衡な数の最近隣人の中にあります。これは、高次元データに標準距離測定を適用すると一般的に発生し、多くの場合、距離ベースの分析に悪影響を及ぼします。
自己回帰の大手言語モデル(LLMS)は高次元表現で動作するため、それらがハブネスの影響を受けているかどうかを尋ねます。
理論的には、LLMSによって実行される唯一の表現比較操作、すなわち、継続確率を決定するためのコンテキストと具体化されていないベクトルの間で、通常、厄介なハブネスの出現を引き起こす距離現象の濃度によって特徴付けられないことを示しています。
次に、この比較が依然として高度なハブネスにつながることを経験的に示しますが、この場合のハブは妨害を構成しません。
それらはむしろ、次のトークン予測の可能性のある候補者のプールにしばしば現れるコンテキストに変化する頻繁なトークンの結果です。
一方、LLM表現を含む他の距離計算が実行されると、同じ理論的保証はありません。実際、迷惑なハブが現れます。
要約すると、私たちの作品は、一方では、高次元の空間で遍在する一方で、ハブネスが常に緩和する必要がある否定的な特性ではなく、さまざまな広く使用されているLLMSを強調しています。
頻繁なトークンに高い確率を絶えず割り当てることで構成される推測戦略を開発しました。

要約(オリジナル)

Hubness, the tendency for few points to be among the nearest neighbours of a disproportionate number of other points, commonly arises when applying standard distance measures to high-dimensional data, often negatively impacting distance-based analysis. As autoregressive large language models (LLMs) operate on high-dimensional representations, we ask whether they are also affected by hubness. We first show, theoretically, that the only representation comparison operation performed by LLMs, namely that between context and unembedding vectors to determine continuation probabilities, is not characterized by the concentration of distances phenomenon that typically causes the appeareance of nuisance hubness. We then empirically show that this comparison still leads to a high degree of hubness, but the hubs in this case do not constitute a disturbance. They are rather the result of context-modulated frequent tokens often appearing in the pool of likely candidates for next token prediction. On the other hand, when other distance computations involving LLM representations are performed, we do not have the same theoretical guarantees, and, indeed, we see nuisance hubs appear. In summary, our work highlights, on the one hand, how hubness, while omnipresent in high-dimensional spaces, is not always a negative property that needs to be mitigated, and, on the other hand, it shows that various widely-used LLMs have developed a guessing strategy that consists in constantly assigning a high probability to frequent tokens.

arxiv情報

著者 Beatrix M. G. Nielsen,Iuri Macocco,Marco Baroni
発行日 2025-02-14 14:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Prediction hubs are context-informed frequent tokens in LLMs はコメントを受け付けていません

Do Large Language Models Reason Causally Like Us? Even Better?

要約

因果推論は、知性のコアコンポーネントです。
大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に印象的な能力を示しており、彼らの応答が真の理解または統計的パターンを反映しているかどうかについて疑問を提起しています。
コライダーグラフに基づいたタスクを使用して、人間の因果推論と4つのLLMを比較し、他の変数からの証拠が与えられたクエリ変数が発生する可能性を評価しました。
LLMSは、モデル、コンテキスト、およびタスクに基づいてアラインメントシフトを備えて、人間のようなものから規範的推論までのスペクトルに沿って因果的に推論されることがわかります。
全体として、GPT-4OとClaudeは「説明」を含む最も規範的な行動を示しましたが、Gemini-ProとGPT-3.5はそうではありませんでした。
すべてのエージェントは、予想される原因の独立性から逸脱しましたが、最小限には、その原因を考慮して効果の可能性を評価する際に、強い連想推論と予測推論を示しました。
これらの発見は、AIバイアスが人間の意思決定をますます助けるため、AIバイアスを評価する必要性を強調しています。

要約(オリジナル)

Causal reasoning is a core component of intelligence. Large language models (LLMs) have shown impressive capabilities in generating human-like text, raising questions about whether their responses reflect true understanding or statistical patterns. We compared causal reasoning in humans and four LLMs using tasks based on collider graphs, rating the likelihood of a query variable occurring given evidence from other variables. We find that LLMs reason causally along a spectrum from human-like to normative inference, with alignment shifting based on model, context, and task. Overall, GPT-4o and Claude showed the most normative behavior, including ‘explaining away’, whereas Gemini-Pro and GPT-3.5 did not. Although all agents deviated from the expected independence of causes – Claude the least – they exhibited strong associative reasoning and predictive inference when assessing the likelihood of the effect given its causes. These findings underscore the need to assess AI biases as they increasingly assist human decision-making.

arxiv情報

著者 Hanna M. Dettki,Brenden M. Lake,Charley M. Wu,Bob Rehder
発行日 2025-02-14 15:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Do Large Language Models Reason Causally Like Us? Even Better? はコメントを受け付けていません

Forget the Data and Fine-Tuning! Just Fold the Network to Compress

要約

モデル折りたたみを導入します。これは、層全体で構造的に類似したニューロンをマージする新しいデータフリーモデル圧縮技術であり、微調整やトレーニングデータへのアクセスを必要とせずにモデルサイズを大幅に削減します。
既存の方法とは異なり、モデルの折り畳みは、K-Meansクラスタリングを活用し、変動の崩壊または爆発を防ぐために新しいデータフリーの手法を使用して、圧縮中のデータ統計を保持します。
ResNet18やLlama-7Bを含む標準的なベンチマーク全体の理論的枠組みと実験は、モデルの折り畳みがデータ駆動型の圧縮技術に匹敵するパフォーマンスを達成し、最近提案されたデータフリーの方法、特に高いスパースレベルで優れていることを示しています。
このアプローチは、大規模なモデルを圧縮するために特に効果的であり、リソースに制約のある環境での展開に適しています。

要約(オリジナル)

We introduce model folding, a novel data-free model compression technique that merges structurally similar neurons across layers, significantly reducing the model size without the need for fine-tuning or access to training data. Unlike existing methods, model folding preserves data statistics during compression by leveraging k-means clustering, and using novel data-free techniques to prevent variance collapse or explosion. Our theoretical framework and experiments across standard benchmarks, including ResNet18 and LLaMA-7B, demonstrate that model folding achieves comparable performance to data-driven compression techniques and outperforms recently proposed data-free methods, especially at high sparsity levels. This approach is particularly effective for compressing large-scale models, making it suitable for deployment in resource-constrained environments.

arxiv情報

著者 Dong Wang,Haris Šikić,Lothar Thiele,Olga Saukh
発行日 2025-02-14 15:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Forget the Data and Fine-Tuning! Just Fold the Network to Compress はコメントを受け付けていません

Shield Synthesis for LTL Modulo Theories

要約

近年、機械学習(ML)モデルは、さまざまなドメインで顕著な成功を収めています。
ただし、これらのモデルは、安全性が批判的なシステムでの展開を妨げる危険な動作を実証する傾向もあります。
この問題に対処するために、十分な研究では、特定のMLモデルの安全な動作を保証する方法の開発に焦点を当てています。
顕著な例は、不要な動作をブロックする外部コンポーネント(「シールド」)を組み込んだシールドです。
大きな進歩にもかかわらず、シールドは主なset折に苦しんでいます。現在、命題ロジック(LTLなど)のみでエンコードされたプロパティに向けられており、より豊富なロジックには適していません。
これにより、多くの実際のシステムでのシールドの広範な適用性が制限されます。
この作業では、このギャップに対処し、リアクティブ合成モジュロ理論の最近の進歩に基づいて、LTLモジュロ理論にシールドを拡張します。
これにより、これらのより表現力豊かなロジックにおける複雑な安全仕様に準拠するシールドを生成するための新しいアプローチを開発することができました。
シールドを評価し、時間的ダイナミクスで豊富なデータを処理する能力を実証しました。
私たちの知る限り、これはそのような表現力のためにシールドを統合するための最初のアプローチです。

要約(オリジナル)

In recent years, Machine Learning (ML) models have achieved remarkable success in various domains. However, these models also tend to demonstrate unsafe behaviors, precluding their deployment in safety-critical systems. To cope with this issue, ample research focuses on developing methods that guarantee the safe behaviour of a given ML model. A prominent example is shielding which incorporates an external component (a “shield”) that blocks unwanted behavior. Despite significant progress, shielding suffers from a main setback: it is currently geared towards properties encoded solely in propositional logics (e.g., LTL) and is unsuitable for richer logics. This, in turn, limits the widespread applicability of shielding in many real-world systems. In this work, we address this gap, and extend shielding to LTL modulo theories, by building upon recent advances in reactive synthesis modulo theories. This allowed us to develop a novel approach for generating shields conforming to complex safety specifications in these more expressive, logics. We evaluated our shields and demonstrate their ability to handle rich data with temporal dynamics. To the best of our knowledge, this is the first approach for synthesizing shields for such expressivity.

arxiv情報

著者 Andoni Rodriguez,Guy Amir,Davide Corsi,Cesar Sanchez,Guy Katz
発行日 2025-02-14 15:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO, cs.RO | Shield Synthesis for LTL Modulo Theories はコメントを受け付けていません

AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search

要約

大規模な言語モデル(LLMS)の自律的な意思決定能力を活用することで、推論タスクで優れたパフォーマンスが実証されています。
ただし、反復的または再帰的検索充電(RAG)技術の成功にもかかわらず、これらの方法は、複雑な問題に直面したときに単一のソリューション空間に制約されることがよくあります。
この論文では、システム分析を効率的な推論アクションと統合し、内因性推論機能を大幅に活性化し、AirRagと呼ばれるモンテカルロツリー検索(MCTS)を介して特定のタスクのソリューション空間を拡大するRAGの新しい思考パターンを提案します。
具体的には、私たちのアプローチは、MCTを使用して広い樹木ベースの推論空間に拡張される5つの基本的な推論アクションを設計しています。
このアプローチには、潜在的な推論パスと推論スケーリング法を調査するための自己整合性の検証も組み込まれています。
さらに、重要なアクションにより多くの推論リソースを割り当てるために、計算的に最適な戦略が採用され、それにより全体的なパフォーマンスが向上します。
実験結果は、AirRagの有効性を示しており、複雑な質問データセットで大きなパフォーマンスの向上を示しています。
さらに、AirRagは柔軟で軽量であるため、他の高度な技術と簡単に統合できます。

要約(オリジナル)

Leveraging the autonomous decision-making capabilities of large language models (LLMs) has demonstrated superior performance in reasoning tasks. However, despite the success of iterative or recursive retrieval-augmented generation (RAG) techniques, these methods are often constrained to a single solution space when confronted with complex problems. In this paper, we propose a novel thinking pattern in RAG that integrates system analysis with efficient reasoning actions, significantly activating intrinsic reasoning capabilities and expanding the solution space of specific tasks via Monte Carlo Tree Search (MCTS), which we refer to as AirRAG. Specifically, our approach designs five fundamental reasoning actions, which are expanded to a broad tree-based reasoning space using MCTS. The approach also incorporates self-consistency verification to explore potential reasoning paths and inference scaling law. Additionally, computationally optimal strategies are employed to allocate more inference resources to key actions, thereby enhancing overall performance. Experimental results demonstrate the effectiveness of AirRAG, showing significant performance gains on complex question-answering datasets. Furthermore, AirRAG is flexible and lightweight, making it easy to integrate with other advanced technologies.

arxiv情報

著者 Wenfeng Feng,Chuzhan Hao,Yuewei Zhang,Jingyi Song,Hao Wang
発行日 2025-02-14 15:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search はコメントを受け付けていません

A Multiagent Path Search Algorithm for Large-Scale Coalition Structure Generation

要約

連合構造生成(CSG)、つまり、エージェントのセットを連合に最適に分割して社会福祉を最大化する問題は、マルチエージェントシステムの基本的な計算上の問題です。
この問題は、輸送や災害対応など、小さな実行時間が必要な多くのアプリケーションにとって重要です。
この論文では、連合構造のグラフで動作するCSGのアルゴリズムを検索するマルチエージェントパス検索アルゴリズムであるSaldaeを開発します。
私たちのアルゴリズムは、さまざまなヒューリスティックと戦略を利用して、検索を実行し、ガイドします。
これは、数百と数千のエージェントで大きな問題を処理できる時点のアルゴリズムです。
災害対応や電気自動車配分ベンチマークを含む9つの標準価値分布について経験的に、アルゴリズムが高品質のソリューションの迅速な発見を可能にし、他の最先端の方法と好意的に比較することを示しています。

要約(オリジナル)

Coalition structure generation (CSG), i.e. the problem of optimally partitioning a set of agents into coalitions to maximize social welfare, is a fundamental computational problem in multiagent systems. This problem is important for many applications where small run times are necessary, including transportation and disaster response. In this paper, we develop SALDAE, a multiagent path finding algorithm for CSG that operates on a graph of coalition structures. Our algorithm utilizes a variety of heuristics and strategies to perform the search and guide it. It is an anytime algorithm that can handle large problems with hundreds and thousands of agents. We show empirically on nine standard value distributions, including disaster response and electric vehicle allocation benchmarks, that our algorithm enables a rapid finding of high-quality solutions and compares favorably with other state-of-the-art methods.

arxiv情報

著者 Redha Taguelmimt,Samir Aknine,Djamila Boukredera,Narayan Changder,Tuomas Sandholm
発行日 2025-02-14 15:21:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 93A16, cs.AI, cs.GT, cs.MA, F.2 | A Multiagent Path Search Algorithm for Large-Scale Coalition Structure Generation はコメントを受け付けていません

Graph Foundation Models for Recommendation: A Comprehensive Survey

要約

推奨システム(RS)は、オンライン情報の広大な広がりをナビゲートするための基本的なツールとして機能し、ランキングの精度を向上させる上でますます重要な役割を果たしている深い学習の進歩を果たします。
これらの中で、グラフニューラルネットワーク(GNN)は高次の構造情報の抽出に優れていますが、大規模な言語モデル(LLM)は自然言語を処理して理解するように設計されており、両方のアプローチが非常に効果的で広く採用されています。
最近の研究では、GNNとLLMの強度を統合して、テキストの理解とともにユーザーとアイテムの関係のグラフベースの構造を活用することにより、複雑なRSの問題をより効率的にモデル化するグラフ基礎モデル(GFM)に焦点を当てています。
この調査では、現在のアプローチの明確な分類法を導入し、方法論の詳細に飛び込み、重要な課題と将来の方向性を強調することにより、GFMベースのRSテクノロジーの包括的な概要を提供します。
最近の進歩を統合することにより、GFMベースの推奨システムの進化する景観に関する貴重な洞察を提供することを目指しています。

要約(オリジナル)

Recommender systems (RS) serve as a fundamental tool for navigating the vast expanse of online information, with deep learning advancements playing an increasingly important role in improving ranking accuracy. Among these, graph neural networks (GNNs) excel at extracting higher-order structural information, while large language models (LLMs) are designed to process and comprehend natural language, making both approaches highly effective and widely adopted. Recent research has focused on graph foundation models (GFMs), which integrate the strengths of GNNs and LLMs to model complex RS problems more efficiently by leveraging the graph-based structure of user-item relationships alongside textual understanding. In this survey, we provide a comprehensive overview of GFM-based RS technologies by introducing a clear taxonomy of current approaches, diving into methodological details, and highlighting key challenges and future directions. By synthesizing recent advancements, we aim to offer valuable insights into the evolving landscape of GFM-based recommender systems.

arxiv情報

著者 Bin Wu,Yihang Wang,Yuanhao Zeng,Jiawei Liu,Jiashu Zhao,Cheng Yang,Yawen Li,Long Xia,Dawei Yin,Chuan Shi
発行日 2025-02-14 15:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Graph Foundation Models for Recommendation: A Comprehensive Survey はコメントを受け付けていません

SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption

要約

密度ベースのクラスタリングは、低密度領域によって分離されている限り、任意の形状のクラスターを識別できるため、最も人気のあるクラスタリングアルゴリズムです。
ただし、低密度の領域では分離されていない高密度領域は、複数のクラスターに属する異なる構造を持つ場合があります。
私たちが知る限り、以前の密度ベースのクラスタリングアルゴリズムはすべて、そのような構造を検出できません。
この論文では、この問題に対処するための新しい密度ベースのクラスタリングスキームを提供します。
これは、低密度領域で分離されていない高密度領域の綿密な構造を検出できるため、クラスタリングのアプリケーションの範囲を拡張できるのは、最初のクラスタリングアルゴリズムです。
アルゴリズムは、SDC-HSDD-NDSAと呼ばれる正規化された密度と自己適応による階層二次指向の微分により、二次指向の微分、階層、正規化密度、および自己適応係数を採用しています。
合成および実際のデータセットでの実験は、アルゴリズムの有効性、堅牢性、および粒度の独立性を検証するために実装されており、スキームはPythonパッケージSCIKIT-LEARNの監視されていないスキームと比較されます。
結果は、私たちのアルゴリズムが多くの状況で以前のアルゴリズムを上回ること、特にクラスターが通常の内部構造を持っている場合に大幅に優れていることを示しています。
たとえば、ARIおよびNMI基準を使用した構造を持つ8つのノイズレス合成データセットを平均して、以前のアルゴリズムは0.6および0.7未満のスコアを取得しますが、提示されたアルゴリズムはそれぞれ0.9と0.95を超えるスコアを取得します。

要約(オリジナル)

Density-based clustering is the most popular clustering algorithm since it can identify clusters of arbitrary shape as long as they are separated by low-density regions. However, a high-density region that is not separated by low-density ones might also have different structures belonging to multiple clusters. As far as we know, all previous density-based clustering algorithms fail to detect such structures. In this paper, we provide a novel density-based clustering scheme to address this problem. It is the rst clustering algorithm that can detect meticulous structures in a high-density region that is not separated by low-density ones and thus extends the range of applications of clustering. The algorithm employs secondary directed differential, hierarchy, normalized density, as well as the self-adaption coefficient, called Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption, dubbed SDC-HSDD-NDSA. Experiments on synthetic and real datasets are implemented to verify the effectiveness, robustness, and granularity independence of the algorithm, and the scheme is compared to unsupervised schemes in the Python package Scikit-learn. Results demonstrate that our algorithm outperforms previous ones in many situations, especially significantly when clusters have regular internal structures. For example, averaging over the eight noiseless synthetic datasets with structures employing ARI and NMI criteria, previous algorithms obtain scores below 0.6 and 0.7, while the presented algorithm obtains scores higher than 0.9 and 0.95, respectively.

arxiv情報

著者 Hao Shu
発行日 2025-02-14 15:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption はコメントを受け付けていません

Shaping Inductive Bias in Diffusion Models through Frequency-Based Noise Control

要約

拡散確率モデル(DPMS)は、多くの生成タスクで比類のない成功を達成した強力な生成モデルです。
この作業では、モデルへのデータのターゲット分布に適した拡散モデルのトレーニングとサンプリングに帰納的バイアスを構築することを目指しています。
トポロジカル構造のデータについては、これらの誘導バイアスを意図的に操作し、設定するために、周波数ベースのノーシングオペレーターを考案します。
最初に、ノーシングフォワードプロセスの適切な操作がDPMSを導き、学習する分布の特定の側面に焦点を合わせることができることを示します。
さまざまなデータセットが異なる帰納的バイアスを必要とし、適切な周波数ベースのノイズ制御が標準拡散と比較して生成パフォーマンスの増加を誘発することを示します。
最後に、学習中に特定の周波数で情報を無視する可能性を示します。
これを画像の腐敗と回復タスクに示します。このタスクでは、深刻な騒音腐敗後に元のターゲット分布を回復するためにDPMをトレーニングします。

要約(オリジナル)

Diffusion Probabilistic Models (DPMs) are powerful generative models that have achieved unparalleled success in a number of generative tasks. In this work, we aim to build inductive biases into the training and sampling of diffusion models to better accommodate the target distribution of the data to model. For topologically structured data, we devise a frequency-based noising operator to purposefully manipulate, and set, these inductive biases. We first show that appropriate manipulations of the noising forward process can lead DPMs to focus on particular aspects of the distribution to learn. We show that different datasets necessitate different inductive biases, and that appropriate frequency-based noise control induces increased generative performance compared to standard diffusion. Finally, we demonstrate the possibility of ignoring information at particular frequencies while learning. We show this in an image corruption and recovery task, where we train a DPM to recover the original target distribution after severe noise corruption.

arxiv情報

著者 Thomas Jiralerspong,Berton Earnshaw,Jason Hartford,Yoshua Bengio,Luca Scimeca
発行日 2025-02-14 15:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Shaping Inductive Bias in Diffusion Models through Frequency-Based Noise Control はコメントを受け付けていません

Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices

要約

Federated Fine-Tuningは、データプライバシーを維持しながら、エッジデバイスで大規模な言語モデル(LLM)を調整するための有望なアプローチを提供します。
ただし、これらのモデルをエッジデバイスで微調整すると、メモリ、通信、計算の需要が高いため、依然として困難なままです。
タスクアライメントを使用したゼロオーダー最適化は、潜在的なソリューションを提供し、推論レベルのメモリ要件で微調整を可能にしますが、より長い収束時間が必要です。
このホワイトペーパーでは、ネットワークを2つのブロックに分割するフェデレートスプリット摂動ゼロオーダー最適化(FEDSPZO)を提案し、ブロックごとに異なる数の摂動を計算上効果的な方法で適用し、より速い収束を達成します。
私たちの評価は、連邦学習におけるゼロオーダー最先端のテクニックと比較して、2.5〜7回の計算オーバーヘッドの$削減を示しています。

要約(オリジナル)

Federated fine-tuning offers a promising approach for tuning Large Language Models (LLMs) on edge devices while preserving data privacy. However, fine-tuning these models on edge devices remains challenging due to high memory, communication, and computational demands. Zero-order optimization with task alignment provides a potential solution, enabling fine-tuning with inference-level memory requirements but requires a longer convergence time. In this paper, we propose Federated Split-Perturbation Zero-order Optimization (FedSPZO) that divides the network into two blocks, applying a different number of perturbations per block in a computationally effective way, achieving faster convergence. Our evaluation shows a $2.5 – 7\times $ reduction in computation overhead compared to zero-order state of the art techniques in federated learning.

arxiv情報

著者 Mohamed Aboelenien Ahmed,Kilian Pfeiffer,Ramin Khalili,Heba Khdr,Jörg Henkel
発行日 2025-02-14 15:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices はコメントを受け付けていません