Assessing the Macro and Micro Effects of Random Seeds on Fine-Tuning Large Language Models

要約

微調整する大規模な言語モデル(LLMS)におけるランダム種子の影響は、モデルのパフォーマンスに潜在的な影響を与えているにもかかわらず、ほとんど見落とされています。この調査では、接着剤とスーパーグルーベンチマークを使用してLLMSに対するランダムシードの効果を体系的に評価します。
精度やF1などの従来のメトリックを通じてマクロレベルの影響を分析し、その平均と分散を計算してパフォーマンスの変動を定量化します。
マイクロレベルの効果をキャプチャするために、実行中の個々の予測の安定性を測定する新しいメトリック、一貫性を導入します。
私たちの実験は、マクロレベルとミクロレベルの両方で有意な分散を明らかにし、微調整と評価におけるランダム種子を慎重に検討する必要性を強調しています。

要約(オリジナル)

The impact of random seeds in fine-tuning large language models (LLMs) has been largely overlooked despite its potential influence on model performance.In this study, we systematically evaluate the effects of random seeds on LLMs using the GLUE and SuperGLUE benchmarks. We analyze the macro-level impact through traditional metrics like accuracy and F1, calculating their mean and variance to quantify performance fluctuations. To capture the micro-level effects, we introduce a novel metric, consistency, measuring the stability of individual predictions across runs. Our experiments reveal significant variance at both macro and micro levels, underscoring the need for careful consideration of random seeds in fine-tuning and evaluation.

arxiv情報

著者 Hao Zhou,Guergana Savova,Lijing Wang
発行日 2025-03-10 13:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Assessing the Macro and Micro Effects of Random Seeds on Fine-Tuning Large Language Models はコメントを受け付けていません

Temporal Triplane Transformers as Occupancy World Models

要約

近年、世界モデルに大きな進歩が見られます。これは、主にエージェントの運動軌跡と周囲の環境の結果として生じる変化との間の細かい相関を学習することに焦点を当てています。
ただし、既存の方法は、このような細かい相関をキャプチャし、リアルタイムの予測を達成するのに苦労することがよくあります。
これに対処するために、T $^3 $以前と呼ばれる自動運転の新しい4D占有世界モデルを提案します。
T $^3 $前者は、3Dセマンティックで占有された環境を効率的に圧縮するコンパクトなトリプレーン表現を事前に訓練することから始まります。
次に、t $^3 $以前の抽出物は、歴史的なトリプレーンからのマルチスケールの時間運動機能を抽出し、次のトリプレーンの変化を繰り返し予測するために自己回帰的アプローチを採用しています。
最後に、t $^3 $の前者は、トリプレーンの変化と以前の変化を組み合わせて、それらを将来の占有率と自我モーションの軌跡にデコードします。
実験結果は、T $^3 $の優位性を示しており、1.44 $ \ Times $の速い推論速度(26 fps)を達成し、平均IOUを36.09に改善し、平均絶対計画誤差を1.0メートルに減らします。

要約(オリジナル)

Recent years have seen significant advances in world models, which primarily focus on learning fine-grained correlations between an agent’s motion trajectory and the resulting changes in its surrounding environment. However, existing methods often struggle to capture such fine-grained correlations and achieve real-time predictions. To address this, we propose a new 4D occupancy world model for autonomous driving, termed T$^3$Former. T$^3$Former begins by pre-training a compact triplane representation that efficiently compresses the 3D semantically occupied environment. Next, T$^3$Former extracts multi-scale temporal motion features from the historical triplane and employs an autoregressive approach to iteratively predict the next triplane changes. Finally, T$^3$Former combines the triplane changes with the previous ones to decode them into future occupancy results and ego-motion trajectories. Experimental results demonstrate the superiority of T$^3$Former, achieving 1.44$\times$ faster inference speed (26 FPS), while improving the mean IoU to 36.09 and reducing the mean absolute planning error to 1.0 meters.

arxiv情報

著者 Haoran Xu,Peixi Peng,Guang Tan,Yiqian Chang,Yisen Zhao,Yonghong Tian
発行日 2025-03-10 13:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Temporal Triplane Transformers as Occupancy World Models はコメントを受け付けていません

Research and Design on Intelligent Recognition of Unordered Targets for Robots Based on Reinforcement Learning

要約

人工知能(AI)によって駆動されるロボットターゲット認識研究の分野では、ターゲットの障害分布、環境の複雑さ、データの大規模、およびノイズ干渉などの要因により、ターゲット認識精度の改善が大幅に制限されています。
現在のAIテクノロジーの継続的な反復とアップグレードを背景に、複雑で変更可能なシナリオでインテリジェントロボットによる障害ターゲットの正確な認識の需要を満たすために、この研究は、補強学習を使用したAIベースのインテリジェントロボット障害ターゲット認識方法を革新的に提案しています。
この方法では、収集されたターゲット画像を両側ろ過アルゴリズムで処理し、それらを低照明画像と反射画像に分解します。
その後、差別化されたAI戦略を採用し、照明画像をそれぞれ圧縮し、それぞれ反射画像を強化し、画像の2つの部分を融合して新しい画像を生成します。
これに基づいて、この研究は、補強学習アルゴリズムとともに、コアAIテクノロジーであるディープラーニングを深く統合しています。
強化されたターゲット画像は、トレーニングのための深い強化学習モデルに入力され、最終的にAIベースのインテリジェントロボットが障害のあるターゲットを効率的に認識できるようにします。
実験結果は、提案された方法がターゲット画像の品質を大幅に改善するだけでなく、AIベースのインテリジェントロボットがより高い効率と精度で障害のあるターゲットの認識タスクを完了することを可能にし、AIロボットの分野で非常に高いアプリケーション価値と幅広い開発の見通しを実証できることを示しています。

要約(オリジナル)

In the field of robot target recognition research driven by artificial intelligence (AI), factors such as the disordered distribution of targets, the complexity of the environment, the massive scale of data, and noise interference have significantly restricted the improvement of target recognition accuracy. Against the backdrop of the continuous iteration and upgrading of current AI technologies, to meet the demand for accurate recognition of disordered targets by intelligent robots in complex and changeable scenarios, this study innovatively proposes an AI – based intelligent robot disordered target recognition method using reinforcement learning. This method processes the collected target images with the bilateral filtering algorithm, decomposing them into low – illumination images and reflection images. Subsequently, it adopts differentiated AI strategies, compressing the illumination images and enhancing the reflection images respectively, and then fuses the two parts of images to generate a new image. On this basis, this study deeply integrates deep learning, a core AI technology, with the reinforcement learning algorithm. The enhanced target images are input into a deep reinforcement learning model for training, ultimately enabling the AI – based intelligent robot to efficiently recognize disordered targets. Experimental results show that the proposed method can not only significantly improve the quality of target images but also enable the AI – based intelligent robot to complete the recognition task of disordered targets with higher efficiency and accuracy, demonstrating extremely high application value and broad development prospects in the field of AI robots.

arxiv情報

著者 Yiting Mao,Dajun Tao,Shengyuan Zhang,Tian Qi,Keqin Li
発行日 2025-03-10 13:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Research and Design on Intelligent Recognition of Unordered Targets for Robots Based on Reinforcement Learning はコメントを受け付けていません

The Economics of p(doom): Scenarios of Existential Risk and Economic Growth in the Age of Transformative AI

要約

人工知能(AI)の最近の進歩は、人類への長期的な影響について多様な一連の予測をもたらしました。
中心的な焦点は、変革的AI(TAI)の潜在的な出現であり、最終的にすべての経済的に価値のあるタスクで人間を上回り、労働を完全に自動化することができます。
議論されたシナリオは、悪質なTAIが(「AI DOOM」)を引き継いだ後の人間の絶滅から、前例のない経済成長と豊富さ(「後のスカルシティ」)にまで及びます。
ただし、これらのシナリオの確率と意味は非常に不確実なままです。
ここでは、さまざまなシナリオを編成し、総合的な福祉の観点から、関連する実存的リスクと経済的結果を評価します。
私たちの分析は、低確率の壊滅的な結果でさえ、AIの安全性と調整研究への多額の投資を正当化することを示しています。
最適化の代表的な個人は、絶滅のリスクを軽減するためにかなりのリソースを合理的に割り当てることがわかります。
場合によっては、彼女はTAIをまったく開発しないことを好まないでしょう。
この結果は、AIの安全性と整合研究における現在の世界的な努力は、TAIによってもたらされる実存的リスクの規模と緊急性に比べて非常に不十分であることを強調しています。
したがって、私たちの調査結果は、TAIの潜在的な経済的利益と不可逆的な害の防止のバランスをとるために、より強力な保護手段の必要性を強調しています。
これらのリスクに対処することは、持続可能な人間の繁栄に向けて技術の進歩を導くために重要です。

要約(オリジナル)

Recent advances in artificial intelligence (AI) have led to a diverse set of predictions about its long-term impact on humanity. A central focus is the potential emergence of transformative AI (TAI), eventually capable of outperforming humans in all economically valuable tasks and fully automating labor. Discussed scenarios range from human extinction after a misaligned TAI takes over (‘AI doom’) to unprecedented economic growth and abundance (‘post-scarcity’). However, the probabilities and implications of these scenarios remain highly uncertain. Here, we organize the various scenarios and evaluate their associated existential risks and economic outcomes in terms of aggregate welfare. Our analysis shows that even low-probability catastrophic outcomes justify large investments in AI safety and alignment research. We find that the optimizing representative individual would rationally allocate substantial resources to mitigate extinction risk; in some cases, she would prefer not to develop TAI at all. This result highlights that current global efforts in AI safety and alignment research are vastly insufficient relative to the scale and urgency of existential risks posed by TAI. Our findings therefore underscore the need for stronger safeguards to balance the potential economic benefits of TAI with the prevention of irreversible harm. Addressing these risks is crucial for steering technological progress toward sustainable human prosperity.

arxiv情報

著者 Jakub Growiec,Klaus Prettner
発行日 2025-03-10 13:53:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, econ.GN, q-fin.EC | The Economics of p(doom): Scenarios of Existential Risk and Economic Growth in the Age of Transformative AI はコメントを受け付けていません

Encoding Argumentation Frameworks to Propositional Logic Systems

要約

議論フレームワークの理論($ af $ s)は、人​​工知能に役立つツールでした。
$ af $ sとロジックの間の接続の研究は、重要な分野です。
このペーパーでは、異なる命題論理システムの論理式として$ af $ sをエンコードすることにより、エンコーディング方法を一般的に一般化します。
Dungの古典的セマンティクスやGabbayの等式セマンティクスを含む、議論セマンティクスによるAFのモデル間の関係、および命題論理システムのセマンティクスによるエンコードされた式のモデルを研究しています。
まず、2値の命題論理システムに$ af $ sをエンコードする場合の通常のエンコード関数の証明を補完します。
次に、$ af $ sを3値の命題論理システムとファジー命題論理システムにエンコードし、モデル関係を調査します。
このペーパーでは、$ af $ sと命題論理システムとの関係を強化します。
また、さまざまなファジーロジック操作を選択して、新しい等式セマンティクスを構築する新しい方法を提供します。

要約(オリジナル)

The theory of argumentation frameworks ($AF$s) has been a useful tool for artificial intelligence. The research of the connection between $AF$s and logic is an important branch. This paper generalizes the encoding method by encoding $AF$s as logical formulas in different propositional logic systems. It studies the relationship between models of an AF by argumentation semantics, including Dung’s classical semantics and Gabbay’s equational semantics, and models of the encoded formulas by semantics of propositional logic systems. Firstly, we supplement the proof of the regular encoding function in the case of encoding $AF$s to the 2-valued propositional logic system. Then we encode $AF$s to 3-valued propositional logic systems and fuzzy propositional logic systems and explore the model relationship. This paper enhances the connection between $AF$s and propositional logic systems. It also provides a new way to construct new equational semantics by choosing different fuzzy logic operations.

arxiv情報

著者 Shuai Tang,Jiachao Wu,Ning Zhou
発行日 2025-03-10 14:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 03B50, 03B52, 03B70, 68Q55, cs.AI, F.4.1, math.LO | Encoding Argumentation Frameworks to Propositional Logic Systems はコメントを受け付けていません

Artificial Utopia: Simulation and Intelligent Agents for a Democratised Future

要約

政治と経済学における一般的なトップダウンシステムは、気候変動、社会的不平等、紛争など、21世紀の差し迫った課題に対処するのに苦労しています。
政治と経済学におけるボトムアップの民主化と参加型アプローチは、これらの問題に立ち向かい、克服するための有望な代替手段と見なされています。多くの場合、ユートピアの倍音で、多くの場合、政治的、社会的、生態学的な未来をより良く再構築する可能性があるため、さまざまな国で現代の権威主義的傾向とは対照的です。
しかし、制度の詳細と関連する集団的人間の行動または文化は、ほとんど理解されず、議論されていません。
この記事では、正式および計算方法と人工知能を備えたユートピアの民主化の取り組みに焦点を当てた新しい研究アジェンダを提案します。
人工的なユートピアは、現実世界の文脈でのアイデアをテストするのと比較して、否定的な結果のリスクを減らすために、シリコ内の新しい政治的アイデアと経済政策の安全なテスト場を提供します。
より現実的な方法で人間の認知と集団的意思決定を表現することを目的とする高度なシミュレーションとインテリジェンスの方法が増えているため、このプロセスに利益をもたらす可能性があります。
これには、エージェントベースのモデリング、強化学習、大規模な言語モデルなどが含まれます。
これらのシミュレーションアプローチのいくつかが、市民集会と民主的な企業という2つの制度的例の助けを借りて、人工ユートピアの研究に貢献できることを明確にします。

要約(オリジナル)

Prevailing top-down systems in politics and economics struggle to keep pace with the pressing challenges of the 21st century, such as climate change, social inequality and conflict. Bottom-up democratisation and participatory approaches in politics and economics are increasingly seen as promising alternatives to confront and overcome these issues, often with utopian overtones, as proponents believe they may dramatically reshape political, social and ecological futures for the better and in contrast to contemporary authoritarian tendencies across various countries. Institutional specifics and the associated collective human behavior or culture remains little understood and debated, however. In this article, I propose a novel research agenda focusing on utopian democratisation efforts with formal and computational methods as well as with artificial intelligence – I call this agenda Artificial Utopia. Artificial Utopias provide safe testing grounds for new political ideas and economic policies in-silico with reduced risk of negative consequences as compared to testing ideas in real-world contexts. An increasing number of advanced simulation and intelligence methods, that aim at representing human cognition and collective decision-making in more realistic ways, could benefit this process. This includes agent-based modelling, reinforcement learning, large language models and more. I clarify what some of these simulation approaches can contribute to the study of Artificial Utopias with the help of two institutional examples: the citizen assembly and the democratic firm.

arxiv情報

著者 Yannick Oswald
発行日 2025-03-10 14:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.MA | Artificial Utopia: Simulation and Intelligent Agents for a Democratised Future はコメントを受け付けていません

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

要約

このテクニカルレポートでは、専門家(MOE)モデルの大規模な混合をトレーニングするという課題に取り組み、そのようなシステムで一般的なコストの非効率性とリソースの制限を克服することに焦点を当てています。
これらの問題に対処するために、2つの異なるサイズのMOE大言語モデル(LLMS)、すなわちLing-LiteとLing-Plus(中国語では「bailing」と呼ばれる、ピンインではB \ v {a} il \ ‘ingと呼ばれる)を提示します。
Ling-Liteには、27億5,000万のアクティブ化されたパラメーターを備えた168億パラメーターが含まれていますが、Ling-Plusは2,900億パラメーターを備えており、288億パラメーターを備えています。
どちらのモデルも、主要な業界のベンチマークに匹敵するパフォーマンスを示します。
このレポートは、リソースに制約のある設定におけるAI開発の効率とアクセシビリティを改善するための実用的な洞察を提供し、よりスケーラブルで持続可能なテクノロジーを促進します。
具体的には、大規模なMOEモデルのトレーニングコストを削減するために、(1)モデルアーキテクチャとトレーニングプロセスの最適化、(2)トレーニング異常処理の改良、および(3)モデル評価効率の強化のための革新的な方法を提案します。
さらに、知識グラフから生成された高品質のデータを活用して、私たちのモデルは、他のモデルと比較してツールの使用に優れた機能を示しています。
最終的に、我々の実験的調査結果は、300BのMOE LLMを低パフォーマンスデバイスで効果的にトレーニングできることを示していますが、密集したMOEモデルやMOEモデルを含む同様のスケールのモデルに匹敵するパフォーマンスを達成できます。
高性能デバイスと比較して、トレーニング前の段階でより低い仕様ハードウェアシステムを利用すると、大幅なコスト削減が示され、コンピューティングコストが約20%削減されます。
モデルはhttps://huggingface.co/inclusionaiでアクセスできます。

要約(オリジナル)

In this technical report, we tackle the challenges of training large-scale Mixture of Experts (MoE) models, focusing on overcoming cost inefficiency and resource limitations prevalent in such systems. To address these issues, we present two differently sized MoE large language models (LLMs), namely Ling-Lite and Ling-Plus (referred to as ‘Bailing’ in Chinese, spelled B\v{a}il\’ing in Pinyin). Ling-Lite contains 16.8 billion parameters with 2.75 billion activated parameters, while Ling-Plus boasts 290 billion parameters with 28.8 billion activated parameters. Both models exhibit comparable performance to leading industry benchmarks. This report offers actionable insights to improve the efficiency and accessibility of AI development in resource-constrained settings, promoting more scalable and sustainable technologies. Specifically, to reduce training costs for large-scale MoE models, we propose innovative methods for (1) optimization of model architecture and training processes, (2) refinement of training anomaly handling, and (3) enhancement of model evaluation efficiency. Additionally, leveraging high-quality data generated from knowledge graphs, our models demonstrate superior capabilities in tool use compared to other models. Ultimately, our experimental findings demonstrate that a 300B MoE LLM can be effectively trained on lower-performance devices while achieving comparable performance to models of a similar scale, including dense and MoE models. Compared to high-performance devices, utilizing a lower-specification hardware system during the pre-training phase demonstrates significant cost savings, reducing computing costs by approximately 20%. The models can be accessed at https://huggingface.co/inclusionAI.

arxiv情報

著者 Ling Team,Binwei Zeng,Chao Huang,Chao Zhang,Changxin Tian,Cong Chen,Dingnan Jin,Feng Yu,Feng Zhu,Feng Yuan,Fakang Wang,Gangshan Wang,Guangyao Zhai,Haitao Zhang,Huizhong Li,Jun Zhou,Jia Liu,Junpeng Fang,Junjie Ou,Jun Hu,Ji Luo,Ji Zhang,Jian Liu,Jian Sha,Jianxue Qian,Jiewei Wu,Junping Zhao,Jianguo Li,Jubao Feng,Jingchao Di,Junming Xu,Jinghua Yao,Kuan Xu,Kewei Du,Longfei Li,Lei Liang,Lu Yu,Li Tang,Lin Ju,Peng Xu,Qing Cui,Song Liu,Shicheng Li,Shun Song,Song Yan,Tengwei Cai,Tianyi Chen,Ting Guo,Ting Huang,Tao Feng,Tao Wu,Wei Wu,Xiaolu Zhang,Xueming Yang,Xin Zhao,Xiaobo Hu,Xin Lin,Yao Zhao,Yilong Wang,Yongzhen Guo,Yuanyuan Wang,Yue Yang,Yang Cao,Yuhao Fu,Yi Xiong,Yanzhe Li,Zhe Li,Zhiqiang Zhang,Ziqi Liu,Zhaoxin Huan,Zujie Wen,Zhenhang Sun,Zhuoxuan Du,Zhengyu He
発行日 2025-03-10 14:21:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs はコメントを受け付けていません

Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs

要約

この作業は、LLMSに基づくテキストの分類に勾配ベースのメンバーシップ推論テスト(GMINT)を適応し、研究します。
Mintは、与えられたデータが機械学習モデルのトレーニングに使用されているかどうかを判断するための一般的なアプローチであり、この作業は、自然言語処理のドメインへの応用に焦点を当てています。
Gradientベースの分析を使用して、Mintモデルは、言語モデルトレーニングフェーズ中に特定のデータサンプルが含まれているかどうかを識別し、機械学習におけるデータプライバシーに関する懸念の高まりに対処します。
この方法は、テキスト分類タスクに焦点を当てた250万を超える文を構成する7つの変圧器ベースのモデルと6つのデータセットで評価されました。
実験結果は、データサイズとモデルアーキテクチャに応じて、85%から99%のAUCスコアを達成し、ミントの堅牢性を示しています。
これらの調査結果は、機械学習モデルを監査するためのスケーラブルで信頼性の高いツールとしての潜在性を強調し、透明性を確保し、機密データの保護、AI/NLPテクノロジーの展開における倫理的コンプライアンスを促進します。

要約(オリジナル)

This work adapts and studies the gradient-based Membership Inference Test (gMINT) to the classification of text based on LLMs. MINT is a general approach intended to determine if given data was used for training machine learning models, and this work focuses on its application to the domain of Natural Language Processing. Using gradient-based analysis, the MINT model identifies whether particular data samples were included during the language model training phase, addressing growing concerns about data privacy in machine learning. The method was evaluated in seven Transformer-based models and six datasets comprising over 2.5 million sentences, focusing on text classification tasks. Experimental results demonstrate MINTs robustness, achieving AUC scores between 85% and 99%, depending on data size and model architecture. These findings highlight MINTs potential as a scalable and reliable tool for auditing machine learning models, ensuring transparency, safeguarding sensitive data, and fostering ethical compliance in the deployment of AI/NLP technologies.

arxiv情報

著者 Gonzalo Mancera,Daniel de Alcala,Julian Fierrez,Ruben Tolosana,Aythami Morales
発行日 2025-03-10 14:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs はコメントを受け付けていません

Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

要約

テキストが豊富なグラフ知識ベース(TG​​-KBS)は、テキストおよび構造的知識を提供することにより、クエリに答えるためにますます重要になっています。
ただし、現在の検索方法は、多くの場合、これらの2種類の知識を相互強化といくつかのハイブリッド方法を考慮せずに単独で取得し、隣接する集約後に完全に構​​造検索をバイパスします。
このギャップを埋めるために、構造とテキストの検索(MOR)の混合物を提案して、計画の合理化を整理するフレームワークを介してこれら2つのタイプの知識を取得します。
計画段階では、MORはクエリに答えるためのロジックを描写するテキスト計画グラフを生成します。
計画グラフに続いて、推論段階で、MORはTG-KBSから候補者を獲得するために構造的トラバーサルとテキストマッチングを織り交ぜます。
組織化段階では、MORは、構造的軌跡に基づいて候補者をさらに再生しました。
広範な実験は、異なるクエリロジック間のパフォーマンスを取得する不均一な取得や、候補者の再ランキングの構造軌跡を統合することの利点など、洞察との構造的およびテキスト検索を調和させる際のMORの優位性を示しています。
私たちのコードは、https://github.com/yoega/morで入手できます。

要約(オリジナル)

Text-rich Graph Knowledge Bases (TG-KBs) have become increasingly crucial for answering queries by providing textual and structural knowledge. However, current retrieval methods often retrieve these two types of knowledge in isolation without considering their mutual reinforcement and some hybrid methods even bypass structural retrieval entirely after neighboring aggregation. To fill in this gap, we propose a Mixture of Structural-and-Textual Retrieval (MoR) to retrieve these two types of knowledge via a Planning-Reasoning-Organizing framework. In the Planning stage, MoR generates textual planning graphs delineating the logic for answering queries. Following planning graphs, in the Reasoning stage, MoR interweaves structural traversal and textual matching to obtain candidates from TG-KBs. In the Organizing stage, MoR further reranks fetched candidates based on their structural trajectory. Extensive experiments demonstrate the superiority of MoR in harmonizing structural and textual retrieval with insights, including uneven retrieving performance across different query logics and the benefits of integrating structural trajectories for candidate reranking. Our code is available at https://github.com/Yoega/MoR.

arxiv情報

著者 Yongjia Lei,Haoyu Han,Ryan A. Rossi,Franck Dernoncourt,Nedim Lipka,Mahantesh M Halappanavar,Jiliang Tang,Yu Wang
発行日 2025-03-10 14:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases はコメントを受け付けていません

RePO: ReLU-based Preference Optimization

要約

大規模な言語モデル(LLM)を人間の好みに合わせて整理することは、実際の展開には重要ですが、RLHFなどの既存の方法は計算および安定性の課題に直面しています。
DPOは単一のハイパーパラメーター$ \ beta $を含むオフラインパラダイムを確立しますが、Simpoなどのその後の方法は、デュアルパラメーター($ \ beta $、$ \ gamma $)を介して複雑さを再導入します。
2つの進歩を介して$ \ beta $を排除する合理化されたアルゴリズムである{reluベースの優先最適化(レポ)}を提案します。
理論的には、レポはSimpoの制限ケース($ \ beta \ to \ infty $)として特徴付けられます。ここで、ロジスティック重み付けはバイナリのしきい値に崩壊し、0-1損失の凸エンベロープを形成します。
Alpacaeval 2およびArena-Hardの経験的結果は、複数のベースモデルでDPOとSIMPOを上回ることを示していることを示しています。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter $\beta$, subsequent methods like SimPO reintroduce complexity through dual parameters ($\beta$, $\gamma$). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates $\beta$ via two advances: (1) retaining SimPO’s reference-free margins but removing $\beta$ through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO’s limiting case ($\beta \to \infty$), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

arxiv情報

著者 Junkang Wu,Kexin Huang,Xue Wang,Jinyang Gao,Bolin Ding,Jiancan Wu,Xiangnan He,Xiang Wang
発行日 2025-03-10 15:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | RePO: ReLU-based Preference Optimization はコメントを受け付けていません