Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

要約

医療の大規模な言語モデルをローカル言語に適応させると、医療サービスへのアクセスに対する障壁を減らすことができますが、データ不足は依然として重要な課題です。
これに対処するために、最初に高品質の医療データセットと実施分析を構築して、その品質を確保します。
多言語LLMの一般化能力を活用して、よりリソースに制約のある言語に効率的にスケーリングするために、専門家(MOE)のモジュール性を使用して多言語の観点からLLMの内部情報フローを調査します。
技術的には、言語固有の専門家と横断的ルーティングを採用する新しいMOEルーティング方法を提案します。
回路理論に触発されたルーティング分析により、最終情報フローメカニズムにおけるスプレッドアウトが明らかになりました。以前の層は、言語間情報の流れを濃縮しますが、後のレイヤーは言語固有の発散を示します。
この洞察は、密集した他のレイヤーでのみまばらなルーティングを適用し、密集した他の層を維持しながら、ポストモーのアーキテクチャの開発に直接つながりました。
実験結果は、このアプローチが解釈可能性を維持しながら、多言語モデルの他の言語への一般化を強化することを示しています。
最後に、モデルを50の言語に効率的にスケーリングするために、言語家族の専門家の概念を紹介します。言語的事前に基づいて、パラメーターを追加せずに言語の数をスケーリングできます。

要約(オリジナル)

Adapting medical Large Language Models to local languages can reduce barriers to accessing healthcare services, but data scarcity remains a significant challenge, particularly for low-resource languages. To address this, we first construct a high-quality medical dataset and conduct analysis to ensure its quality. In order to leverage the generalization capability of multilingual LLMs to efficiently scale to more resource-constrained languages, we explore the internal information flow of LLMs from a multilingual perspective using Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE routing method that employs language-specific experts and cross-lingual routing. Inspired by circuit theory, our routing analysis revealed a Spread Out in the End information flow mechanism: while earlier layers concentrate cross-lingual information flow, the later layers exhibit language-specific divergence. This insight directly led to the development of the Post-MoE architecture, which applies sparse routing only in the later layers while maintaining dense others. Experimental results demonstrate that this approach enhances the generalization of multilingual models to other languages while preserving interpretability. Finally, to efficiently scale the model to 50 languages, we introduce the concept of language family experts, drawing on linguistic priors, which enables scaling the number of languages without adding additional parameters.

arxiv情報

著者 Guorui Zheng,Xidong Wang,Juhao Liang,Nuo Chen,Yuping Zheng,Benyou Wang
発行日 2025-02-10 18:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts はコメントを受け付けていません

Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs

要約

訓練されたトランスモデルに数十万の入力トークンを使用して、推論を実行する需要が高まっています。
この極端なスケールでの推論には、重要な計算リソースが必要であり、商品(つまり、データセンタースケールではない)ハードウェアで長いコンテキストで変圧器を適用することを妨げます。
長いコンテキストで自己関節ベースのトランス語モデルを実行することに関連する推論時間コストに対処し、広く利用可能なハードウェアでの採用を可能にするために、で最も関連性の高いトークンのみに参加することにより、フォワードパスのコストを削減する調整可能なメカニズムを提案します。
Top-K選択メカニズムを使用したすべての世代ステップ。
約16GBのGPU RAMを使用して、最大1Mトークンまでコンテキストウィンドウで推論を実行することにより、私たちの方法で得られる効率の向上を紹介します。
私たちの実験は、モデルがキーと値の数の減少によって引き起こされるスパース性を処理できることを明らかにしています。
入力トークンの2%未満に注意することにより、一般的な長いコンテキストベンチマーク(LM-Eval、Alpacaeval、およびRuler)でモデルパフォーマンスの95%以上を達成します。

要約(オリジナル)

There is growing demand for performing inference with hundreds of thousands of input tokens on trained transformer models. Inference at this extreme scale demands significant computational resources, hindering the application of transformers at long contexts on commodity (i.e not data center scale) hardware. To address the inference time costs associated with running self-attention based transformer language models on long contexts and enable their adoption on widely available hardware, we propose a tunable mechanism that reduces the cost of the forward pass by attending to only the most relevant tokens at every generation step using a top-k selection mechanism. We showcase the efficiency gains afforded by our method by performing inference on context windows up to 1M tokens using approximately 16GB of GPU RAM. Our experiments reveal that models are capable of handling the sparsity induced by the reduced number of keys and values. By attending to less than 2% of input tokens, we achieve over 95% of model performance on common long context benchmarks (LM-Eval, AlpacaEval, and RULER).

arxiv情報

著者 Ryan Synk,Monte Hoover,John Kirchenbauer,Neel Jain,Alex Stein,Manli Shu,Josue Melendez Sanchez,Ramani Duraiswami,Tom Goldstein
発行日 2025-02-10 18:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs はコメントを受け付けていません

ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates

要約

スケーリングの思考テンプレートを介して階層的なLLM推論が推論検索スペースを効果的に最適化し、Openai O1-PreviewやDeepSeek V3などの強力なLLMの数学的推論機能を上回ることができることを示します。
ReasonFlux-32Bモデルは8 GPUのみでトレーニングし、3つの革新を導入します。(i)類似または関連する推論問題に一般化できる約500の高レベルの思考テンプレートを含む構造化された一般的な思考テンプレートライブラリ。
(ii)長いコットの代わりに一連の思考テンプレートで階層補強学習を実行し、ベースLLMを最適化して、複雑な問題を徐々に処理するための最適なテンプレート軌道を計画します。
(iii)推論時に適応的にスケーリングされる思考テンプレートによって階層的なLLM推論を可能にする新しい推論スケーリングシステム。
シーケンシャル思考テンプレートを含むテンプレートの軌跡を使用すると、ReasonFlux-32bは数学の推論能力を最先端のレベルに大幅に進めます。
特に、数学ベンチマークでは、91.2%の精度を達成し、O1-Previewを6.7%上回ります。
USA Math Olympiad(AIME)ベンチマークでは、ReasonFlux-32Bは問題の平均56.7%を解決し、O1-PreviewとDeepSeek-V3をそれぞれ27%と45%上回ります。
コード:https://github.com/gen-verse/reasonflux

要約(オリジナル)

We present that hierarchical LLM reasoning via scaling thought templates can effectively optimize the reasoning search space and outperform the mathematical reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3. We train our ReasonFlux-32B model with only 8 GPUs and introduces three innovations: (i) a structured and generic thought template library, containing around 500 high-level thought templates capable of generalizing to similar or relevant reasoning problems; (ii) performing hierarchical reinforcement learning on a sequence of thought templates instead of long CoTs, optimizing a base LLM to plan out an optimal template trajectory for gradually handling complex problems; (iii) a brand new inference scaling system that enables hierarchical LLM reasoning by adaptively scaling thought templates at inference time. With a template trajectory containing sequential thought templates, our ReasonFlux-32B significantly advances math reasoning capabilities to state-of-the-art levels. Notably, on the MATH benchmark, it achieves an accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad (AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems, surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code: https://github.com/Gen-Verse/ReasonFlux

arxiv情報

著者 Ling Yang,Zhaochen Yu,Bin Cui,Mengdi Wang
発行日 2025-02-10 18:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates はコメントを受け付けていません

Ensemble of Large Language Models for Curated Labeling and Rating of Free-text Data

要約

フリーテキストの応答は、一般的に心理学的研究で収集され、定量的対策がキャプチャしない可能性のある豊富な定性的洞察を提供します。
複数の訓練された人間のコーダーによるフリーテキストデータに対する研究関心のキュレーションのトピックにラベルを付けているのは、通常、労働集約的で時間がかかります。
大規模な言語モデル(LLM)は言語処理に優れていますが、外部使用に明示的な同意なしに、閉鎖ソースLLMに依存するLLM支援ラベリング技術をフリーテキストデータに直接適用することはできません。
この研究では、プライバシー制約の下でフリーテキストデータの所定のトピックのラベル付けを強化するために、ローカルに展開可能なLLMを組み立てるフレームワークを提案します。
複数の人間の評価者による注釈に類似したこのフレームワークは、多様なオープンソースLLMの不均一性を活用しています。
アンサンブルアプローチは、トピックの説明とLLMSの推論の間の埋め込み距離を利用する関連性のスコアリング方法論に導かれた、LLM全体の合意と意見の不一致のバランスを求めています。
摂食障害関連フォーラムからの公開されたRedditデータと、摂食障害患者からのフリーテキスト応答の両方を使用して、人間の注釈によって補完されたアンサンブルアプローチを評価しました。
(1)同じサイズのLLM間でのラベル付けの性能に不均一性があり、いくつかは低感度であるが高精度を示し、他の人は高感度であるが低い精度を示します。
(2)個々のLLMと比較して、LLMSのアンサンブルは、人間の注釈の予測において最高の精度と最適な精度感度のトレードオフを達成しました。
(3)LLMの関連スコアは、二分法ラベルよりも大きな一致を示し、関連性のスコアリング方法がLLMSのラベルの不均一性を効果的に軽減することを示しています。

要約(オリジナル)

Free-text responses are commonly collected in psychological studies, providing rich qualitative insights that quantitative measures may not capture. Labeling curated topics of research interest in free-text data by multiple trained human coders is typically labor-intensive and time-consuming. Though large language models (LLMs) excel in language processing, LLM-assisted labeling techniques relying on closed-source LLMs cannot be directly applied to free-text data, without explicit consent for external use. In this study, we propose a framework of assembling locally-deployable LLMs to enhance the labeling of predetermined topics in free-text data under privacy constraints. Analogous to annotation by multiple human raters, this framework leverages the heterogeneity of diverse open-source LLMs. The ensemble approach seeks a balance between the agreement and disagreement across LLMs, guided by a relevancy scoring methodology that utilizes embedding distances between topic descriptions and LLMs’ reasoning. We evaluated the ensemble approach using both publicly accessible Reddit data from eating disorder related forums, and free-text responses from eating disorder patients, both complemented by human annotations. We found that: (1) there is heterogeneity in the performance of labeling among same-sized LLMs, with some showing low sensitivity but high precision, while others exhibit high sensitivity but low precision. (2) Compared to individual LLMs, the ensemble of LLMs achieved the highest accuracy and optimal precision-sensitivity trade-off in predicting human annotations. (3) The relevancy scores across LLMs showed greater agreement than dichotomous labels, indicating that the relevancy scoring method effectively mitigates the heterogeneity in LLMs’ labeling.

arxiv情報

著者 Jiaxing Qiu,Dongliang Guo,Natalie Papini,Noelle Peace,Cheri A. Levinson,Teague R. Henry
発行日 2025-02-10 18:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Ensemble of Large Language Models for Curated Labeling and Rating of Free-text Data はコメントを受け付けていません

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

要約

推論能力、特に複雑な数学の問題を解決する能力は、一般的な知能の重要な要素です。
OpenAIのOシリーズモデルなど、独自の企業による最近の進歩は、推論のタスクについて顕著な進歩を遂げています。
ただし、完全な技術的詳細は不明瞭なままであり、確かに採用されると考えられている技術は、強化学習(RL)と長い思考の連鎖のみです。
このペーパーでは、オレアルと呼ばれる新しいRLフレームワークを提案して、\ textbf {o} utcome \ textbf {re} w \ textbf {a} rdベースの補強\ textbf {l}稼ぐ\ textBf {re}
バイナリ結果の報酬のみが簡単にアクセスできる理由を推論するタスク。
Best-of-N(bon)サンプリングからの正の軌跡をクローニングする動作が、バイナリフィードバック環境でKL規則化された最適ポリシーを学習するのに十分であることを理論的に証明します。
この定式化はさらに、ネガティブサンプルの報酬を再形成して、正と負のサンプル間の勾配の一貫性を確保する必要があることを意味します。
RLのまばらな報酬によってもたらされる長年の困難を軽減するために、それは推論のための長い思考のチェーンの部分的な正確さによってさらに悪化することさえ、さらに学習のための推論軌跡の重要なトークンをサンプリングするためにトークンレベルの報酬モデルを適用します

Orealを使用すると、7Bモデルは、Math-500からRLで94.0パス@1の精度を取得でき、32Bモデルと同等です。
Oreal-32Bは、Math-500で95.0パス@1の精度で蒸留によって訓練された以前の32Bモデルも上回ります。
また、私たちの調査は、RLの初期ポリシーモデルとトレーニングクエリの重要性を示しています。
コード、モデル、およびデータは、将来の研究に利益をもたらすためにリリースされます\ footnote {https://github.com/internlm/oreal}。

要約(オリジナル)

Reasoning abilities, especially those for solving complex math problems, are crucial components of general intelligence. Recent advances by proprietary companies, such as o-series models of OpenAI, have made remarkable progress on reasoning tasks. However, the complete technical details remain unrevealed, and the techniques that are believed certainly to be adopted are only reinforcement learning (RL) and the long chain of thoughts. This paper proposes a new RL framework, termed OREAL, to pursue the performance limit that can be achieved through \textbf{O}utcome \textbf{RE}w\textbf{A}rd-based reinforcement \textbf{L}earning for mathematical reasoning tasks, where only binary outcome rewards are easily accessible. We theoretically prove that behavior cloning on positive trajectories from best-of-N (BoN) sampling is sufficient to learn the KL-regularized optimal policy in binary feedback environments. This formulation further implies that the rewards of negative samples should be reshaped to ensure the gradient consistency between positive and negative samples. To alleviate the long-existing difficulties brought by sparse rewards in RL, which are even exacerbated by the partial correctness of the long chain of thought for reasoning tasks, we further apply a token-level reward model to sample important tokens in reasoning trajectories for learning. With OREAL, for the first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL, being on par with 32B models. OREAL-32B also surpasses previous 32B models trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our investigation also indicates the importance of initial policy models and training queries for RL. Code, models, and data will be released to benefit future research\footnote{https://github.com/InternLM/OREAL}.

arxiv情報

著者 Chengqi Lyu,Songyang Gao,Yuzhe Gu,Wenwei Zhang,Jianfei Gao,Kuikun Liu,Ziyi Wang,Shuaibin Li,Qian Zhao,Haian Huang,Weihan Cao,Jiangning Liu,Hongwei Liu,Junnan Liu,Songyang Zhang,Dahua Lin,Kai Chen
発行日 2025-02-10 18:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning はコメントを受け付けていません

Amortized In-Context Bayesian Posterior Estimation

要約

ベイジアン推論は、事前の信念を組み込み、仮説の空間に確率尺度を割り当てる自然な方法を提供します。
現在のソリューションは、マルコフチェーンモンテカルロ(MCMC)サンプリングや変分推論(VI)などの反復ルーチンに依存しています。
条件推定を通じて、償却はそのような困難を緩和するための実行可能な戦略であり、シミュレーションベースの推論、神経プロセス、および事前に訓練されたモデルを使用したコンテキスト内のメソッドの指針となっています。
この作業では、さまざまな最適化目標と建築的選択のレンズから、償却されたコンテキスト内のベイジアン後部推定方法の徹底的な比較分析を実施します。
このような方法は、変圧器などのシーケンスモデルにコンテキストとして渡された一連のデータ例を条件付けすることにより、後部パラメーター推論を実行するために償却推定器を訓練します。
言語モデルとは対照的に、真の後方はコンテキストの例の順序に不変であるため、順列不変アーキテクチャを活用します。
私たちの経験的研究には、分散除外タスクへの一般化、想定されている基礎モデルが誤って指定されている場合、シミュレートされた問題から実際の問題への転送が含まれます。
その後、特に変圧器アーキテクチャと正規化フローと組み合わせた場合、予測問題に対する逆KL推定器の優位性を強調します。

要約(オリジナル)

Bayesian inference provides a natural way of incorporating prior beliefs and assigning a probability measure to the space of hypotheses. Current solutions rely on iterative routines like Markov Chain Monte Carlo (MCMC) sampling and Variational Inference (VI), which need to be re-run whenever new observations are available. Amortization, through conditional estimation, is a viable strategy to alleviate such difficulties and has been the guiding principle behind simulation-based inference, neural processes and in-context methods using pre-trained models. In this work, we conduct a thorough comparative analysis of amortized in-context Bayesian posterior estimation methods from the lens of different optimization objectives and architectural choices. Such methods train an amortized estimator to perform posterior parameter inference by conditioning on a set of data examples passed as context to a sequence model such as a transformer. In contrast to language models, we leverage permutation invariant architectures as the true posterior is invariant to the ordering of context examples. Our empirical study includes generalization to out-of-distribution tasks, cases where the assumed underlying model is misspecified, and transfer from simulated to real problems. Subsequently, it highlights the superiority of the reverse KL estimator for predictive problems, especially when combined with the transformer architecture and normalizing flows.

arxiv情報

著者 Sarthak Mittal,Niels Leif Bracher,Guillaume Lajoie,Priyank Jaini,Marcus Brubaker
発行日 2025-02-10 16:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Amortized In-Context Bayesian Posterior Estimation はコメントを受け付けていません

Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework

要約

マルチエージェントシステムは一般に、特殊な自律エージェント間でタスクを配布しますが、多くの場合、パフォーマンスの低いエージェントをリアルタイムで交換または再配置するメカニズムがありません。
メジャーリーグ野球のフリーエージェンシーモデルに触発されたThe Rehnection Learning Free Agent(RLFA)アルゴリズムは、永続的な低パフォーマンスを示すエージェントを検出および除去する報酬ベースのメカニズムを導入し、より有能なメカニズムを挿入します。
各エージェントは内部的に混合物(Experts(MOE)アプローチを使用し、ゲーティング機能のガイダンスの下で、入ってくるタスクを専門のサブモデルに委任します。
主なユースケースは詐欺検出です。ここでは、RLFAが検出精度がプリセットしきい値を下回るエージェントを速やかに交換します。
新しいエージェントが試用モードでテストされ、優れた性能を発揮すると、アンダーパフォーマーを完全に交換します。
この動的で自由機関のサイクルは、持続的な精度、新たな脅威への迅速な適応、および進行中の運用の最小限の混乱を保証します。
エージェントの名簿を継続的にリフレッシュすることにより、このシステムは、マルチエージェント生成AI環境での継続的な改善とより回復力のあるコラボレーションを促進します。

要約(オリジナル)

Multi-agent systems commonly distribute tasks among specialized, autonomous agents, yet they often lack mechanisms to replace or reassign underperforming agents in real time. Inspired by the free-agency model of Major League Baseball, the Reinforcement Learning Free Agent (RLFA) algorithm introduces a reward-based mechanism to detect and remove agents exhibiting persistent underperformance and seamlessly insert more capable ones. Each agent internally uses a mixture-of-experts (MoE) approach, delegating incoming tasks to specialized sub-models under the guidance of a gating function. A primary use case is fraud detection, where RLFA promptly swaps out an agent whose detection accuracy dips below a preset threshold. A new agent is tested in a probationary mode, and upon demonstrating superior performance, fully replaces the underperformer. This dynamic, free-agency cycle ensures sustained accuracy, quicker adaptation to emerging threats, and minimal disruption to ongoing operations. By continually refreshing its roster of agents, the system fosters ongoing improvements and more resilient collaboration in multi-agent Generative AI environments.

arxiv情報

著者 Jung-Hua Liu
発行日 2025-02-10 16:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework はコメントを受け付けていません

Identifying perturbation targets through causal differential networks

要約

Identifying variables responsible for changes to a biological system enables applications in drug target discovery and cell engineering.
観察と介入のデータセットのペアを考えると、目標は、介入のターゲットである観測された変数のサブセットを分離することです。
因果発見アルゴリズムを直接適用することは困難です。データには、介入ごとに数十のサンプルを持つ何千もの変数が含まれている場合があり、生物学的システムは古典的な因果関係の仮定を順守しません。
We propose a causality-inspired approach to address this practical setting.
First, we infer noisy causal graphs from the observational and interventional data.
次に、これらのグラフ間の違いを、追加の統計的特徴とともに、介入した変数のセットにマッピングすることを学びます。
両方のモジュールは、生物学的介入の性質を反映するシミュレートされた実際のデータについて、監視されたフレームワークで共同で訓練されています。
このアプローチは、7つのシングルセルトランスクリプトームデータセットの摂動モデリングのベースラインを一貫して上回ります。
また、さまざまな合成データにわたってソフトおよびハード介入ターゲットを予測するための現在の因果発見方法に関する大幅な改善を示しています。

要約(オリジナル)

Identifying variables responsible for changes to a biological system enables applications in drug target discovery and cell engineering. Given a pair of observational and interventional datasets, the goal is to isolate the subset of observed variables that were the targets of the intervention. Directly applying causal discovery algorithms is challenging: the data may contain thousands of variables with as few as tens of samples per intervention, and biological systems do not adhere to classical causality assumptions. We propose a causality-inspired approach to address this practical setting. First, we infer noisy causal graphs from the observational and interventional data. Then, we learn to map the differences between these graphs, along with additional statistical features, to sets of variables that were intervened upon. Both modules are jointly trained in a supervised framework, on simulated and real data that reflect the nature of biological interventions. This approach consistently outperforms baselines for perturbation modeling on seven single-cell transcriptomics datasets. We also demonstrate significant improvements over current causal discovery methods for predicting soft and hard intervention targets across a variety of synthetic data.

arxiv情報

著者 Menghua Wu,Umesh Padia,Sean H. Murphy,Regina Barzilay,Tommi Jaakkola
発行日 2025-02-10 16:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | Identifying perturbation targets through causal differential networks はコメントを受け付けていません

Combining Large Language Models with Static Analyzers for Code Review Generation

要約

コードレビューは、ソフトウェア開発における重要であるが、しばしば複雑で、主観的で時間のかかるアクティビティです。
過去数十年にわたって、このプロセスを自動化するために多大な努力が払われてきました。
初期のアプローチは、コードの問題を検出するためにルールベースのメカニズムを適用する知識ベースのシステム(KBS)に焦点を当てており、正確なフィードバックを提供しますが、複雑でコンテキスト依存のケースに苦しんでいます。
より最近の作業は、コードレビューのために事前に訓練された言語モデルの微調整にシフトし、より広範な問題のカバレッジを可能にしますが、多くの場合、正確な犠牲を払っています。
この論文では、KBSと学習ベースのシステム(LBS)の強度を組み合わせて、高品質で包括的なコードレビューを生成するハイブリッドアプローチを提案します。
私たちの方法は、言語モデルパイプラインの3つの異なる段階で知識を統合します:データ準備中(データの増強トレーニング、DAT)、推論(検索能力生成、RAG)、および推論後(出力の素朴な連結、NCO)。
実世界のデータセットで微調整されたスタンドアロンKBSとLBSに対する組み合わせ戦略を経験的に評価します。
私たちの結果は、これらのハイブリッド戦略がレビューコメントの関連性、完全性、および全体的な品質を高め、ルールベースのツールとディープラーニングモデルの間のギャップを効果的に埋めることを示しています。

要約(オリジナル)

Code review is a crucial but often complex, subjective, and time-consuming activity in software development. Over the past decades, significant efforts have been made to automate this process. Early approaches focused on knowledge-based systems (KBS) that apply rule-based mechanisms to detect code issues, providing precise feedback but struggling with complex, context-dependent cases. More recent work has shifted toward fine-tuning pre-trained language models for code review, enabling broader issue coverage but often at the expense of precision. In this paper, we propose a hybrid approach that combines the strengths of KBS and learning-based systems (LBS) to generate high-quality, comprehensive code reviews. Our method integrates knowledge at three distinct stages of the language model pipeline: during data preparation (Data-Augmented Training, DAT), at inference (Retrieval-Augmented Generation, RAG), and after inference (Naive Concatenation of Outputs, NCO). We empirically evaluate our combination strategies against standalone KBS and LBS fine-tuned on a real-world dataset. Our results show that these hybrid strategies enhance the relevance, completeness, and overall quality of review comments, effectively bridging the gap between rule-based tools and deep learning models.

arxiv情報

著者 Imen Jaoua,Oussama Ben Sghaier,Houari Sahraoui
発行日 2025-02-10 16:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Combining Large Language Models with Static Analyzers for Code Review Generation はコメントを受け付けていません

Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language

要約

生物学的研究のためのAIの最近の進歩は、分子データを自然言語と統合して創薬を加速することに焦点を当てています。
ただし、高品質の注釈が不足すると、この分野の進行が制限されます。
このペーパーでは、既存のデータセットを拡張してAIトレーニングを改善するために大規模な言語モデルを活用する言語ベースの自動注釈増強フレームワークであるLa $^3 $を紹介します。
拡張されたデータセットであるLachebi-20を作成することにより、La $^3 $の有効性を実証します。ここでは、確立されたデータセットから分子の注釈を体系的に書き換えます。
これらの書き直された注釈は、より多様な文構造と語彙を提供しながら、必須の分子情報を保持します。
Lachebi-20を使用して、ベンチマークアーキテクチャに基づいてLamolt5をト​​レーニングして、分子表現と拡張注釈の間のマッピングを学習します。
テキストベースの * de novo *分子の生成と分子キャプションに関する実験結果は、Lamolt5が最先端のモデルよりも優れていることを示しています。
特に、LA $^3 $を組み込むと、ベンチマークアーキテクチャよりも最大301%の改善が行われます。
さらに、 *画像 *、 *テキスト *、および *グラフ *タスクのLA $^3 $注目のアプリケーションの有効性を検証し、その汎用性と有用性を確認します。

要約(オリジナル)

Recent advancements in AI for biological research focus on integrating molecular data with natural language to accelerate drug discovery. However, the scarcity of high-quality annotations limits progress in this area. This paper introduces LA$^3$, a Language-based Automatic Annotation Augmentation framework that leverages large language models to augment existing datasets, thereby improving AI training. We demonstrate the effectiveness of LA$^3$ by creating an enhanced dataset, LaChEBI-20, where we systematically rewrite the annotations of molecules from an established dataset. These rewritten annotations preserve essential molecular information while providing more varied sentence structures and vocabulary. Using LaChEBI-20, we train LaMolT5 based on a benchmark architecture to learn the mapping between molecular representations and augmented annotations. Experimental results on text-based *de novo* molecule generation and molecule captioning demonstrate that LaMolT5 outperforms state-of-the-art models. Notably, incorporating LA$^3$ leads to improvements of up to 301% over the benchmark architecture. Furthermore, we validate the effectiveness of LA$^3$ notable applications in *image*, *text* and *graph* tasks, affirming its versatility and utility.

arxiv情報

著者 Zhiqiang Zhong,Simon Sataa-Yu Larsen,Haoyu Guo,Tao Tang,Kuangyu Zhou,Davide Mottin
発行日 2025-02-10 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language はコメントを受け付けていません