SparQLe: Speech Queries to Text Translation Through LLMs

要約

大規模な言語モデル(LLMS)の影響力が高まっているため、音声表現を統合して、よりシームレスなマルチモーダル処理と音声理解を可能にすることに関心が高まっています。
この研究では、スピーチツーテキスト翻訳のための自己監視された音声表現と命令チューニングLLMSを組み合わせた新しいアプローチを紹介します。
提案されたアプローチは、モダリティアダプターを活用して、英語の音声データを使用して抽出された音声機能と命令チューニングLLMと整列します。
我々の実験は、この方法が入力音声の意味的な内容を効果的に保持し、自己教師の音声モデルと命令チューニングLLMとの間の効果的な橋渡しとして機能し、さまざまな音声理解アプリケーションに有望なアプローチを提供することを示しています。

要約(オリジナル)

With the growing influence of Large Language Models (LLMs), there is increasing interest in integrating speech representations with them to enable more seamless multi-modal processing and speech understanding. This study introduces a novel approach that combines self-supervised speech representations with instruction-tuned LLMs for speech-to-text translation. The proposed approach leverages a modality adapter to align extracted speech features with instruction-tuned LLMs using English speech data. Our experiments demonstrate that this method effectively preserves the semantic content of the input speech and serves as an effective bridge between self-supervised speech models and instruction-tuned LLMs, offering a promising approach for various speech understanding applications.

arxiv情報

著者 Amirbek Djanibekov,Hanan Aldarmaki
発行日 2025-05-30 17:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SparQLe: Speech Queries to Text Translation Through LLMs はコメントを受け付けていません

Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs

要約

大規模な言語モデル(LLMS)は広範な医学的知識を示しますが、幻覚と不正確な引用を受けやすく、臨床採用と規制のコンプライアンスに課題をもたらします。
検索拡張生成などの現在の方法は、ソースドキュメントの回答を接地することにより、これらの問題に部分的に対処しますが、幻覚と低い事実レベルの説明可能性は持続します。
この作業では、医療用の長い形式の質問応答で使用されるLLMの信頼性と説明可能性を高めるために設計された新しい原子ファクトチェックフレームワークを紹介します。
この方法は、LLM生成された応答を原子ファクトと呼ばれる個別の検証可能な単位に分解します。それぞれは、医療ガイドラインの権威ある知識ベースに対して独立して検証されています。
このアプローチにより、ターゲットを絞ったエラーの補正と、情報源への直接追跡により、医療Q&Aの事実上の正確性と説明可能性が向上します。
医療専門家によるマルチリーダー評価を使用した広範な評価と自動化されたオープンQ&Aベンチマークは、実際には正確さと説明可能性における大幅な改善を示しました。
私たちのフレームワークは、全体的な回答の改善と50%の幻覚検出率を達成しました。
データベースから最も関連性の高いチャンクに各原子の事実を追跡する機能は、現在の医療AIアプリケーションの大きなギャップに対処する、生成された応答の詳細で透明な説明を提供します。
この研究は、LLMのより信頼できる信頼性の高い臨床応用に向けた重要なステップを表し、臨床応用の重要な前提条件に対処し、AIアシストヘルスケアに対するより大きな自信を促進します。

要約(オリジナル)

Large language models (LLMs) exhibit extensive medical knowledge but are prone to hallucinations and inaccurate citations, which pose a challenge to their clinical adoption and regulatory compliance. Current methods, such as Retrieval Augmented Generation, partially address these issues by grounding answers in source documents, but hallucinations and low fact-level explainability persist. In this work, we introduce a novel atomic fact-checking framework designed to enhance the reliability and explainability of LLMs used in medical long-form question answering. This method decomposes LLM-generated responses into discrete, verifiable units called atomic facts, each of which is independently verified against an authoritative knowledge base of medical guidelines. This approach enables targeted correction of errors and direct tracing to source literature, thereby improving the factual accuracy and explainability of medical Q&A. Extensive evaluation using multi-reader assessments by medical experts and an automated open Q&A benchmark demonstrated significant improvements in factual accuracy and explainability. Our framework achieved up to a 40% overall answer improvement and a 50% hallucination detection rate. The ability to trace each atomic fact back to the most relevant chunks from the database provides a granular, transparent explanation of the generated responses, addressing a major gap in current medical AI applications. This work represents a crucial step towards more trustworthy and reliable clinical applications of LLMs, addressing key prerequisites for clinical application and fostering greater confidence in AI-assisted healthcare.

arxiv情報

著者 Juraj Vladika,Annika Domres,Mai Nguyen,Rebecca Moser,Jana Nano,Felix Busch,Lisa C. Adams,Keno K. Bressem,Denise Bernhardt,Stephanie E. Combs,Kai J. Borm,Florian Matthes,Jan C. Peeken
発行日 2025-05-30 17:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs はコメントを受け付けていません

NdLinear: Don’t Flatten! Building Superior Neural Architectures by Preserving N-D Structure

要約

多くの衝撃的な機械学習タスクには、画像、体積医療スキャン、多変量の時系列などの多次元データが含まれます。
しかし、ほとんどのニューラルアーキテクチャはこれらの入力を平らにし、重要な相互次元情報を破棄します。
$ \ textbf {ndlinear} $を導入します。これは、テンソルで直接動作することにより、この破壊的な平坦化を回避する新しい線形変換です。
Ndlinearは、各データディメンションに沿って変換を個別に適用し、それによりネイティブデータ構造を保存します。
広範な実験は、表現力を大幅に向上させ、劇的なパラメーターの削減(多くの場合数桁)を達成し、好ましい計算プロファイルを維持するndlinearの能力を示しています。
たとえば、大規模な言語モデルのFinetuningに適用すると、$ \ textBf {ndlinear-Lora} $は、標準のロラよりも最大$ 9 \ times $ $のトレーニング可能なパラメーターを使用して、推論タスクの同等の精度または改善された精度を実現します。
Ndlinearのこれらの幅広い利点は、多様な神経アーキテクチャ(CNNS、RNNS、トランス、MLP)と、ビジョン、言語、時系列、表形式のタスクを含むデータドメイン全体で一貫して検証されています。
標準線形層の多用途のドロップイン置換として、NdLinearは元のN次元形式でデータを処理し、より効率的で強力な次世代神経アーキテクチャを開発するための基礎コンポーネントを提供します。

要約(オリジナル)

Many high-impact machine learning tasks involve multi-dimensional data such as images, volumetric medical scans, and multivariate time-series. Yet, most neural architectures flatten these inputs, discarding critical cross-dimension information. We introduce $\textbf{NdLinear}$, a novel linear transformation that circumvents this destructive flattening by operating directly on tensors. NdLinear applies transformations separately along each data dimension, thereby preserving the native data structure. Extensive experiments demonstrate NdLinear’s capacity to significantly enhance representational power, achieve dramatic parameter reductions (often by orders of magnitude), and maintain a favorable computational profile. For instance, when applied to Large Language Model finetuning, our $\textbf{NdLinear-LoRA}$ delivers comparable or improved accuracy on reasoning tasks using up to $9\times$ fewer trainable parameters than standard LoRA. These broad advantages of NdLinear are consistently validated across diverse neural architectures (CNNs, RNNs, Transformers, MLPs) and data domains, including vision, language, time-series, and tabular tasks. As a versatile, drop-in replacement for standard linear layers, NdLinear processes data in its original N-dimensional form, offering a foundational component for developing more efficient and powerful next-generation neural architectures.

arxiv情報

著者 Alex Reneau,Jerry Yao-Chieh Hu,Zhongfang Zhuang,Ting-Chun Liu,Xiang He,Judah Goldfeder,Nadav Timor,Allen G Roush,Ravid Shwartz-Ziv
発行日 2025-05-30 17:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | NdLinear: Don’t Flatten! Building Superior Neural Architectures by Preserving N-D Structure はコメントを受け付けていません

‘Give Me BF16 or Give Me Death’? Accuracy-Performance Trade-Offs in LLM Quantization

要約

量子化は、大規模な言語モデル(LLM)の推論を加速するための強力なツールですが、異なる形式にわたる精度とパフォーマンスのトレードオフは不明のままです。
この論文では、これまでで最も包括的な経験的研究を実施し、Llama-3.1モデルファミリー全体でアカデミックベンチマークと現実世界のタスク全体でFP8、INT8、およびINT4の量子化を評価します。
500,000を超える評価を通じて、私たちの調査により、いくつかの重要な調査結果が得られます。(1)FP8(W8A8-FP)はすべてのモデルスケールにわたって事実上ロスレスであり、(2)十分に調整されたINT8(W8A8-INT)は、驚くほど低い(1-3 \%)精度の劣化を達成し、(3)INT4重量(W4A16-INT)が競合します。
さらに、人気のあるVLLMフレームワークを通じて推論パフォーマンスを分析することにより、さまざまな展開の最適な量子化形式を調査します。
分析は明確な展開の推奨事項を提供します:W4A16は同期セットアップに最も費用対効果が高いのに対し、W8A8は非同期連続バッチングで支配的です。
混合ワークロードの場合、最適な選択は特定のユースケースに依存します。
私たちの調査結果は、量子化されたLLMを大規模に展開するための実用的なデータ駆動型ガイドラインを提供します。これは、速度、効率、精度の最良のバランスを確保します。

要約(オリジナル)

Quantization is a powerful tool for accelerating large language model (LLM) inference, but the accuracy-performance trade-offs across different formats remain unclear. In this paper, we conduct the most comprehensive empirical study to date, evaluating FP8, INT8, and INT4 quantization across academic benchmarks and real-world tasks on the entire Llama-3.1 model family. Through over 500,000 evaluations, our investigation yields several key findings: (1) FP8 (W8A8-FP) is effectively lossless across all model scales, (2) well-tuned INT8 (W8A8-INT) achieves surprisingly low (1-3\%) accuracy degradation, and (3) INT4 weight-only (W4A16-INT) is more competitive than expected, rivaling 8-bit quantization. Further, we investigate the optimal quantization format for different deployments by analyzing inference performance through the popular vLLM framework. Our analysis provides clear deployment recommendations: W4A16 is the most cost-efficient for synchronous setups, while W8A8 dominates in asynchronous continuous batching. For mixed workloads, the optimal choice depends on the specific use case. Our findings offer practical, data-driven guidelines for deploying quantized LLMs at scale — ensuring the best balance between speed, efficiency, and accuracy.

arxiv情報

著者 Eldar Kurtic,Alexandre Marques,Shubhra Pandit,Mark Kurtz,Dan Alistarh
発行日 2025-05-30 17:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | ‘Give Me BF16 or Give Me Death’? Accuracy-Performance Trade-Offs in LLM Quantization はコメントを受け付けていません

RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

要約

このペーパーでは、Rulearenaを紹介します。これは、推論において複雑で実世界のルールに従う大規模な言語モデル(LLM)の能力を評価するために設計された斬新で挑戦的なベンチマークです。
航空会社の手荷物料金、NBA取引、税制規制の3つの実用的なドメインをカバーしているRuleAnaは、長いコンテキストの理解、論理的推論、正確な数学的計算を要求する複雑な自然言語の指示を処理するLLMSの習熟度を評価します。
2つの重要な属性は、RuleAnaを従来のルールベースの推論ベンチマークと区別します。(1)標準の1次ロジック表現を超えて拡張し、(2)本物の実用的なシナリオに基づいており、実際のアプリケーションのLLMの適合性と信頼性に関する洞察を提供します。
私たちの調査結果は、LLMSのいくつかの顕著な制限を明らかにしています。(1)適切な規則を特定して適用するのに苦労し、同様の明確な規制で混乱することがよくあります。
また、LLMにOracle MathおよびLogic操作のための外部ツールが提供されている場合、大幅なパフォーマンスが向上します。
これらの結果は、実際のアプリケーションにおけるLLMSのルール誘導推論能力を進める際の重要な課題と有望な研究方向を強調しています。
私たちのコードとデータは、https://github.com/skyriver-2000/rulearenaで公開されています。

要約(オリジナル)

This paper introduces RuleArena, a novel and challenging benchmark designed to evaluate the ability of large language models (LLMs) to follow complex, real-world rules in reasoning. Covering three practical domains — airline baggage fees, NBA transactions, and tax regulations — RuleArena assesses LLMs’ proficiency in handling intricate natural language instructions that demand long-context understanding, logical reasoning, and accurate mathematical computation. Two key attributes distinguish RuleArena from traditional rule-based reasoning benchmarks: (1) it extends beyond standard first-order logic representations, and (2) it is grounded in authentic, practical scenarios, providing insights into the suitability and reliability of LLMs for real-world applications. Our findings reveal several notable limitations in LLMs: (1) they struggle to identify and apply the appropriate rules, frequently becoming confused by similar but distinct regulations, (2) they cannot consistently perform accurate mathematical computations, even when they correctly identify the relevant rules, and (3) in general, they perform poorly in the benchmark. We also observe a significant performance boost when LLMs are provided with external tools for oracle math and logic operations. These results highlight significant challenges and promising research directions in advancing LLMs’ rule-guided reasoning capabilities in real-life applications. Our codes and data are publicly available on https://github.com/skyriver-2000/RuleArena.

arxiv情報

著者 Ruiwen Zhou,Wenyue Hua,Liangming Pan,Sitao Cheng,Xiaobao Wu,En Yu,William Yang Wang
発行日 2025-05-30 17:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios はコメントを受け付けていません

MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning

要約

報酬モデリングは、大規模な言語モデル(LLM)を調整するために人間のフィードバック(RLHF)から補強学習を適用する際の安全な基礎モデルを構築する上で重要なステップです。
ただし、Bradley-Terry(BT)モデルに基づく報酬モデリングは、グローバルな報酬機能を想定しており、本質的に多様で不均一な人間の好みをキャプチャできません。
したがって、そのような単純化過剰化は、LLMSがパーソナライズと多元的な整合性をサポートすることを制限します。
理論的には、人間の好みが多様なサブグループの混合分布に従うと、単一のBTモデルには還元不可能な誤差があることを示します。
微細にグレームの注釈を備えた多目的学習などの既存のソリューションは、この問題に対処するのに役立ちますが、それらは事前に定義された属性によって制約され、人間の価値の豊かさを完全に捉えることができません。
この作業では、明示的な細かい注釈を必要とせずに大規模なバイナリ優先データセットを活用することにより、パーソナライズされた好みの学習を強化する2段階のフレームワークであるMicroを紹介します。
最初の段階では、Microは、多様な人間の好みをキャプチャするために、コンテキストを意識した混合モデリングアプローチを導入します。
第2段階では、Microは、特定のコンテキストに基づいて混合重量を動的に適応させるオンラインルーティング戦略を統合して、曖昧さを解決し、最小限の追加監督で効率的でスケーラブルな好みの適応を可能にします。
複数の選好データセットでの実験は、ミクロが多様な人間の好みを効果的にキャプチャし、下流のパーソナライズを大幅に改善することを示しています。

要約(オリジナル)

Reward modeling is a key step in building safe foundation models when applying reinforcement learning from human feedback (RLHF) to align Large Language Models (LLMs). However, reward modeling based on the Bradley-Terry (BT) model assumes a global reward function, failing to capture the inherently diverse and heterogeneous human preferences. Hence, such oversimplification limits LLMs from supporting personalization and pluralistic alignment. Theoretically, we show that when human preferences follow a mixture distribution of diverse subgroups, a single BT model has an irreducible error. While existing solutions, such as multi-objective learning with fine-grained annotations, help address this issue, they are costly and constrained by predefined attributes, failing to fully capture the richness of human values. In this work, we introduce MiCRo, a two-stage framework that enhances personalized preference learning by leveraging large-scale binary preference datasets without requiring explicit fine-grained annotations. In the first stage, MiCRo introduces context-aware mixture modeling approach to capture diverse human preferences. In the second stage, MiCRo integrates an online routing strategy that dynamically adapts mixture weights based on specific context to resolve ambiguity, allowing for efficient and scalable preference adaptation with minimal additional supervision. Experiments on multiple preference datasets demonstrate that MiCRo effectively captures diverse human preferences and significantly improves downstream personalization.

arxiv情報

著者 Jingyan Shen,Jiarui Yao,Rui Yang,Yifan Sun,Feng Luo,Rui Pan,Tong Zhang,Han Zhao
発行日 2025-05-30 17:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning はコメントを受け付けていません

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

要約

モデルの蒸留の最近の進歩は、高度な推論モデルからのデータ(例:Deepseek-R1、OpenaiのO1)が、複雑で効率的な学生モデルに複雑な推論能力を効果的に転送できることを示しています。
ただし、標準的なプラクティスでは、拒否サンプリングを採用しており、誤った推論の例を破棄します。
このペーパーでは、重要な質問に対処しています。オフラインの設定でLLM推論パフォーマンスを最大化するために、正と負の蒸留推論の両方のトレースをどのように効果的に活用できますか?
この目的のために、2段階のフレームワークである補強蒸留(REDI)を提案します。
ステージ1は、監視された微調整(SFT)を介して正の痕跡から学びます。
ステージ2は、提案されているREDI目標を通じて、正と負の両方のトレースを使用してモデルをさらに洗練します。
この斬新な目的は、この蒸留コンテキストでDPOやSIMPOなどの確立された方法を上回るシンプルで参照フリーの損失関数です。
私たちの経験的評価は、数学的推論タスクに関するDPO/SIMPOと組み合わせたベースライン拒否サンプリングSFTまたはSFTに対するRediの優位性を示しています。
特に、Open Open-R1データセットのわずか131Kの正と否定的な例で訓練を受けたQwen-Redi-1.5Bモデルは、Math-500(Pass@1)で83.1%のスコアを達成します。
そのパフォーマンスは、さまざまな数学的推論ベンチマークにわたって、DeepSeek-R1-Distill-Qwen-1.5B(800K独自のデータで訓練後のモデル)のパフォーマンスと一致または上回り、オフラインで訓練後1.5Bモデル用の新しい最先端の最先端を確立します。

要約(オリジナル)

Recent advances in model distillation demonstrate that data from advanced reasoning models (e.g., DeepSeek-R1, OpenAI’s o1) can effectively transfer complex reasoning abilities to smaller, efficient student models. However, standard practices employ rejection sampling, discarding incorrect reasoning examples — valuable, yet often underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? To this end, We propose Reinforcement Distillation (REDI), a two-stage framework. Stage 1 learns from positive traces via Supervised Fine-Tuning (SFT). Stage 2 further refines the model using both positive and negative traces through our proposed REDI objective. This novel objective is a simple, reference-free loss function that outperforms established methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate REDI’s superiority over baseline Rejection Sampling SFT or SFT combined with DPO/SimPO on mathematical reasoning tasks. Notably, the Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1). Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a model post-trained on 800k proprietary data) across various mathematical reasoning benchmarks, establishing a new state-of-the-art for 1.5B models post-trained offline with openly available data.

arxiv情報

著者 Shuyao Xu,Cheng Peng,Jiangxuan Long,Weidi Xu,Wei Chu,Yuan Qi
発行日 2025-05-30 17:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.6 | Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning はコメントを受け付けていません

DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation

要約

機能的なリターゲティングの問題を研究しています。人間の手観察デモからオブジェクト状態を追跡するための器用な操作ポリシーを学習します。
私たちは、大きなアクションスペース、空間的不連続性、および人間とロボットの手の間のギャップの具体化のために挑戦的である、明確なオブジェクトを持つ長老の双方向タスクに焦点を当てています。
斬新なカリキュラムベースのアルゴリズムであるDexmachinaを提案します。重要なアイデアは、仮想オブジェクトコントローラーを減衰強度で使用することです。オブジェクトは、最初にターゲット状態に向かって自動的に駆動されるため、ポリシーが動きの下で徐々に引き継ぎ、ガイダンスを接触することを学ぶことができます。
さまざまなタスクと器用な手を使用したシミュレーションベンチマークをリリースし、Dexmachinaがベースラインメソッドを大幅に上回ることを示します。
当社のアルゴリズムとベンチマークは、ハードウェア設計の機能的比較を可能にし、定量的および定性的な結果によって情報を提供する重要な調査結果を提示します。
器用な手開発の最近の急増により、この作業が望ましいハードウェア機能を特定するための有用なプラットフォームを提供し、将来の研究に貢献するための障壁を下げることを願っています。
https://project-dexmachina.github.io/でビデオなど

要約(オリジナル)

We study the problem of functional retargeting: learning dexterous manipulation policies to track object states from human hand-object demonstrations. We focus on long-horizon, bimanual tasks with articulated objects, which is challenging due to large action space, spatiotemporal discontinuities, and embodiment gap between human and robot hands. We propose DexMachina, a novel curriculum-based algorithm: the key idea is to use virtual object controllers with decaying strength: an object is first driven automatically towards its target states, such that the policy can gradually learn to take over under motion and contact guidance. We release a simulation benchmark with a diverse set of tasks and dexterous hands, and show that DexMachina significantly outperforms baseline methods. Our algorithm and benchmark enable a functional comparison for hardware designs, and we present key findings informed by quantitative and qualitative results. With the recent surge in dexterous hand development, we hope this work will provide a useful platform for identifying desirable hardware capabilities and lower the barrier for contributing to future research. Videos and more at https://project-dexmachina.github.io/

arxiv情報

著者 Zhao Mandi,Yifan Hou,Dieter Fox,Yashraj Narang,Ajay Mandlekar,Shuran Song
発行日 2025-05-30 17:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation はコメントを受け付けていません

LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs

要約

クラウドベースの独自の大規模言語モデル(LLMS)の広範な採用により、運用依存、プライバシーの懸念、継続的なインターネット接続の必要性など、重要な課題が導入されました。
この作業では、サービス指向のLLMSからより小さなローカルに管理可能なモデルへの知識と能力のシームレスな移行のために、LLMOPSパイプライン「Llamaduo」を紹介します。
このパイプラインは、運用障害、厳格なプライバシーポリシー、またはオフライン要件の存在下でサービスの継続性を確保するために重要です。
私たちのLlamaduoは、後者によって生成された合成データセットを使用して、サービスLLMに対して小さな言語モデルを微調整することを伴います。
微調整されたモデルのパフォーマンスが期待に達していない場合、Service LLMによって生成された追加の類似データを使用して、追加の微調整により自動的に改善されます。
このマルチターンプロセスは、小さなモデルが最終的に特定のダウンストリームタスクでサービスLLMの機能と一致したり、それを上回ったりすることを保証し、制約された環境でAI展開を管理するための実用的でスケーラブルなソリューションを提供します。
最先端のLLMを使用した広範な実験が実施され、さまざまな下流タスクにわたるLlamaduoの有効性、適応性、および手頃な価格を実証します。
パイプラインの実装は、https://github.com/deep-diver/llamaduoで入手できます。

要約(オリジナル)

The widespread adoption of cloud-based proprietary large language models (LLMs) has introduced significant challenges, including operational dependencies, privacy concerns, and the necessity of continuous internet connectivity. In this work, we introduce an LLMOps pipeline, ‘LlamaDuo’, for the seamless migration of knowledge and abilities from service-oriented LLMs to smaller, locally manageable models. This pipeline is crucial for ensuring service continuity in the presence of operational failures, strict privacy policies, or offline requirements. Our LlamaDuo involves fine-tuning a small language model against the service LLM using a synthetic dataset generated by the latter. If the performance of the fine-tuned model falls short of expectations, it is automatically improved through additional fine-tuning using extra similar data generated by the service LLM. This multi-turn process guarantees that the smaller model can eventually match or even surpass the service LLM’s capabilities in specific downstream tasks, offering a practical and scalable solution for managing AI deployments in constrained environments. Extensive experiments with leading-edge LLMs are conducted to demonstrate the effectiveness, adaptability, and affordability of LlamaDuo across various downstream tasks. Our pipeline implementation is available at https://github.com/deep-diver/llamaduo.

arxiv情報

著者 Chansung Park,Juyong Jiang,Fan Wang,Sayak Paul,Jing Tang
発行日 2025-05-30 17:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs はコメントを受け付けていません

Binarized Neural Networks Converge Toward Algorithmic Simplicity: Empirical Support for the Learning-as-Compression Hypothesis

要約

ニューラルネットワークの情報複雑さの理解と制御は、機械学習の中心的な課題であり、一般化、最適化、モデル能力に影響を与えます。
ほとんどのアプローチはエントロピーベースの損失関数と統計的メトリックに依存していますが、これらの測定値は、ネットワーク構造に埋め込まれた、より深く、因果的に関連するアルゴリズムの規則性をキャプチャできないことがよくあります。
最初のプロキシとして、二等式化されたニューラルネットワーク(BNNS)を使用して、アルゴリズム情報理論へのシフトを提案します。
アルゴリズム確率(AP)とそれが定義する普遍的な分布に基づいて、私たちのアプローチは、正式で因果的に接地されたレンズを通じて学習ダイナミクスを特徴付けます。
APに基づいたアルゴリズムの複雑さのスケーラブルな近似であるブロック分解法(BDM)を適用し、エントロピーよりもトレーニング中の構造変化をより密接に追跡し、さまざまなモデルサイズとランダム化トレーニングの実行にわたるトレーニング損失とのより強い相関を一貫して示すことを示しています。
これらの結果は、学習が構造化された規則性の進行性の内在化に対応するアルゴリズム圧縮のプロセスとしてのトレーニングの見解を支持します。
そうすることで、私たちの仕事は、学習の進行の原則的な推定を提供し、情報理論、複雑さ、計算可能性からの第一原則に基づいた、複雑さを認識した学習と正規化のフレームワークを提案します。

要約(オリジナル)

Understanding and controlling the informational complexity of neural networks is a central challenge in machine learning, with implications for generalization, optimization, and model capacity. While most approaches rely on entropy-based loss functions and statistical metrics, these measures often fail to capture deeper, causally relevant algorithmic regularities embedded in network structure. We propose a shift toward algorithmic information theory, using Binarized Neural Networks (BNNs) as a first proxy. Grounded in algorithmic probability (AP) and the universal distribution it defines, our approach characterizes learning dynamics through a formal, causally grounded lens. We apply the Block Decomposition Method (BDM) — a scalable approximation of algorithmic complexity based on AP — and demonstrate that it more closely tracks structural changes during training than entropy, consistently exhibiting stronger correlations with training loss across varying model sizes and randomized training runs. These results support the view of training as a process of algorithmic compression, where learning corresponds to the progressive internalization of structured regularities. In doing so, our work offers a principled estimate of learning progression and suggests a framework for complexity-aware learning and regularization, grounded in first principles from information theory, complexity, and computability.

arxiv情報

著者 Eduardo Y. Sakabe,Felipe S. Abrahão,Alexandre Simões,Esther Colombini,Paula Costa,Ricardo Gudwin,Hector Zenil
発行日 2025-05-30 17:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q30, 68Q32, 68T07, cs.AI, cs.IT, cs.LG, F.1.1, math.IT | Binarized Neural Networks Converge Toward Algorithmic Simplicity: Empirical Support for the Learning-as-Compression Hypothesis はコメントを受け付けていません