AlpaCare:Instruction-tuned Large Language Models for Medical Application

要約

指導対象(IFT)は、大規模な言語モデル(LLM)を多様な人間のニーズに合わせて重要になり、医療用途で大きな可能性を示しています。
ただし、以前の研究では、主に多様性が限られている生物医学データセットに関するLLMSを微調整します。これは、ベンチマークや狭いタスクスコープに依存することが多く、したがって、医療指導の公開能力と一般化可能性に対する有効性を大幅に制限します。
このギャップを埋めるために、GPT-4とCHATGPTを使用して、高品質の専門家キュレーションシードセットを使用して、多様な機械で生成された医療IFTデータセットを作成することを提案します。
次に、データセットでラマシリーズモデルを微調整してAlpacareを開発します。
以前の医療LLMよりも小さいドメイン固有のデータセットを使用しているにもかかわらず、Alpacareは医療用途で優れたパフォーマンスを示しているだけでなく、医療自由形式の指導評価において最高のベストベースラインよりも最大38.1%の絶対的な利益を示していますが、複数の一般的なドメインベンチマークで平均化された6.7%の絶対的なゲインも達成します。
人間の評価はさらに、Alpacareが正確さと有用性の両方の点で一貫して最高のベースラインを上回ることを示しています。
https://github.com/xzhang97666/alpacareで、データ、モデル、およびコードベースへのパブリックアクセスを提供しています。

要約(オリジナル)

Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications. However, previous studies mainly fine-tune LLMs on biomedical datasets with limited diversity, which often rely on benchmarks or narrow task scopes, and hence significantly limit the effectiveness on their medical instruction-following ability and generalizability. To bridge this gap, we propose creating a diverse, machine-generated medical IFT dataset, MedInstruct-52k, using GPT-4 and ChatGPT with a high-quality expert-curated seed set. We then fine-tune LLaMA-series models on the dataset to develop AlpaCare. Despite using a smaller domain-specific dataset than previous medical LLMs, AlpaCare not only demonstrates superior performance on medical applications, with up to 38.1% absolute gain over best baselines in medical free-form instruction evaluations, but also achieves 6.7% absolute gains averaged over multiple general domain benchmarks. Human evaluation further shows that AlpaCare consistently outperforms best baselines in terms of both correctness and helpfulness. We offer public access to our data, model, and codebase in https://github.com/XZhang97666/AlpaCare.

arxiv情報

著者 Xinlu Zhang,Chenxin Tian,Xianjun Yang,Lichang Chen,Zekun Li,Linda Ruth Petzold
発行日 2025-03-31 21:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AlpaCare:Instruction-tuned Large Language Models for Medical Application はコメントを受け付けていません

Don’t lie to your friends: Learning what you know from collaborative self-play

要約

役立つアシスタントになるには、AIエージェントは自分の能力と制限に注意する必要があります。
これには、パラメトリックの知識からツールの使用、いつツールの出力を信頼するか、いつ控えるかヘッジするかを知ることが含まれます。
このような機能は、エージェントの特定の機能を反映する例を構築する必要があるため、監視された微調整を通じて教えることが困難です。
したがって、私たちは、彼らが知っていることをエージェントに教えるための根本的に新しいアプローチを提案します。
私たちは、グループが集合的に正しい答えに到着したことで報われるマルチエージェントコラボレーションを構築します。
望ましいメタ知識は、相互作用の構造に組み込まれたインセンティブから生まれます。
私たちは、不均一なツール(コーパス固有の検索)にアクセスできる小さな社会に焦点を当てているため、努力を最小限に抑えながら成功を最大化するために協力する必要があります。
実験は、マルチエージェントコミュニティのグループレベルの報酬が、個々のエージェントが単独で展開される設定のツールの使用と選択的予測を改善するために\ emph {cransfer}というポリシーを誘導できることを示しています。

要約(オリジナル)

To be helpful assistants, AI agents must be aware of their own capabilities and limitations. This includes knowing when to answer from parametric knowledge versus using tools, when to trust tool outputs, and when to abstain or hedge. Such capabilities are hard to teach through supervised fine-tuning because they require constructing examples that reflect the agent’s specific capabilities. We therefore propose a radically new approach to teaching agents what they know: \emph{collaborative self-play}. We construct multi-agent collaborations in which the group is rewarded for collectively arriving at correct answers. The desired meta-knowledge emerges from the incentives built into the structure of the interaction. We focus on small societies of agents that have access to heterogeneous tools (corpus-specific retrieval), and therefore must collaborate to maximize their success while minimizing their effort. Experiments show that group-level rewards for multi-agent communities can induce policies that \emph{transfer} to improve tool use and selective prediction in settings where individual agents are deployed in isolation.

arxiv情報

著者 Jacob Eisenstein,Reza Aghajani,Adam Fisch,Dheeru Dua,Fantine Huot,Mirella Lapata,Vicky Zayats,Jonathan Berant
発行日 2025-03-31 21:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Don’t lie to your friends: Learning what you know from collaborative self-play はコメントを受け付けていません

Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder

要約

命令チューニングデータは、データ収集と高速モデルの反復により、多くの場合数量が飽和し、データの選択は重要ですが、採用されていないものです。
LIMA(Neurips 2023 \ Citep {Zhou2024lima})やAlpagasus(ICLR 2024 \ Citep {Chenalpagasus})などの既存の品質駆動型のデータ選択方法は、データの多様性と複雑さの同等の重要性を無視します。
この作業では、多様性を認識しているデータ選択戦略を設計し、Sparse Autoencoders(SAE)を使用してデータの多様性測定の課題に取り組むことを目指しています。
さらに、SAEは、モデルの動作のより多くの解釈可能性を提供し、例えば、最長の応答を選択する驚くべき有効性を説明することもできます(ICML 2024 \ citep {Zhaolong})。
効果的なデータ選択を使用して、選択したデータでトレーニングされたモデルがモデル機能の点で他の方法を上回ることができることを実験的に証明し、トレーニングコストを削減し、モデルの動作をより多くの制御を獲得する可能性があります。
SAEは、潜在的な産業用大規模な剪定のためにスケーラブルであるために、私たちの方法を測定し、設計するための優れた代替として機能することを証明し、より広いコミュニティが使用するために訓練されたSAEをリリースします。

要約(オリジナル)

Instruction tuning data are often quantity-saturated due to the large volume of data collection and fast model iteration, leaving data selection important but underexplored. Existing quality-driven data selection methods, such as LIMA (NeurIPS 2023 \citep{zhou2024lima}) and AlpaGasus (ICLR 2024 \citep{chenalpagasus}) generally ignore the equal importance of data diversity and complexity. In this work, we aim to design a diversity-aware data selection strategy and creatively propose using sparse autoencoders (SAEs) to tackle the challenge of data diversity measure. In addition, SAEs can also provide more interpretability of model behavior and explain, e.g., the surprising effectiveness of selecting the longest response (ICML 2024 \citep{zhaolong}). Using effective data selection, we experimentally prove that models trained on our selected data can outperform other methods in terms of model capabilities, reduce training cost, and potentially gain more control over model behaviors. We prove that SAEs can serve as a good alternative to diversity measure and design our method to be scalable for potential industrial large-scale pruning, and we will also release our trained SAEs for use by the broader community.

arxiv情報

著者 Xianjun Yang,Shaoliang Nie,Lijuan Liu,Suchin Gururangan,Ujjwal Karn,Rui Hou,Madian Khabsa,Yuning Mao
発行日 2025-03-31 21:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder はコメントを受け付けていません

How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach

要約

チェーンオブテルのプロンプトは、大規模な言語モデル(LLM)が複雑な推論タスクを解決できるようにするための強力なテクニックとして浮上しています。
ただし、これらの推論チェーンは冗長であり、効率性に関する懸念を引き起こす可能性があります。
これに応じて、最近の作品は、単純なプロンプト戦略(たとえば「簡潔」)を通じて応答の長さを減らすことを求めています。
この作業では、多様な圧縮命令にわたる推論長とモデルのパフォーマンスの関係に関する最初の体系的な研究を実施します(たとえば、「10ワード以下」または「すべての句読点を削除」)。
そうすることで、非常に明確な推論チェーンでも持続する推論の長さと精度の間の普遍的なトレードオフを発見します。
このトレードオフは、質問レベルでの鋭いしきい値の動作から生じることを実証します。各タスクには、本質的な「トークンの複雑さ」があります。これは、問題解決の成功に必要な最小限のトークンです。
トークンの複雑さにより、精度圧縮トレードオフの情報理論的制限を計算し、プロンプトベースの圧縮戦略がこれらの理論的な制限から遠く離れて機能することを発見する方法を示します。
これは、改善の余地がある可能性があることを示唆しており、私たちのフレームワークは、研究者が推論効率の進歩を評価するのに役立つベンチマークを提供することを示唆しています。
また、私たちの作業は、適応的な圧縮の重要性を強調しています – より簡単な質問のためにより短い応答を与える – そして、トークンの複雑さがこの機能を測定するための有用なツールであることを示します。

要約(オリジナル)

Chain-of-thought prompting has emerged as a powerful technique for enabling large language models (LLMs) to solve complex reasoning tasks. However, these reasoning chains can be verbose, raising concerns about efficiency. In response, recent works have sought to decrease response lengths through simple prompting strategies (e.g. ‘be concise’). In this work, we conduct the first systematic study of the relationship between reasoning length and model performance across a diverse range of compression instructions (e.g. ‘use 10 words or less’ or ‘remove all punctuation’). In doing so, we discover a universal tradeoff between reasoning length and accuracy that persists across even very distinct reasoning chains. We demonstrate that this tradeoff emerges from a sharp threshold behavior at the question level: each task has an intrinsic ‘token complexity’ – a minimal number of tokens required for successful problem-solving. We show how token complexity enables us to compute information-theoretic limits on the accuracy-compression tradeoff, and find that prompt-based compression strategies operate far from these theoretical limits. This suggests there may be significant room for improvement and our framework provides a benchmark to help researchers evaluate progress in reasoning efficiency. Our work also highlights the importance of adaptive compression — giving shorter responses for easier questions — and we show that token complexity is a useful tool for measuring this capability.

arxiv情報

著者 Ayeong Lee,Ethan Che,Tianyi Peng
発行日 2025-04-01 00:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach はコメントを受け付けていません

Rerouting Connection: Hybrid Computer Vision Analysis Reveals Visual Similarity Between Indus and Tibetan-Yi Corridor Writing Systems

要約

この論文は、詳細な人類学的枠組みと併せてハイブリッドCNNトランスフォーカーアーキテクチャを採用して、インダスバレースクリプトの視覚的形態とチベット島廊下の絵画システムとの間の潜在的な歴史的なつながりを調査します。
15の独立した訓練されたモデルにわたる3つのターゲットスクリプトのアンサンブル方法論を通じて、チベット系廊下のスクリプトは、青銅器時代の原作物(10.2%-10.9%)またはプロトエラマイト(7.6%-8.7%)システムよりもインダススクリプト(61.7%-63.5%)と約6倍高い視覚的類似性を示すことを実証します。
さらに、インダス渓谷文明のネットワークの現在の理解に反して、インダススクリプトは、チベット語の廊下スクリプトに近づいていると予想外にマッピングされ、平均コサイン類似性は0.629の平均的な西アジアのシグネリーよりも0.629の平均類似性があります。
さまざまな次元の削減プラクティスとクラスタリングの方法論にわたって、インダススクリプトは、チベット系廊下スクリプトに最も近いクラスターを一貫してクラスターします。
計算結果は、数値システム、性別マーカー、および重要な図像要素における特定の絵画類似点の定性的観測と一致しています。
これは、インダスバレー文明の衰退と並行して、古代シュシェンドゥロードに沿った持続的な接触ネットワークの考古学的証拠によってさらにサポートされており、もっともらしい伝播経路を提供します。
代替の説明を排除することはできませんが、観察された類似性の特異性と一貫性は、孤立したスクリプト開発の従来の物語に挑戦し、以前に認識されていたよりも南と東アジアの間でより複雑な古代文化伝達ネットワークを示唆しています。

要約(オリジナル)

This thesis employs a hybrid CNN-Transformer architecture, in conjunction with a detailed anthropological framework, to investigate potential historical connections between the visual morphology of the Indus Valley script and pictographic systems of the Tibetan-Yi Corridor. Through an ensemble methodology of three target scripts across 15 independently trained models, we demonstrate that Tibetan-Yi Corridor scripts exhibit approximately six-fold higher visual similarity to the Indus script (61.7%-63.5%) than to the Bronze Age Proto-Cuneiform (10.2%-10.9%) or Proto-Elamite (7.6%-8.7%) systems. Additionally and contrarily to our current understanding of the networks of the Indus Valley Civilization, the Indus script unexpectedly maps closer to Tibetan-Yi Corridor scripts, with a mean cosine similarity of 0.629, than to the aforementioned contemporaneous West Asian signaries, both of which recorded mean cosine similarities of 0.104 and 0.080 despite their close geographic proximity and evident trade relations. Across various dimensionality reduction practices and clustering methodologies, the Indus script consistently clusters closest to Tibetan-Yi Corridor scripts. Our computational results align with qualitative observations of specific pictorial parallels in numeral systems, gender markers, and key iconographic elements; this is further supported by archaeological evidence of sustained contact networks along the ancient Shu-Shendu road in tandem with the Indus Valley Civilization’s decline, providing a plausible transmission pathway. While alternative explanations cannot be ruled out, the specificity and consistency of observed similarities challenge conventional narratives of isolated script development and suggest more complex ancient cultural transmission networks between South and East Asia than previously recognized.

arxiv情報

著者 Ooha Lakkadi Reddy
発行日 2025-04-01 01:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Rerouting Connection: Hybrid Computer Vision Analysis Reveals Visual Similarity Between Indus and Tibetan-Yi Corridor Writing Systems はコメントを受け付けていません

Non-Determinism of ‘Deterministic’ LLM Settings

要約

LLM(大規模な言語モデル)開業医は、一般に、出力が決定論的と予想される設定の下で同じ入力に対して変化する可能性があることに気づきます。
しかし、これがどれほど広範であるか、そして結果にどのような影響を与えるかについての質問は、私たちの知識に体系的に調査されていません。
ゼロショット設定と少数のショット設定の両方で、10回のランにわたって8つの一般的なタスクに適用されると、決定論的であるように構成された5つのLLMSで非決定論を調査します。
自然に発生するランで最大15%の精度の変動が、可能な限り最高のパフォーマンスのギャップが最大70%までのパフォーマンスを備えていることがわかります。
実際、LLMSのいずれも、すべてのタスクにわたって再現性のある精度を一貫して提供するものではなく、はるかに少ない出力文字列ではありません。
インサイダーと予備的な結果を共有すると、入力バッファーでの共ミングルデータを介して計算リソースの効率的な使用におそらく不可欠ではないことが明らかになったため、この問題はすぐに消えません。
観察をよりよく定量化するために、決定論の定量化に焦点を当てたメトリックを導入し、Nでの合計契約率についてはtarr@nが生の出力を超えており、tara@nは、解決された回答の合計契約率について@nを紹介します。
私たちのコードとデータは、http://github.com/redactedで公開されています。

要約(オリジナル)

LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs under settings expected to be deterministic. Yet the questions of how pervasive this is, and with what impact on results, have not to our knowledge been systematically investigated. We investigate non-determinism in five LLMs configured to be deterministic when applied to eight common tasks in across 10 runs, in both zero-shot and few-shot settings. We see accuracy variations up to 15% across naturally occurring runs with a gap of best possible performance to worst possible performance up to 70%. In fact, none of the LLMs consistently delivers repeatable accuracy across all tasks, much less identical output strings. Sharing preliminary results with insiders has revealed that non-determinism perhaps essential to the efficient use of compute resources via co-mingled data in input buffers so this issue is not going away anytime soon. To better quantify our observations, we introduce metrics focused on quantifying determinism, TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement rate of parsed-out answers. Our code and data are publicly available at http://github.com/REDACTED.

arxiv情報

著者 Berk Atil,Sarp Aykent,Alexa Chittams,Lisheng Fu,Rebecca J. Passonneau,Evan Radcliffe,Guru Rajan Rajagopal,Adam Sloan,Tomasz Tudrej,Ferhan Ture,Zhe Wu,Lixinyu Xu,Breck Baldwin
発行日 2025-04-01 02:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Non-Determinism of ‘Deterministic’ LLM Settings はコメントを受け付けていません

CancerLLM: A Large Language Model in Cancer Domain

要約

医療大規模な言語モデル(LLMS)は、さまざまな医療NLPタスクで印象的なパフォーマンスを実証しています。
ただし、がんドメインでの表現型の特定と診断のために特別に設計されたLLMはまだありません。
さらに、これらのLLMには通常、数十億のパラメーターがあるため、医療システムに計算的に高価になります。
したがって、この研究では、70億パラメーターとミストラルスタイルのアーキテクチャを備えたモデルであるCancerllMを提案し、2.7m近くの臨床ノートで事前に訓練され、17のがんタイプをカバーする515Kを超える病理報告が続き、その後、がん表現型抽出とがん診断の生成を含む2つのがん関連タスクで微調整されます。
私たちの評価は、CancerLLMが表現型抽出で91.78%、Disganois生成で86.81%のF1スコアで最先端の結果を達成することを実証しました。
既存のLLMを上回り、平均F1スコア改善は9.23%でした。
さらに、CancerLLMは、時間とGPUの使用効率を示し、他のLLMと比較して堅牢性を示しました。
Cancerllmは、がんの領域での臨床研究と実践を進めるための効果的で堅牢なソリューションを潜在的に提供できることを実証しました。

要約(オリジナル)

Medical Large Language Models (LLMs) have demonstrated impressive performance on a wide variety of medical NLP tasks; however, there still lacks a LLM specifically designed for phenotyping identification and diagnosis in cancer domain. Moreover, these LLMs typically have several billions of parameters, making them computationally expensive for healthcare systems. Thus, in this study, we propose CancerLLM, a model with 7 billion parameters and a Mistral-style architecture, pre-trained on nearly 2.7M clinical notes and over 515K pathology reports covering 17 cancer types, followed by fine-tuning on two cancer-relevant tasks, including cancer phenotypes extraction and cancer diagnosis generation. Our evaluation demonstrated that the CancerLLM achieves state-of-the-art results with F1 score of 91.78% on phenotyping extraction and 86.81% on disganois generation. It outperformed existing LLMs, with an average F1 score improvement of 9.23%. Additionally, the CancerLLM demonstrated its efficiency on time and GPU usage, and robustness comparing with other LLMs. We demonstrated that CancerLLM can potentially provide an effective and robust solution to advance clinical research and practice in cancer domain

arxiv情報

著者 Mingchen Li,Jiatan Huang,Jeremy Yeung,Anne Blaes,Steven Johnson,Hongfang Liu,Hua Xu,Rui Zhang
発行日 2025-04-01 02:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CancerLLM: A Large Language Model in Cancer Domain はコメントを受け付けていません

CoRanking: Collaborative Ranking with Small and Large Ranking Agents

要約

大規模な言語モデル(LLMS)は、リストワイズランキングのパフォーマンスを実証しています。
ただし、それらの優れたパフォーマンスは、多くの場合、大規模なパラメーター(\ eg、GPT-4)と、重要な効率の課題をもたらす繰り返しスライドウィンドウプロセスに依存しています。
この論文では、効率的かつ効果的なランキングのために大小のランキングモデルを組み合わせた新しい共同ランキングフレームワークである\ TextBF {Corankking}を提案します。
Corankkingは、最初に小型の再審査員を採用してすべての候補者のパッセージを事前にランク付けし、関連する候補者をリストの上部にもたらします(\ eg、Top-20)。
次に、LLM ListWise Rerankerが適用され、リスト全体の代わりにこれらのトップランクのパッセージのみを再確認し、全体的なランキング効率を大幅に向上させます。
より効率的ですが、以前の研究では、LLMリストワイズリランカーが入力範囲の順序に有意な位置バイアスを持っていることが明らかになりました。
小規模な再発者からトップランクのパッセージを直接供給すると、LLM ListWise Rerankerの最適なパフォーマンスが発生する可能性があります。
この問題を軽減するために、補強学習を介して訓練されたパッセージオーダーアジャスターを導入します。これは、LLMのパッセージ順序の好みに合わせて、小さな再生者からの最上部のパッセージを再配置します。
3つのIRベンチマークでの広範な実験は、CorankingがLLMリストワイズレランカーのみを使用するのと比較してさらに優れた効果を達成しながら、コランティングが効率を大幅に改善することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated superior listwise ranking performance. However, their superior performance often relies on large-scale parameters (\eg, GPT-4) and a repetitive sliding window process, which introduces significant efficiency challenges. In this paper, we propose \textbf{CoRanking}, a novel collaborative ranking framework that combines small and large ranking models for efficient and effective ranking. CoRanking first employs a small-size reranker to pre-rank all the candidate passages, bringing relevant ones to the top part of the list (\eg, top-20). Then, the LLM listwise reranker is applied to only rerank these top-ranked passages instead of the whole list, substantially enhancing overall ranking efficiency. Although more efficient, previous studies have revealed that the LLM listwise reranker have significant positional biases on the order of input passages. Directly feed the top-ranked passages from small reranker may result in the sub-optimal performance of LLM listwise reranker. To alleviate this problem, we introduce a passage order adjuster trained via reinforcement learning, which reorders the top passages from the small reranker to align with the LLM’s preferences of passage order. Extensive experiments on three IR benchmarks demonstrate that CoRanking significantly improves efficiency (reducing ranking latency by about 70\%) while achieving even better effectiveness compared to using only the LLM listwise reranker.

arxiv情報

著者 Wenhan Liu,Xinyu Ma,Yutao Zhu,Lixin Su,Shuaiqiang Wang,Dawei Yin,Zhicheng Dou
発行日 2025-04-01 02:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | CoRanking: Collaborative Ranking with Small and Large Ranking Agents はコメントを受け付けていません

Lean Formalization of Generalization Error Bound by Rademacher Complexity

要約

Lean 4定理を使用して、Rademacherの複雑さを使用して、一般化エラーバウンドを正式化します。
一般化エラーは、指定されたトレーニングデータと目に見えないテストデータでの学習マシンのパフォーマンスとの間のギャップを定量化し、Rademacherの複雑さは、学習マシンの複雑さまたは仮説クラスの複雑さに基づくこのエラーの推定値として機能します。
PAC学習やVCディメンションなどの従来の方法とは異なり、Rademacherの複雑さは、ディープラーニングやカーネルメソッドなどの多様な機械学習シナリオに適用されます。
経験的および人口のレーデマーの複雑さを含む重要な概念と定理を形式化し、McDiarmidの不平等、HoeffdingのLemma、および対称化の議論の正式な証拠を通じて一般化誤差境界を確立します。

要約(オリジナル)

We formalize the generalization error bound using Rademacher complexity in the Lean 4 theorem prover. Generalization error quantifies the gap between a learning machine’s performance on given training data versus unseen test data, and Rademacher complexity serves as an estimate of this error based on the complexity of learning machines, or hypothesis class. Unlike traditional methods such as PAC learning and VC dimension, Rademacher complexity is applicable across diverse machine learning scenarios including deep learning and kernel methods. We formalize key concepts and theorems, including the empirical and population Rademacher complexities, and establish generalization error bounds through formal proofs of McDiarmid’s inequality, Hoeffding’s lemma, and symmetrization arguments.

arxiv情報

著者 Sho Sonoda,Kazumi Kasaura,Yuma Mizuno,Kei Tsukamoto,Naoto Onda
発行日 2025-04-01 02:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.ST, stat.TH | Lean Formalization of Generalization Error Bound by Rademacher Complexity はコメントを受け付けていません

Self-Vocabularizing Training for Neural Machine Translation

要約

過去の語彙学習手法は、トレーニング前に関連する語彙を特定し、モデルトレーニングの役割を主に無視する統計的およびエントロピーベースの仮定に依存しています。
経験的には、トレーニングされた翻訳モデルが、元のBPE語彙とは異なるバイトペアエンコード(BPE)の語彙サブセットを使用するように誘導され、誘導された語彙で再試行するとパフォーマンスの改善につながることが観察されます。
この論文では、自己トレーニング中の語彙とエントロピーシフトを調べることにより、神経機械翻訳のこの矛盾を分析します。各反復は、ソース文とモデルの予測をペアリングして新しい語彙を定義することにより、ラベル付きデータセットを生成します。
これらの洞察に基づいて、私たちは自己送電トレーニングを提案します。これは、より小さく、より最適な語彙を自己選択し、最大1.49ブルーの改善をもたらす反復方法です。
さらに、より深いモデルアーキテクチャは、独自のトークン使用量の増加と語彙サイズの6〜8%の減少の両方につながることがわかります。

要約(オリジナル)

Past vocabulary learning techniques identify relevant vocabulary before training, relying on statistical and entropy-based assumptions that largely neglect the role of model training. Empirically, we observe that trained translation models are induced to use a byte-pair encoding (BPE) vocabulary subset distinct from the original BPE vocabulary, leading to performance improvements when retrained with the induced vocabulary. In this paper, we analyze this discrepancy in neural machine translation by examining vocabulary and entropy shifts during self-training–where each iteration generates a labeled dataset by pairing source sentences with the model’s predictions to define a new vocabulary. Building on these insights, we propose self-vocabularizing training, an iterative method that self-selects a smaller, more optimal vocabulary, yielding up to a 1.49 BLEU improvement. Moreover, we find that deeper model architectures lead to both an increase in unique token usage and a 6-8% reduction in vocabulary size.

arxiv情報

著者 Pin-Jie Lin,Ernie Chang,Yangyang Shi,Vikas Chandra
発行日 2025-04-01 02:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Self-Vocabularizing Training for Neural Machine Translation はコメントを受け付けていません