CP-Router: An Uncertainty-Aware Router Between LLM and LRM

要約

大規模な推論モデル(LRMS)の最近の進歩により、大規模な言語モデル(LLM)よりも長鎖推論機能が大幅に改善されました。
ただし、LRMSは、単純なクエリでも不必要に長い出力を生成することが多く、LLMSと比較して非効率性または精度の低下につながります。
これを克服するために、LLMとLRMの間で動的に選択するトレーニングフリーでモデルに依存しないルーティングフレームワークであるCPルーターを提案します。
ルーティングの決定は、厳格なカバレッジ保証を提供するコンフォーマル予測(CP)を介して導出された予測不確実性推定値によって導かれます。
入力間の不確実性の差別化をさらに改善するために、適切なCPしきい値を適応的に選択する新しいエントロピーベースの基準である完全およびバイナリエントロピー(FBE)を導入します。
数学、論理的推論、中国の化学を含む多様なMCQAベンチマーク全体の実験は、CPルーターがLRMのみを使用するのと比較して精度を維持または改善しながら、トークンの使用を効率的に削減することを示しています。
また、CPルーターを多様なモデルペアリングとオープンエンドQAに拡張し、その一般性と堅牢性を検証し、強力なパフォーマンスを実証し続けています。

要約(オリジナル)

Recent advances in Large Reasoning Models (LRMs) have significantly improved long-chain reasoning capabilities over Large Language Models (LLMs). However, LRMs often produce unnecessarily lengthy outputs even for simple queries, leading to inefficiencies or even accuracy degradation compared to LLMs. To overcome this, we propose CP-Router, a training-free and model-agnostic routing framework that dynamically selects between an LLM and an LRM, demonstrated with multiple-choice question answering (MCQA) prompts. The routing decision is guided by the prediction uncertainty estimates derived via Conformal Prediction (CP), which provides rigorous coverage guarantees. To further refine the uncertainty differentiation across inputs, we introduce Full and Binary Entropy (FBE), a novel entropy-based criterion that adaptively selects the appropriate CP threshold. Experiments across diverse MCQA benchmarks, including mathematics, logical reasoning, and Chinese chemistry, demonstrate that CP-Router efficiently reduces token usage while maintaining or even improving accuracy compared to using LRM alone. We also extend CP-Router to diverse model pairings and open-ended QA, where it continues to demonstrate strong performance, validating its generality and robustness.

arxiv情報

著者 Jiayuan Su,Fulin Lin,Zhaopeng Feng,Han Zheng,Teng Wang,Zhenyu Xiao,Xinlong Zhao,Zuozhu Liu,Lu Cheng,Hongwei Wang
発行日 2025-05-26 13:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CP-Router: An Uncertainty-Aware Router Between LLM and LRM はコメントを受け付けていません

Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language

要約

ナレッジグラフは、辞書編集データの語彙セマンな構造を表すための優れたソリューションを提供します。
ただし、SPARQLクエリ言語を使用することは、このテクノロジーの利点から利益を得ることができる多くの非専門家ユーザーにとってかなりのハードルです。
このペーパーでは、ウィキダタなどの知識グラフに関する辞書編集データ取得のための自然言語インターフェイスを作成するという課題に取り組んでいます。
Wikidataの辞書編集データオントロジーモジュールの複雑さを4つのディメンションでキャプチャする多次元分類法を開発し、自然言語の発話からSPARQLクエリまで120万を超えるマッピングを備えたテンプレートベースのデータセットを作成します。
GPT-2(124M)、PHI-1.5(1.3B)、およびGPT-3.5ターボを使用した実験では、モデル機能に大きな違いが明らかになりました。
すべてのモデルは馴染みのあるパターンでうまく機能しますが、GPT-3.5ターボのみが意味のある一般化機能を示しており、このドメインでの適応性にモデルサイズと多様なトレーニングが重要であることを示唆しています。
ただし、堅牢な一般化を達成し、多様な言語データの処理、および辞書的知識表現の完全な複雑さに対応できるスケーラブルなソリューションの開発には、重要な課題が残っています。

要約(オリジナル)

Knowledge graphs offer an excellent solution for representing the lexical-semantic structures of lexicographic data. However, working with the SPARQL query language represents a considerable hurdle for many non-expert users who could benefit from the advantages of this technology. This paper addresses the challenge of creating natural language interfaces for lexicographic data retrieval on knowledge graphs such as Wikidata. We develop a multidimensional taxonomy capturing the complexity of Wikidata’s lexicographic data ontology module through four dimensions and create a template-based dataset with over 1.2 million mappings from natural language utterances to SPARQL queries. Our experiments with GPT-2 (124M), Phi-1.5 (1.3B), and GPT-3.5-Turbo reveal significant differences in model capabilities. While all models perform well on familiar patterns, only GPT-3.5-Turbo demonstrates meaningful generalization capabilities, suggesting that model size and diverse pre-training are crucial for adaptability in this domain. However, significant challenges remain in achieving robust generalization, handling diverse linguistic data, and developing scalable solutions that can accommodate the full complexity of lexicographic knowledge representation.

arxiv情報

著者 Kilian Sennrich,Sina Ahmadi
発行日 2025-05-26 13:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language はコメントを受け付けていません

DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

要約

会話型AIの最近の進歩は、単一ターン応答の印象的な能力を実証していますが、マルチターンの対話は、最も洗練された言語モデルでさえも依然として挑戦的です。
現在のダイアログデータセットは、感情的な範囲、ドメインの多様性、回転深度が制限されており、主にテキストのみであり、モダリティ全体でより人間のような会話システムの開発の進歩を妨げています。
これらの制限に対処するために、41ドメインにまたがる40,150の高品質のマルチターンダイアログを含む大規模なマルチモーダルデータセットであるDeepDialogueを提示し、20個の異なる感情を一貫した感情的進行に組み込みます。
私たちのアプローチは、9つの異なる言語モデル(4B-72Bパラメーター)をペアにして、65,600の初期会話を生成し、ヒトの注釈とLLMベースの品質フィルタリングの組み合わせを通じて評価します。
結果のデータセットは、基本的な洞察を明らかにします。より小さなモデルは、6つのダイアログターンを超えて一貫性を維持できません。
具体的なドメイン(「車」、「旅行」など)は、抽象的な会話(例:「哲学」)よりも意味のある会話をもたらします。
また、クロスモデルの相互作用は、同一モデルの会話よりも一貫した対話を生成します。
Deepdialogueの重要な貢献は、40,150のすべての対話の感情一貫性のある声を統合し、マルチターン会話全体で感情的な文脈を忠実に保持する最初の大規模なオープンソースマルチモーダルダイアログデータセットを作成するスピーチコンポーネントです。

要約(オリジナル)

Recent advances in conversational AI have demonstrated impressive capabilities in single-turn responses, yet multi-turn dialogues remain challenging for even the most sophisticated language models. Current dialogue datasets are limited in their emotional range, domain diversity, turn depth, and are predominantly text-only, hindering progress in developing more human-like conversational systems across modalities. To address these limitations, we present DeepDialogue, a large-scale multimodal dataset containing 40,150 high-quality multi-turn dialogues spanning 41 domains and incorporating 20 distinct emotions with coherent emotional progressions. Our approach pairs 9 different language models (4B-72B parameters) to generate 65,600 initial conversations, which we then evaluate through a combination of human annotation and LLM-based quality filtering. The resulting dataset reveals fundamental insights: smaller models fail to maintain coherence beyond 6 dialogue turns; concrete domains (e.g., ‘cars,’ ‘travel’) yield more meaningful conversations than abstract ones (e.g., ‘philosophy’); and cross-model interactions produce more coherent dialogues than same-model conversations. A key contribution of DeepDialogue is its speech component, where we synthesize emotion-consistent voices for all 40,150 dialogues, creating the first large-scale open-source multimodal dialogue dataset that faithfully preserves emotional context across multi-turn conversations.

arxiv情報

著者 Alkis Koudounas,Moreno La Quatra,Elena Baralis
発行日 2025-05-26 13:37:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset はコメントを受け付けていません

What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs

要約

このホワイトペーパーでは、微調整された臨床専門分野で大規模な言語モデルをベンチマークするための英語の医療質問(QA)データセットであるS-Medqaを紹介します。
S-MEDQAを使用して、医療QAの知識の強烈なシナリオでの知識注入に関連する一般的な仮説の適用可能性を確認し、1)専門のデータに関するデータのトレーニングは、その専門性の最高のパフォーマンスにつながるわけではなく、2)微調整された専門の微調整に関係なく、すべての特殊な用語のトークン確率に関係しています。
したがって、私たちは、知識の注入ではなく、主にドメインシフト(一般的な医療)からの改善の利益がもたらされ、医療ドメインでの微調整データの役割を再考することを示唆していると考えています。
S-MEDQAとすべての実験を研究コミュニティに再現するために必要なすべてのコードをリリースします。

要約(オリジナル)

In this paper, we introduce S-MedQA, an English medical question-answering (QA) dataset for benchmarking large language models in fine-grained clinical specialties. We use S-MedQA to check the applicability of a popular hypothesis related to knowledge injection in the knowledge-intense scenario of medical QA, and show that: 1) training on data from a speciality does not necessarily lead to best performance on that specialty and 2) regardless of the specialty fine-tuned on, token probabilities of clinically relevant terms for all specialties increase consistently. Thus, we believe improvement gains come mostly from domain shifting (e.g., general to medical) rather than knowledge injection and suggest rethinking the role of fine-tuning data in the medical domain. We release S-MedQA and all code needed to reproduce all our experiments to the research community.

arxiv情報

著者 Xinlan Yan,Di Wu,Yibin Lei,Christof Monz,Iacer Calixto
発行日 2025-05-26 13:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs はコメントを受け付けていません

How Well Do Large Reasoning Models Translate? A Comprehensive Evaluation for Multi-Domain Machine Translation

要約

大規模な言語モデル(LLMS)は、汎用機の翻訳で強力なパフォーマンスを実証していますが、複雑でドメインに敏感な翻訳タスクでの有効性は露出度の低いままです。
大規模な推論モデル(LRMS)の最近の進歩は、構造化された推論が多様なドメイン全体で翻訳の品質を向上させることができるかどうかの問題を提起します。
この作業では、LRMのパフォーマンスを、15の代表的なドメインと4つの翻訳方向にまたがる従来のLLMと比較します。
私たちの評価では、タスクの難易度、入力長、用語密度など、さまざまな要因を考慮しています。
自動メトリックと強化されたMQMベースの評価階層の組み合わせを使用して、翻訳の品質を評価します。
私たちの調査結果は、LR​​MSが、特に長所および高度な翻訳シナリオで、意味的に複雑なドメインで従来のLLMを一貫して上回ることを示しています。
さらに、ドメイン適応プロンプト戦略は、LRMSの推論能力をより強化することにより、パフォーマンスをさらに向上させます。
これらの結果は、MDMTタスクの構造化された推論の可能性を強調し、ドメインに敏感なコンテキストで翻訳システムを最適化するための貴重な洞察を提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong performance in general-purpose machine translation, but their effectiveness in complex, domain-sensitive translation tasks remains underexplored. Recent advancements in Large Reasoning Models (LRMs), raise the question of whether structured reasoning can enhance translation quality across diverse domains. In this work, we compare the performance of LRMs with traditional LLMs across 15 representative domains and four translation directions. Our evaluation considers various factors, including task difficulty, input length, and terminology density. We use a combination of automatic metrics and an enhanced MQM-based evaluation hierarchy to assess translation quality. Our findings show that LRMs consistently outperform traditional LLMs in semantically complex domains, especially in long-text and high-difficulty translation scenarios. Moreover, domain-adaptive prompting strategies further improve performance by better leveraging the reasoning capabilities of LRMs. These results highlight the potential of structured reasoning in MDMT tasks and provide valuable insights for optimizing translation systems in domain-sensitive contexts.

arxiv情報

著者 Yongshi Ye,Biao Fu,Chongxuan Huang,Yidong Chen,Xiaodong Shi
発行日 2025-05-26 13:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Well Do Large Reasoning Models Translate? A Comprehensive Evaluation for Multi-Domain Machine Translation はコメントを受け付けていません

Embracing Imperfection: Simulating Students with Diverse Cognitive Levels Using LLM-based Agents

要約

大規模な言語モデル(LLM)は教育に革命をもたらし、LLMベースのエージェントは学生の行動をシミュレートする上で重要な役割を果たしています。
学生シミュレーションの主な課題は、さまざまな認知レベルでの学生の多様な学習パターンをモデル化することです。
ただし、通常、「役立つアシスタント」として訓練されている現在のLLMは、完全な応答を生成するターゲットです。
その結果、彼らは多様な認知能力を持つ学生をシミュレートするのに苦労しています。彼らはしばしば過度に高度な答えを生み出し、学生の学習を特徴付ける自然な欠陥を欠いており、非現実的なシミュレーションをもたらします。
この問題に対処するために、学生シミュレーションのためのトレーニングなしのフレームワークを提案します。
まず、知識グラフを使用して各生徒に認知プロトタイプを構築することから始めます。これは、過去の学習記録からの概念の理解を捉えています。
このプロトタイプは、学生のパフォーマンスを予測するために新しいタスクにマッピングされます。
次に、これらの予測に基づいて学生ソリューションをシミュレートし、ビーム検索方法を使用してそれらを反復的に改良し、現実的な間違いをよりよく複製します。
アプローチを検証するために、Pythonプログラミングに取り組んでいる100ドルの学生と5,000ドルの学習記録で構成される\ TextTT {Student \ _100}データセットを構築します。
実験結果は、私たちの方法がベースラインモデルを一貫して上回り、シミュレーションの精度を100ドル\%$ $改善することを示しています。

要約(オリジナル)

Large language models (LLMs) are revolutionizing education, with LLM-based agents playing a key role in simulating student behavior. A major challenge in student simulation is modeling the diverse learning patterns of students at various cognitive levels. However, current LLMs, typically trained as “helpful assistants”, target at generating perfect responses. As a result, they struggle to simulate students with diverse cognitive abilities, as they often produce overly advanced answers, missing the natural imperfections that characterize student learning and resulting in unrealistic simulations. To address this issue, we propose a training-free framework for student simulation. We begin by constructing a cognitive prototype for each student using a knowledge graph, which captures their understanding of concepts from past learning records. This prototype is then mapped to new tasks to predict student performance. Next, we simulate student solutions based on these predictions and iteratively refine them using a beam search method to better replicate realistic mistakes. To validate our approach, we construct the \texttt{Student\_100} dataset, consisting of $100$ students working on Python programming and $5,000$ learning records. Experimental results show that our method consistently outperforms baseline models, achieving $100\%$ improvement in simulation accuracy.

arxiv情報

著者 Tao Wu,Jingyuan Chen,Wang Lin,Mengze Li,Yumeng Zhu,Ang Li,Kun Kuang,Fei Wu
発行日 2025-05-26 13:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG | Embracing Imperfection: Simulating Students with Diverse Cognitive Levels Using LLM-based Agents はコメントを受け付けていません

Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition

要約

私たちは、特に低リソースの多氷河設定で、非ネイティブの発話に対する自動音声認識(ASR)システムの堅牢性を改善することを目指しています。
アクセント固有のLORA(MAS-LORA)の混合物を紹介します。これは、それぞれが特定のアクセントに特化した低ランク適応(LORA)の専門家の混合物を活用する微調整方法です。
この方法は、モデルを再度微調整する必要なく、アクセントが推論時に既知または不明の場合に使用できます。
L2-ARCTICコーパスでささやきを使用して実施された実験は、通常のLORAと比較して、アクセントが不明な場合は完全な微調整と比較して、単語エラー率の大幅な改善を示しています。
アクセントがわかっている場合、結果はさらに改善されます。
さらに、Mas-Loraは、他の微調整方法よりも壊滅的な忘却が少ないことを示しています。
私たちの知る限り、これは非ネイティブの多氷河ASRのLORA専門家の混合物の最初の使用です。

要約(オリジナル)

We aim to improve the robustness of Automatic Speech Recognition (ASR) systems against non-native speech, particularly in low-resourced multi-accent settings. We introduce Mixture of Accent-Specific LoRAs (MAS-LoRA), a fine-tuning method that leverages a mixture of Low-Rank Adaptation (LoRA) experts, each specialized in a specific accent. This method can be used when the accent is known or unknown at inference time, without the need to fine-tune the model again. Our experiments, conducted using Whisper on the L2-ARCTIC corpus, demonstrate significant improvements in Word Error Rate compared to regular LoRA and full fine-tuning when the accent is unknown. When the accent is known, the results further improve. Furthermore, MAS-LoRA shows less catastrophic forgetting than the other fine-tuning methods. To the best of our knowledge, this is the first use of a mixture of LoRA experts for non-native multi-accent ASR.

arxiv情報

著者 Raphaël Bagat,Irina Illina,Emmanuel Vincent
発行日 2025-05-26 13:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition はコメントを受け付けていません

WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback

要約

大規模な言語モデル(LLMS)を搭載したWebエージェントは、次世代AIの約束を示していますが、不確実で動的なWeb環境での限られた推論は、堅牢な展開を妨げます。
このホワイトペーパーでは、効果的なWebエージェントに不可欠な重要な推論スキル、つまりリフレクションとLookahead、分岐、ロールバック、およびエージェントの(推論時間)推論アルゴリズムを考え方の順位に再構築することにより、これらの能力を例示するキュレート軌道データを特定します。
エージェントの自己改善ベンチマークであるOpenWebVoyagerで実験を実施し、単純な微調整を介して顕著な推論パターンをバックボーンLLMに蒸留することでパフォーマンスを大幅に向上させることを実証します。
私たちのアプローチは、WebVoyager、Mind2Web-Live、SimpleQA(Web検索)など、複数のベンチマークにわたって大幅な改善をもたらし、Webエージェントのターゲットを絞った推論スキル強化の可能性を強調しています。

要約(オリジナル)

Web agents powered by Large Language Models (LLMs) show promise for next-generation AI, but their limited reasoning in uncertain, dynamic web environments hinders robust deployment. In this paper, we identify key reasoning skills essential for effective web agents, i.e., reflection & lookahead, branching, and rollback, and curate trajectory data that exemplifies these abilities by reconstructing the agent’s (inference-time) reasoning algorithms into chain-of-thought rationales. We conduct experiments in the agent self-improving benchmark, OpenWebVoyager, and demonstrate that distilling salient reasoning patterns into the backbone LLM via simple fine-tuning can substantially enhance its performance. Our approach yields significant improvements across multiple benchmarks, including WebVoyager, Mind2web-live, and SimpleQA (web search), highlighting the potential of targeted reasoning skill enhancement for web agents.

arxiv情報

著者 Minda Hu,Tianqing Fang,Jianshu Zhang,Junyu Ma,Zhisong Zhang,Jingyan Zhou,Hongming Zhang,Haitao Mi,Dong Yu,Irwin King
発行日 2025-05-26 14:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback はコメントを受け付けていません

Does Rationale Quality Matter? Enhancing Mental Disorder Detection via Selective Reasoning Distillation

要約

ソーシャルメディアからのメンタルヘルスの問題の検出とこれらの結果の解釈は、広く調査されています。
研究により、臨床症状情報をモデルに組み込むことでドメインの専門知識が向上し、検出と解釈のパフォーマンスが向上することが示されています。
大規模な言語モデル(LLM)は、メンタルヘルスの検出における説明的理論的根拠を生成するのに効果的であることが示されていますが、それらの実質的に大きなパラメーターサイズと高い計算コストは​​実用性を制限します。
推論蒸留は、この能力をより小さな言語モデル(SLM)に転送しますが、LLMで生成された理論的根拠の関連性とドメインのアラインメントにおける矛盾は課題をもたらします。
このペーパーでは、理論的品質がメンタルヘルスの検出と説明生成におけるSLMのパフォーマンスにどのように影響するかを調査します。
高品質でドメインに関連する理論的根拠を確保することで蒸留が強化されると仮定します。
この目的のために、専門家の臨床推論との整合に基づいて理論的根拠を選択するフレームワークを提案します。
実験は、私たちの品質中心のアプローチが、精神障害の検出と理論的生成の両方でSLMパフォーマンスを大幅に向上させることを示しています。
この作業は、理論的品質の重要性を強調し、メンタルヘルスアプリケーションにおける知識移転のための洞察に満ちたフレームワークを提供します。

要約(オリジナル)

The detection of mental health problems from social media and the interpretation of these results have been extensively explored. Research has shown that incorporating clinical symptom information into a model enhances domain expertise, improving its detection and interpretation performance. While large language models (LLMs) are shown to be effective for generating explanatory rationales in mental health detection, their substantially large parameter size and high computational cost limit their practicality. Reasoning distillation transfers this ability to smaller language models (SLMs), but inconsistencies in the relevance and domain alignment of LLM-generated rationales pose a challenge. This paper investigates how rationale quality impacts SLM performance in mental health detection and explanation generation. We hypothesize that ensuring high-quality and domain-relevant rationales enhances the distillation. To this end, we propose a framework that selects rationales based on their alignment with expert clinical reasoning. Experiments show that our quality-focused approach significantly enhances SLM performance in both mental disorder detection and rationale generation. This work highlights the importance of rationale quality and offers an insightful framework for knowledge transfer in mental health applications.

arxiv情報

著者 Hoyun Song,Huije Lee,Jisu Shin,Sukmin Cho,Changgeon Ko,Jong C. Park
発行日 2025-05-26 14:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Does Rationale Quality Matter? Enhancing Mental Disorder Detection via Selective Reasoning Distillation はコメントを受け付けていません

On the class of coding optimality of human languages and the origins of Zipf’s law

要約

ここでは、コーディングシステム用の新しいクラスの最適性を紹介します。
そのクラスのメンバーは、最適なコーディングから直線的に分離されているため、ZIPFの法則、つまり周波数ランクのパワーロー分布を示します。
その階級、ZIPFの法則、サイズランクの法律、および規模の推定可能性法は、グループのような構造を形成します。
クラスのメンバーである人間の言語を特定します。
ZIPFの法律と十分な合意を示すすべての言語は、クラスの潜在的なメンバーです。
対照的に、他の種には、代わりに指数分布を示すためにそのクラスのメンバーになることはできない通信システムがありますが、イルカとザトウクジラはそうするかもしれません。
二重の対数スケールでの周波数とランクのプロットに関する新しい洞察を提供します。
任意のシステムの場合、そのスケールの直線は、非弦楽コーディングおよびユニークなデコード可能なエンコード下での最適なコードの長さが、勾配がZIPFの法律の指数である線形関数によって分離されることを示します。
圧縮されており、独自にデコード可能になるように制約されているシステムの場合、そのような直線は、システムが最適性に近いコーディングを示していることを示している可能性があります。
私たちの調査結果は、ZIPFの法則が圧縮に起因するという仮説を支持しています。

要約(オリジナル)

Here we present a new class of optimality for coding systems. Members of that class are separated linearly from optimal coding and thus exhibit Zipf’s law, namely a power-law distribution of frequency ranks. Whithin that class, Zipf’s law, the size-rank law and the size-probability law form a group-like structure. We identify human languages that are members of the class. All languages showing sufficient agreement with Zipf’s law are potential members of the class. In contrast, there are communication systems in other species that cannot be members of that class for exhibiting an exponential distribution instead but dolphins and humpback whales might. We provide a new insight into plots of frequency versus rank in double logarithmic scale. For any system, a straight line in that scale indicates that the lengths of optimal codes under non-singular coding and under uniquely decodable encoding are separated by a linear function whose slope is the exponent of Zipf’s law. For systems under compression and constrained to be uniquely decodable, such a straight line may indicate that the system is coding close to optimality. Our findings provide support for the hypothesis that Zipf’s law originates from compression.

arxiv情報

著者 Ramon Ferrer-i-Cancho
発行日 2025-05-26 14:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph | On the class of coding optimality of human languages and the origins of Zipf’s law はコメントを受け付けていません