Privacy-Preserving Personalized Federated Prompt Learning for Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(LLMS)は、テキスト、画像、オーディオなどの複数のモダリティを統合することにより、カスタマーサポートと運用に革命をもたらす上で極めて重要です。
Federated Prompt Learning(FPL)は、ビジョン言語モデルなどの事前に訓練されたマルチモーダルLLMと、パーソナライズされたプライバシーを提供するAIシステムを作成するためのフェデレート学習を組み合わせた最近提案されたアプローチです。
ただし、パーソナライズ、一般化、プライバシーの競合する目標のバランスをとることは、依然として重要な課題です。
過剰な個人化は、過剰適合、一般化可能性の低下につながる可能性がありますが、プライバシーの差などの厳しいプライバシー測定は、パーソナライズと一般化の両方を妨げる可能性があります。
この論文では、パーソナライズの表現力を維持する残留用語を維持しながら一般化をキャプチャするために低ランク因子化スキームを活用することにより、この課題に取り組むために、差別的に民間の連邦迅速学習(DP-FPL)アプローチを提案します。
プライバシーを確​​保するために、ローカルプロンプトの2つの低ランクコンポーネントにローカル差のプライバシーを適用し、グローバル差のプライバシーをグローバルプロンプトに適用する新しい方法を導入します。
私たちのアプローチは、パーソナライズと一般化の間のトレードオフのバランスをとりながら、モデルのパフォーマンスに対するプライバシーノイズの影響を軽減します。
広範な実験は、他のベンチマークよりもアプローチの有効性を示しています。

要約(オリジナル)

Multimodal Large Language Models (LLMs) are pivotal in revolutionizing customer support and operations by integrating multiple modalities such as text, images, and audio. Federated Prompt Learning (FPL) is a recently proposed approach that combines pre-trained multimodal LLMs such as vision-language models with federated learning to create personalized, privacy-preserving AI systems. However, balancing the competing goals of personalization, generalization, and privacy remains a significant challenge. Over-personalization can lead to overfitting, reducing generalizability, while stringent privacy measures, such as differential privacy, can hinder both personalization and generalization. In this paper, we propose a Differentially Private Federated Prompt Learning (DP-FPL) approach to tackle this challenge by leveraging a low-rank factorization scheme to capture generalization while maintaining a residual term that preserves expressiveness for personalization. To ensure privacy, we introduce a novel method where we apply local differential privacy to the two low-rank components of the local prompt, and global differential privacy to the global prompt. Our approach mitigates the impact of privacy noise on the model performance while balancing the tradeoff between personalization and generalization. Extensive experiments demonstrate the effectiveness of our approach over other benchmarks.

arxiv情報

著者 Linh Tran,Wei Sun,Stacy Patterson,Ana Milanova
発行日 2025-02-13 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Privacy-Preserving Personalized Federated Prompt Learning for Multimodal Large Language Models はコメントを受け付けていません

You Do Not Fully Utilize Transformer’s Representation Capacity

要約

前のトークンを単一の隠された状態に圧縮するRNNとは対照的に、トランスは前のすべてのトークンに直接注意を払うことができます。
ただし、標準変圧器は、直前のレイヤーからの表現のみを使用します。
この論文では、この設計の選択が表現崩壊を引き起こし、最適ではないパフォーマンスにつながることを示します。
この問題に対処するために、レイヤー統合メモリ(LIME)を導入します。これは、以前のレイヤーから隠された状態へのアクセスを可能にすることで、モデル全体のメモリフットプリントを保存しながら表現能力を拡大するシンプルでありながら強力なアプローチです。
さまざまなアーキテクチャとさまざまなルックアップメカニズムにわたる広範な実験を通じて、幅広いタスクに関する一貫したパフォーマンスの改善を示します。
さらに、学習した表現のダイナミクスの分析と深さ回路の探求は、LIMEがレイヤー間で情報を統合する方法を明らかにし、将来の研究のための有望な方向を指し示しています。

要約(オリジナル)

In contrast to RNNs, which compress previous tokens into a single hidden state, Transformers can attend to all previous tokens directly. However, standard Transformers only use representations from the immediately preceding layer. In this paper, we show that this design choice causes representation collapse and leads to suboptimal performance. To address this issue, we introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that preserves the model’s overall memory footprint while expanding its representational capacity by allowing access to hidden states from earlier layers. Through extensive experiments across various architectures and different lookup mechanisms, we demonstrate consistent performance improvements on a wide range of tasks. Moreover, our analysis of the learned representation dynamics and our exploration of depthwise circuits reveal how LIMe integrates information across layers, pointing to promising directions for future research.

arxiv情報

著者 Gleb Gerasimov,Yaroslav Aksenov,Nikita Balagansky,Viacheslav Sinii,Daniil Gavrilov
発行日 2025-02-13 12:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | You Do Not Fully Utilize Transformer’s Representation Capacity はコメントを受け付けていません

The Joint Entity-Relation Extraction Model Based on Span and Interactive Fusion Representation for Chinese Medical Texts with Complex Semantics

要約

共同エンティティ関連の抽出は、構造化されていないまたは半構造化されたテキストをトリプレットに変換し、大規模な知識グラフの構築を促進し、さまざまな下流のアプリケーションをサポートする上で重要なタスクです。
その重要性にもかかわらず、中国のテキスト、特に医学のような特殊なドメインにおける複雑なセマンティクスに関する研究は、依然として限られています。
このギャップに対処するために、医療テキストの複雑さをキャプチャするように設計された中国の薬物薬物相互作用データセットであるCH-DDIを紹介します。
長距離の依存関係をキャプチャする際の注意メカニズムの強度を活用すると、複雑なコンテキストセマンティック情報の抽出を強化し、エンティティの認識と関係の抽出を改善するSeaモジュールを提案します。
さらに、エンティティ認識と関係抽出の間の情報交換を促進する際の既存の方法の非効率性に対処するために、インタラクティブな融合表現モジュールを提示します。
このモジュールは、タスク間の双方向情報交換のために相互注目を集め、BILSTMを介した特徴抽出をさらに洗練します。
CH-DDIデータセットとパブリックCONLL04データセットの両方での実験結果は、モデルが強力な一般化能力を示していることを示しています。
CH-DDIデータセットでは、モデルはエンティティ認識で96.73%、関係抽出で78.43%のF1スコアを達成します。
CONLL04データセットでは、エンティティ認識精度89.54%と71.64%の関係抽出精度が得られます。

要約(オリジナル)

Joint entity-relation extraction is a critical task in transforming unstructured or semi-structured text into triplets, facilitating the construction of large-scale knowledge graphs, and supporting various downstream applications. Despite its importance, research on Chinese text, particularly with complex semantics in specialized domains like medicine, remains limited. To address this gap, we introduce the CH-DDI, a Chinese drug-drug interactions dataset designed to capture the intricacies of medical text. Leveraging the strengths of attention mechanisms in capturing long-range dependencies, we propose the SEA module, which enhances the extraction of complex contextual semantic information, thereby improving entity recognition and relation extraction. Additionally, to address the inefficiencies of existing methods in facilitating information exchange between entity recognition and relation extraction, we present an interactive fusion representation module. This module employs Cross Attention for bidirectional information exchange between the tasks and further refines feature extraction through BiLSTM. Experimental results on both our CH-DDI dataset and public CoNLL04 dataset demonstrate that our model exhibits strong generalization capabilities. On the CH-DDI dataset, our model achieves an F1-score of 96.73% for entity recognition and 78.43% for relation extraction. On the CoNLL04 dataset, it attains an entity recognition precision of 89.54% and a relation extraction accuracy of 71.64%.

arxiv情報

著者 Danni Feng,Runzhi Li,Jing Wang,Siyu Yan,Lihong Ma,Yunli Xing
発行日 2025-02-13 12:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Joint Entity-Relation Extraction Model Based on Span and Interactive Fusion Representation for Chinese Medical Texts with Complex Semantics はコメントを受け付けていません

On the Creativity of Large Language Models

要約

大規模な言語モデル(LLM)は、人工知能のいくつかの領域に革命をもたらしています。
最も注目すべきアプリケーションの1つは、詩やストーリーテリングなどの創造的な執筆です。生成された出力は、驚くべき品質です。
しかし、自然な疑問が生じます:LLMは本当に創造的と見なすことができますか?
この記事では、まず、創造性理論のレンズの下でのLLMの開発を分析し、重要なオープンな質問と課題を調査します。
特に、マーガレット・ボーデンが彼女の作品で提案したように、価値、目新しさ、驚きの次元に議論を集中させます。
次に、さまざまな古典的な視点、すなわち製品、プロセス、プレス、および人を検討します。
機械の創造性における「簡単」と「ハード」の問題のセットについて説明し、LLMSに関連してそれらを提示します。
最後に、これらのテクノロジーの社会的影響を、特に創造的産業に焦点を当て、提供される機会、それらから生じる課題、および法的および倫理的な観点からの潜在的な関連するリスクを分析します。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing several areas of Artificial Intelligence. One of the most remarkable applications is creative writing, e.g., poetry or storytelling: the generated outputs are often of astonishing quality. However, a natural question arises: can LLMs be really considered creative? In this article, we first analyze the development of LLMs under the lens of creativity theories, investigating the key open questions and challenges. In particular, we focus our discussion on the dimensions of value, novelty, and surprise as proposed by Margaret Boden in her work. Then, we consider different classic perspectives, namely product, process, press, and person. We discuss a set of “easy” and “hard” problems in machine creativity, presenting them in relation to LLMs. Finally, we examine the societal impact of these technologies with a particular focus on the creative industries, analyzing the opportunities offered, the challenges arising from them, and the potential associated risks, from both legal and ethical points of view.

arxiv情報

著者 Giorgio Franceschelli,Mirco Musolesi
発行日 2025-02-13 12:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | On the Creativity of Large Language Models はコメントを受け付けていません

ReFINE: A Reward-Based Framework for Interpretable and Nuanced Evaluation of Radiology Report Generation

要約

自動放射線レポート生成(R2GEN)は大幅に進歩しており、その複雑さのために正確な評価に課題を導入しています。
従来の指標は、硬直した単語一致に依存したり、病理学的存在にのみ焦点を当てたりすることで不足していることが多く、人間の評価との矛盾につながります。
このギャップを埋めるために、R2GEN専用に設計された自動評価メトリックであるRefineを導入します。
メトリックは、マージンベースの報酬執行損失に導かれた報酬モデルと、ユーザー定義のニーズに合わせて評価基準のカスタマイズを可能にする調整されたトレーニングデータ設計を利用しています。
ユーザー指定の基準に従ってレポートをスコアリングするだけでなく、詳細なサブスコアを提供し、解釈可能性を高め、ユーザーがレポートのさまざまな側面間で基準を調整できるようにします。
GPT-4を活用すると、使いやすいデータ生成パイプラインを設計し、2つの異なるスコアリングシステムに基づいて広範なトレーニングデータを作成できるようになりました。
これらのGPT生成レポートは、ペアリングルールを通じて受け入れられ、拒否されたサンプルとしてペアになり、LLMを高品質でレポートに高い報酬を割り当てる細かい報酬モデルに向けてLLMを訓練します。
報酬制御の損失により、このモデルは、評価基準の数に対応する複数の個々の報酬を同時に出力し、最終的な改良として合計を出力できます。
私たちの実験は、従来の指標と比較して、モデル選択における人間の判断と優れたパフォーマンスとのRefineとの相関の高まりを示しています。
特に、私たちのモデルは、各評価項目の全体的なスコアと個々のスコアの両方を提供し、解釈可能性を向上させます。
また、さまざまな評価システムで柔軟なトレーニングを実証しています。

要約(オリジナル)

Automated radiology report generation (R2Gen) has advanced significantly, introducing challenges in accurate evaluation due to its complexity. Traditional metrics often fall short by relying on rigid word-matching or focusing only on pathological entities, leading to inconsistencies with human assessments. To bridge this gap, we introduce ReFINE, an automatic evaluation metric designed specifically for R2Gen. Our metric utilizes a reward model, guided by our margin-based reward enforcement loss, along with a tailored training data design that enables customization of evaluation criteria to suit user-defined needs. It not only scores reports according to user-specified criteria but also provides detailed sub-scores, enhancing interpretability and allowing users to adjust the criteria between different aspects of reports. Leveraging GPT-4, we designed an easy-to-use data generation pipeline, enabling us to produce extensive training data based on two distinct scoring systems, each containing reports of varying quality along with corresponding scores. These GPT-generated reports are then paired as accepted and rejected samples through our pairing rule to train an LLM towards our fine-grained reward model, which assigns higher rewards to the report with high quality. Our reward-control loss enables this model to simultaneously output multiple individual rewards corresponding to the number of evaluation criteria, with their summation as our final ReFINE. Our experiments demonstrate ReFINE’s heightened correlation with human judgments and superior performance in model selection compared to traditional metrics. Notably, our model provides both an overall score and individual scores for each evaluation item, enhancing interpretability. We also demonstrate its flexible training across various evaluation systems.

arxiv情報

著者 Yunyi Liu,Yingshu Li,Zhanyu Wang,Xinyu Liang,Lingqiao Liu,Lei Wang,Luping Zhou
発行日 2025-02-13 12:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReFINE: A Reward-Based Framework for Interpretable and Nuanced Evaluation of Radiology Report Generation はコメントを受け付けていません

ACEBench: Who Wins the Match Point in Tool Usage?

要約

大規模な言語モデル(LLM)は、特に複雑な問題を効果的に解決するためにさまざまなツールと統合された場合、意思決定と推論に大きな可能性を示しています。
ただし、LLMSのツール使用を評価するための既存のベンチマークは、いくつかの制限に直面しています。(1)限られた評価シナリオ、実際のマルチターンダイアログコンテキストの評価が不足していることがよくあります。
(2)LLMSがツールを使用する方法の詳細な評価が不十分な狭い評価の次元。
(3)評価のためのLLMSまたは実際のAPI実行への依存。これにより、重要なオーバーヘッドが導入されます。
これらの課題に対処するために、LLMSでのツールの使用を評価するための包括的なベンチマークであるAcebenchを紹介します。
Acebenchは、評価方法論に基づいて、データを3つの主要なタイプに分類します:通常、特別、およびエージェント。
「通常」は、基本的なシナリオでツールの使用を評価します。
「特別」は、曖昧または不完全な命令で状況でツールの使用を評価します。
「エージェント」は、マルチエージェントインタラクションを通じてツールの使用を評価し、実際の多ターンダイアログをシミュレートします。
Acebenchを使用して広範な実験を実施し、さまざまなLLMを詳細に分析し、さまざまなデータ型にわたるエラー原因のより詳細な調査を提供しました。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated significant potential in decision-making and reasoning, particularly when integrated with various tools to effectively solve complex problems. However, existing benchmarks for evaluating LLMs’ tool usage face several limitations: (1) limited evaluation scenarios, often lacking assessments in real multi-turn dialogue contexts; (2) narrow evaluation dimensions, with insufficient detailed assessments of how LLMs use tools; and (3) reliance on LLMs or real API executions for evaluation, which introduces significant overhead. To address these challenges, we introduce ACEBench, a comprehensive benchmark for assessing tool usage in LLMs. ACEBench categorizes data into three primary types based on evaluation methodology: Normal, Special, and Agent. ‘Normal’ evaluates tool usage in basic scenarios; ‘Special’ evaluates tool usage in situations with ambiguous or incomplete instructions; ‘Agent’ evaluates tool usage through multi-agent interactions to simulate real-world, multi-turn dialogues. We conducted extensive experiments using ACEBench, analyzing various LLMs in-depth and providing a more granular examination of error causes across different data types.

arxiv情報

著者 Chen Chen,Xinlong Hao,Weiwen Liu,Xu Huang,Xingshan Zeng,Shuai Yu,Dexun Li,Shuai Wang,Weinan Gan,Yuefeng Huang,Wulong Liu,Xinzhi Wang,Defu Lian,Baoqun Yin,Yasheng Wang,Wu Liu
発行日 2025-02-13 12:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ACEBench: Who Wins the Match Point in Tool Usage? はコメントを受け付けていません

SparQLe: Speech Queries to Text Translation Through LLMs

要約

大規模な言語モデル(LLMS)の影響力が高まっているため、音声表現を統合して、よりシームレスなマルチモーダル処理と音声理解を可能にすることに関心が高まっています。
この研究では、スピーチツーテキスト翻訳のために命令チューニングLLMと組み合わせて自己監視された音声表現を活用する新しいアプローチを紹介します。
提案されたアプローチは、モダリティアダプターを活用して、抽出された音声機能を英語言語データを使用して命令チューニングLLMと整列させます。
我々の実験は、この方法が入力音声の意味的な内容を効果的に保持し、自己教師の音声モデルと命令チューニングLLMとの間の効果的な橋渡しとして機能し、さまざまな音声理解アプリケーションに有望なソリューションを提供することを示しています。

要約(オリジナル)

With the growing influence of Large Language Models (LLMs), there is increasing interest in integrating speech representations with them to enable more seamless multi-modal processing and speech understanding. This study introduces a novel approach that leverages self-supervised speech representations in combination with instruction-tuned LLMs for speech-to-text translation. The proposed approach leverages a modality adapter to align extracted speech features with instruction-tuned LLMs using English-language data. Our experiments demonstrate that this method effectively preserves the semantic content of the input speech and serves as an effective bridge between self-supervised speech models and instruction-tuned LLMs, offering a promising solution for various speech understanding applications.

arxiv情報

著者 Amirbek Djanibekov,Hanan Aldarmaki
発行日 2025-02-13 12:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SparQLe: Speech Queries to Text Translation Through LLMs はコメントを受け付けていません

Enhancing Large Language Model Performance with Gradient-Based Parameter Selection

要約

大規模な言語モデル(LLM)は、多くの研究分野に革命をもたらしました。
LLMSの機能を強化するために微調整が不可欠であることはよく知られていますが、既存の研究は、微調整プロセスに潜在的な冗長性があることを示唆しているため、パラメーターのサブセットのみを更新することを提案しています。
ただし、これらの方法は、タスク固有の情報を活用して、トレーニング中に重要なパラメーターを特定することはできません。
グラデーションが本質的にタスク固有のデータに関する情報が含まれているという洞察に基づいて、勾配情報に基づいてトレーニング中にパラメーターを選択的に更新する方法である勾配マスクチューニング(GMT)を提案します。
具体的には、勾配の絶対値を計算し、比較的小さいマグニチュードのあるものにマスキングを適用します。
さまざまなタスクにわたる経験的な結果は、GMTが従来の微調整方法よりも優れているだけでなく、LLMパフォーマンスの上限を高めることを示しています。
さらなる分析は、GMTがマスク比に対する無感覚性を示し、バニラSFTに匹敵する計算効率を持っていることを示しています。

要約(オリジナル)

Large language models (LLMs) have revolutionized lots of fields of research. Although it is well-known that fine-tuning is essential for enhancing the capabilities of LLMs, existing research suggests that there is potential redundancy in the fine-tuning process and therefore proposes to update only a subset of parameters. However, these methods fail to leverage the task-specific information to identify important parameters during training. Based on the insight that gradients inherently contain information on task-specific data, we propose Gradient-Mask Tuning (GMT), a method that selectively updates parameters during training based on their gradient information. Specifically, we compute the absolute values of the gradients and apply masking to those with relatively smaller magnitudes. Our empirical results across various tasks demonstrate that GMT not only outperforms traditional fine-tuning methods but also elevates the upper limits of LLM performance. Further analysis indicates that GMT exhibits insensitivity to mask ratio and possesses computational efficiency comparable to vanilla SFT.

arxiv情報

著者 Haoling Li,Xin Zhang,Xiao Liu,Yeyun Gong,Yifan Wang,Qi Chen,Peng Cheng
発行日 2025-02-13 13:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing Large Language Model Performance with Gradient-Based Parameter Selection はコメントを受け付けていません

When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models

要約

現代の大規模な言語モデル(LLM)は、多くの言語タスクで人間のような能力を示しており、LLMと人間の言語処理を比較することに関心を呼び起こしています。
この論文では、人間にとって挑戦的であることで有名なGarden-Path Constructionを使用して、文の理解タスクに関する2つの詳細な比較を実施しています。
心理言語学の研究に基づいて、ガーデンパスの文が難しい理由に関する仮説を定式化し、理解の質問を使用して、人間の参加者とLLMの大規模なスイートに関するこれらの仮説をテストします。
私たちの発見は、LLMと人間の両方が特定の構文の複雑さと格闘しており、一部のモデルは人間の理解と高い相関を示していることを明らかにしています。
調査結果を補完するために、庭のパス構造のLLMの理解を言い換え、テキストからイメージまでの生成タスクをテストし、結果が文の理解の疑問の結果を反映していることを発見し、これらの構造のLLM理解に関する調査結果をさらに検証します。

要約(オリジナル)

Modern Large Language Models (LLMs) have shown human-like abilities in many language tasks, sparking interest in comparing LLMs’ and humans’ language processing. In this paper, we conduct a detailed comparison of the two on a sentence comprehension task using garden-path constructions, which are notoriously challenging for humans. Based on psycholinguistic research, we formulate hypotheses on why garden-path sentences are hard, and test these hypotheses on human participants and a large suite of LLMs using comprehension questions. Our findings reveal that both LLMs and humans struggle with specific syntactic complexities, with some models showing high correlation with human comprehension. To complement our findings, we test LLM comprehension of garden-path constructions with paraphrasing and text-to-image generation tasks, and find that the results mirror the sentence comprehension question results, further validating our findings on LLM understanding of these constructions.

arxiv情報

著者 Samuel Joseph Amouyal,Aya Meltzer-Asscher,Jonathan Berant
発行日 2025-02-13 13:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models はコメントを受け付けていません

DeepThink: Aligning Language Models with Domain-Specific User Intents

要約

合成された命令を使用した監視された微調整は、LLMをドメイン固有のQAタスクに適応させるための一般的な慣行です。
ただし、合成された指示は、実際のユーザーの質問や予想される回答から逸脱しています。
この研究では、高品質の命令を生成するためにDeepHinkと呼ばれる新しいフレームワークを提案しています。
DeepHinkは、最初にいくつかの種子の質問を生成して、実際のユーザーの質問を模倣し、会話をシミュレートして隠されたユーザーのニーズを明らかにし、会話のコンテキストと検索されたドキュメントで回答を改良して、より包括的な回答を得ます。
実験は、DeepHinkが、関連性、完全性、明確さ、精度、実用性などのディメンション全体にわたって広告ドメインで設定されたRealユーザーテストのGPT-4-ターボ+RAGベースのアシスタントと比較して、7.92%の平均パフォーマンス改善を達成することを示しています。

要約(オリジナル)

Supervised fine-tuning with synthesized instructions has been a common practice for adapting LLMs to domain-specific QA tasks. However, the synthesized instructions deviate from real user questions and expected answers. This study proposes a novel framework called DeepThink to generate high-quality instructions. DeepThink first generates a few seed questions to mimic actual user questions, simulates conversations to uncover the hidden user needs, and refines the answer by conversational contexts and the retrieved documents for more comprehensive answers. Experiments demonstrate that DeepThink achieves an average performance improvement of 7.92% compared to a GPT-4-turbo+RAG-based assistant on the real user test set in the advertising domain across dimensions such as relevance, completeness, clarity, accuracy, and actionability.

arxiv情報

著者 Yang Li,Mingxuan Luo,Yeyun Gong,Chen Lin,Jian Jiao,Yi Liu,Kaili Huang
発行日 2025-02-13 13:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DeepThink: Aligning Language Models with Domain-Specific User Intents はコメントを受け付けていません