Re-ReST: Reflection-Reinforced Self-Training for Language Agents

要約

推論的アクションの軌跡を備えた微調整言語エージェントは効果的ですが、人間の注釈またはより強力なモデルからこれらの軌跡を取得することは、費用がかかり、時には非現実的です。
この論文では、言語エージェントでの自己訓練の使用を調査します。言語エージェントは、エージェント自体から監督を生み出し、人間またはより強力なモデルデモンストレーションに依存せずに有望な代替案を提供します。
ただし、セルフトレーニングには、高品質のモデル生成サンプルが必要であり、言語エージェントのタスクに挑戦するのが難しいです。
これに対処するために、\ textit {refector}を使用して自己トレーニング中に低品質の生成サンプルを改良する反射強化自己訓練(再レスト)を提示します。
リフレクターは、エージェントの出力と外部環境(コード生成の単体テスト結果など)からのフィードバックを取得して、改善されたサンプルを生成します。
この手法は、劣ったサンプルの品質を向上させ、高品質のサンプルで自己トレーニングデータセットを効率的に濃縮します。
マルチホップの質問応答、連続的な意思決定、コード生成、視覚的質問の回答、テキストへのイメージからの生成など、タスク全体でオープンソース言語エージェントに関する広範な実験を実施します。
結果は、言語エージェントのタスクにおける自己訓練と再レストの有効性を示しており、自己訓練はベースラインをHotPotQAで7.6 \%、Alfworldで28.4 \%で改善し、再レストをそれぞれ2.0 \%と14.1 \%増加させます。
また、私たちの研究は、リフレクターを使用して自己訓練用の高品質のサンプルを生成する効率を確認しています。
さらに、以前の反射作業の制限に対処するために、根真実のフィードバックなしで推論中に反射を採用する方法を実証します。
私たちのコードはhttps://github.com/pluslabnlp/re-restでリリースされています。

要約(オリジナル)

Finetuning language agents with reasoning-action trajectories is effective, but obtaining these trajectories from human annotations or stronger models is costly and sometimes impractical. In this paper, we investigate the use of self-training in language agents, which can generate supervision from the agent itself, offering a promising alternative without relying on human or stronger model demonstrations. Self-training, however, requires high-quality model-generated samples, which are hard to obtain for challenging language agent tasks. To address this, we present Reflection-Reinforced Self-Training (Re-ReST), which uses a \textit{reflector} to refine low-quality generated samples during self-training. The reflector takes the agent’s output and feedback from an external environment (e.g., unit test results in code generation) to produce improved samples. This technique enhances the quality of inferior samples and efficiently enriches the self-training dataset with higher-quality samples. We conduct extensive experiments on open-source language agents across tasks, including multi-hop question answering, sequential decision-making, code generation, visual question answering, and text-to-image generation. The results demonstrate the effectiveness of self-training and Re-ReST in language agent tasks, with self-training improving baselines by 7.6\% on HotpotQA and 28.4\% on AlfWorld, and Re-ReST further boosting performance by 2.0\% and 14.1\%, respectively. Our studies also confirm the efficiency of using a reflector to generate high-quality samples for self-training. Moreover, we demonstrate a method to employ reflection during inference without ground-truth feedback, addressing the limitation of previous reflection work. Our code is released at https://github.com/PlusLabNLP/Re-ReST.

arxiv情報

著者 Zi-Yi Dou,Cheng-Fu Yang,Xueqing Wu,Kai-Wei Chang,Nanyun Peng
発行日 2025-05-07 05:01:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Re-ReST: Reflection-Reinforced Self-Training for Language Agents はコメントを受け付けていません

Bringing legal knowledge to the public by constructing a legal question bank using large-scale pre-trained language model

要約

法的情報へのアクセスは、正義へのアクセスの基本です。
しかし、アクセシビリティとは、法的文書を一般に公開するだけでなく、法的情報を理解できるようにすることを指します。
法的情報を一般に提起する際の厄介な問題は、法律や判断などの法律や判断などの正式な法的文書を、法的教育を受けていない人々に対して簡単に移動できる知識を簡単に移動できるようにする方法です。
この研究では、レイパーソンに法的知識をもたらすための3段階のアプローチを策定し、航行可能性と包括性の問題に取り組みます。
まず、選択した法律のセクションをスニペット(クリックページと呼ばれる)に翻訳します。それぞれが、レイパーソンの用語で特定の技術的法的概念を説明することに焦点を当てた小さな記事です。
第二に、私たちは法的質問銀行(LQB)を構築します。これは、クリックページに回答が見られる法的質問のコレクションです。
第三に、インタラクティブクリック推奨(CREC)を設計します。
法的なソリューションを必要とする法的状況に関するユーザーの口頭での説明を考えると、CRECはユーザーの入力を解釈し、特定の法的状況に関連する可能性が最も高い質問銀行からの質問を最終順序付けし、関連する法的知識が見つかる可能性のあるClicページを推奨します。
この論文では、LQBを作成する技術的側面に焦点を当てています。
GPT-3などの大規模な事前訓練を受けた言語モデルを使用して、法的な質問を生成する方法を示します。
マシンで生成された質問(MGQ)を、人間が組み合わせた質問(HCQ)と比較し、MGQはよりスケーラブルで費用対効果が高く、より多様化されているが、HCQはより正確であることがわかります。
また、CRECのプロトタイプを表示し、3段階のアプローチがどのように関連する法的知識を効果的にもたらすかを例で説明します。

要約(オリジナル)

Access to legal information is fundamental to access to justice. Yet accessibility refers not only to making legal documents available to the public, but also rendering legal information comprehensible to them. A vexing problem in bringing legal information to the public is how to turn formal legal documents such as legislation and judgments, which are often highly technical, to easily navigable and comprehensible knowledge to those without legal education. In this study, we formulate a three-step approach for bringing legal knowledge to laypersons, tackling the issues of navigability and comprehensibility. First, we translate selected sections of the law into snippets (called CLIC-pages), each being a small piece of article that focuses on explaining certain technical legal concept in layperson’s terms. Second, we construct a Legal Question Bank (LQB), which is a collection of legal questions whose answers can be found in the CLIC-pages. Third, we design an interactive CLIC Recommender (CRec). Given a user’s verbal description of a legal situation that requires a legal solution, CRec interprets the user’s input and shortlists questions from the question bank that are most likely relevant to the given legal situation and recommends their corresponding CLIC pages where relevant legal knowledge can be found. In this paper we focus on the technical aspects of creating an LQB. We show how large-scale pre-trained language models, such as GPT-3, can be used to generate legal questions. We compare machine-generated questions (MGQs) against human-composed questions (HCQs) and find that MGQs are more scalable, cost-effective, and more diversified, while HCQs are more precise. We also show a prototype of CRec and illustrate through an example how our 3-step approach effectively brings relevant legal knowledge to the public.

arxiv情報

著者 Mingruo Yuan,Ben Kao,Tien-Hsuan Wu,Michael M. K. Cheung,Henry W. H. Chan,Anne S. Y. Cheung,Felix W. H. Chan,Yongxi Chen
発行日 2025-05-07 05:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Bringing legal knowledge to the public by constructing a legal question bank using large-scale pre-trained language model はコメントを受け付けていません

Enhancing Granular Sentiment Classification with Chain-of-Thought Prompting in Large Language Models

要約

App Storeレビューでの粒状感情分類の精度を向上させるために、大規模な言語モデル(LLMS)を使用して、チェーンオブ思考(COT)の使用を調査します。
従来の数値および極性ベースの評価は、ユーザーフィードバックに組み込まれた微妙な感情をキャプチャできないことがよくあります。
各メソッドの予測を人間の判断と比較することにより、2000年のAmazonアプリレビューのCOTプロンプトと単純なプロンプトの有効性を評価しました。
COTは、センチメント分析のパフォーマンスを向上させる際の明示的な推論の利点を強調する84%から93%に分類精度を改善しました。

要約(オリジナル)

We explore the use of Chain-of-Thought (CoT) prompting with large language models (LLMs) to improve the accuracy of granular sentiment categorization in app store reviews. Traditional numeric and polarity-based ratings often fail to capture the nuanced sentiment embedded in user feedback. We evaluated the effectiveness of CoT prompting versus simple prompting on 2000 Amazon app reviews by comparing each method’s predictions to human judgements. CoT prompting improved classification accuracy from 84% to 93% highlighting the benefit of explicit reasoning in enhancing sentiment analysis performance.

arxiv情報

著者 Vihaan Miriyala,Smrithi Bukkapatnam,Lavanya Prahallad
発行日 2025-05-07 05:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Enhancing Granular Sentiment Classification with Chain-of-Thought Prompting in Large Language Models はコメントを受け付けていません

Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety

要約

既存の大規模な言語モデル(LLMS)は迅速に進歩しており、画像生成タスクで優れた結果を生み出していますが、コンテンツの安全チェックは迅速な脱獄に対して脆弱なままです。
ChatGpt、Metaai、Grokなどのプラットフォームでの予備的なテストを通じて、短く、自然なプロンプトでさえ、偽造文書の現実的な描写から公共人物の操作画像に至るまで、妥協する画像の生成につながる可能性があることが観察されました。
画像生成におけるLLMの脆弱性を評価するための動的でスケーラブルなベンチマークデータセットであるキャンバス(UTCベンチマーク; UTCB)のマスキングを導入します。
私たちの方法論は、構造化された迅速なエンジニアリング、多言語の難読化(Zulu、Gaelic、Base64など)、およびGROQホストのLLAMA-3を使用した評価を組み合わせています。
パイプラインは、ゼロショットとフォールバックの両方の両方の両方の両方をサポートします。
すべての世代は豊富なメタデータで保管され、青銅(非検証)、銀(LLM支援検証)、および金(手動で検証された)層にキュレーションされています。
UTCBは、新しいデータソース、プロンプトテンプレート、およびモデルの動作を使用して、時間の経過とともに進化するように設計されています。
警告:このホワイトペーパーには、モデルの安全性をテストするために設計された敵対的な入力の視覚的な例が含まれています。
責任ある開示を確保するために、すべての出力が編集されています。

要約(オリジナル)

Existing large language models (LLMs) are advancing rapidly and produce outstanding results in image generation tasks, yet their content safety checks remain vulnerable to prompt-based jailbreaks. Through preliminary testing on platforms such as ChatGPT, MetaAI, and Grok, we observed that even short, natural prompts could lead to the generation of compromising images ranging from realistic depictions of forged documents to manipulated images of public figures. We introduce Unmasking the Canvas (UTC Benchmark; UTCB), a dynamic and scalable benchmark dataset to evaluate LLM vulnerability in image generation. Our methodology combines structured prompt engineering, multilingual obfuscation (e.g., Zulu, Gaelic, Base64), and evaluation using Groq-hosted LLaMA-3. The pipeline supports both zero-shot and fallback prompting strategies, risk scoring, and automated tagging. All generations are stored with rich metadata and curated into Bronze (non-verified), Silver (LLM-aided verification), and Gold (manually verified) tiers. UTCB is designed to evolve over time with new data sources, prompt templates, and model behaviors. Warning: This paper includes visual examples of adversarial inputs designed to test model safety. All outputs have been redacted to ensure responsible disclosure.

arxiv情報

著者 Variath Madhupal Gautham Nair,Vishal Varma Dantuluri
発行日 2025-05-07 05:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety はコメントを受け付けていません

Can Language Models Understand Social Behavior in Clinical Conversations?

要約

プロバイダーとその患者間の効果的なコミュニケーションは、健康とケアの結果に影響します。
このような会話の有効性は、臨床情報の交換だけでなく、さまざまな対人行動にもリンクされています。
一般に社会的信号と呼ばれ、それはしばしば非言語的手がかりを通して伝えられ、患者プロバイダーの関係の質を形作ります。
大規模な言語モデル(LLMS)の最近の進歩は、テキスト情報のみを分析する場合でも、感情的および社会的行動を推測する能力の増加を実証しています。
患者プロバイダーの会話の転写など、臨床環境でも自動化が増加するにつれて、LLMがこれらの相互作用から社会的行動を自動的に分析および抽出する可能性が高まっています。
臨床対話で社会的信号を追跡する際にLLMSの基礎能力を調査するために、タスク固有のプロンプトを設計し、複数のアーキテクチャにわたってモデルパフォーマンスを評価し、プロバイダーの支配、患者の温かさなどの20の異なるソーシャルシグナルにまたがる非常に不均衡な注釈付きデータセットを使用してスタイルをプロンプトしました。
モデル構成と臨床コンテキストのさらなる分析により、ヘルスケア設定での社会的信号処理タスクのLLMパフォーマンスを向上させるための洞察が得られます。

要約(オリジナル)

Effective communication between providers and their patients influences health and care outcomes. The effectiveness of such conversations has been linked not only to the exchange of clinical information, but also to a range of interpersonal behaviors; commonly referred to as social signals, which are often conveyed through non-verbal cues and shape the quality of the patient-provider relationship. Recent advances in large language models (LLMs) have demonstrated an increasing ability to infer emotional and social behaviors even when analyzing only textual information. As automation increases also in clinical settings, such as for transcription of patient-provider conversations, there is growing potential for LLMs to automatically analyze and extract social behaviors from these interactions. To explore the foundational capabilities of LLMs in tracking social signals in clinical dialogue, we designed task-specific prompts and evaluated model performance across multiple architectures and prompting styles using a highly imbalanced, annotated dataset spanning 20 distinct social signals such as provider dominance, patient warmth, etc. We present the first system capable of tracking all these 20 coded signals, and uncover patterns in LLM behavior. Further analysis of model configurations and clinical context provides insights for enhancing LLM performance on social signal processing tasks in healthcare settings.

arxiv情報

著者 Manas Satish Bedmutha,Feng Chen,Andrea Hartzler,Trevor Cohen,Nadir Weibel
発行日 2025-05-07 06:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC, H.1.2 | Can Language Models Understand Social Behavior in Clinical Conversations? はコメントを受け付けていません

Large Language Models are often politically extreme, usually ideologically inconsistent, and persuasive even in informational contexts

要約

大規模な言語モデル(LLM)は変革的な技術であり、人々が情報を取得し、世界と対話する方法を根本的に変えます。
人々が膨大な種類のタスクにますます依存するようになるにつれて、これらのモデル、特に政治的バイアスについてこれらのモデルを調べるために、多くの場合、それらが小さいことを発見するために、多くの学術研究が開発されました。
私たちはこの一般的な知恵に挑戦します。
第一に、31のLLMを議員、裁判官、および米国の有権者の全国的に代表的なサンプルと比較することにより、LLMの全体的な全体的な全体的な党派の好みは、中程度の有権者のように、特定のトピックに関する極端な見解を相殺することの純結果であることを示します。
第二に、ランダム化された実験では、LLMが情報を求める文脈においてさえ、LLMが政治的説得力に彼らの好みを公布することができることを示します。LLMチャットボットで政治的問題を議論するために無作為化された有権者は、そのチャットボットと同じ好みを表現する可能性が5パーセントポイントよりも高い。
期待に反して、これらの説得力のある影響は、LLMS、ニュース消費、または政治への関心に精通して緩和されていません。
LLMは、特に民間企業または政府によって管理されているものであり、政治的影響力の強力で標的を絞ったベクターになる可能性があります。

要約(オリジナル)

Large Language Models (LLMs) are a transformational technology, fundamentally changing how people obtain information and interact with the world. As people become increasingly reliant on them for an enormous variety of tasks, a body of academic research has developed to examine these models for inherent biases, especially political biases, often finding them small. We challenge this prevailing wisdom. First, by comparing 31 LLMs to legislators, judges, and a nationally representative sample of U.S. voters, we show that LLMs’ apparently small overall partisan preference is the net result of offsetting extreme views on specific topics, much like moderate voters. Second, in a randomized experiment, we show that LLMs can promulgate their preferences into political persuasiveness even in information-seeking contexts: voters randomized to discuss political issues with an LLM chatbot are as much as 5 percentage points more likely to express the same preferences as that chatbot. Contrary to expectations, these persuasive effects are not moderated by familiarity with LLMs, news consumption, or interest in politics. LLMs, especially those controlled by private companies or governments, may become a powerful and targeted vector for political influence.

arxiv情報

著者 Nouar Aldahoul,Hazem Ibrahim,Matteo Varvello,Aaron Kaufman,Talal Rahwan,Yasir Zaki
発行日 2025-05-07 06:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Large Language Models are often politically extreme, usually ideologically inconsistent, and persuasive even in informational contexts はコメントを受け付けていません

RaDialog: A Large Vision-Language Model for Radiology Report Generation and Conversational Assistance

要約

特定の医療イメージの臨床的に修正された放射線レポートを生成および議論することができる会話型AIツールは、放射線学を変換する可能性があります。
このような人間のループ放射線アシスタントは、共同診断プロセスを促進する可能性があり、時間を節約し、レポートの質を向上させることができます。
この目標に向けて、放射線学レポート生成とインタラクティブなダイアログのための最初の徹底的に評価され、公開されている大規模な視覚言語モデルであるRadialogを紹介します。
Radialogは、視覚的な画像機能と構造化された病理所見を大規模な言語モデル(LLM)と効果的に統合し、同時にパラメーター効率の高い微調整を使用して特殊なドメインに適応させます。
基礎となるLLMの会話能力を維持するために、胸部X線放射線タスクの包括的な、半自動的にラベル付けされた画像接地の指示データセットを提案します。
このデータセットでトレーニングすることにより、この方法はレポート生成における最先端の臨床的正しさを達成し、レポートの修正や質問への回答などのインタラクティブなタスクで印象的な能力を示し、臨床対話システムへの基礎的なステップとして機能します。
私たちのコードは、github:https://github.com/chantalmp/radialogで入手できます。

要約(オリジナル)

Conversational AI tools that can generate and discuss clinically correct radiology reports for a given medical image have the potential to transform radiology. Such a human-in-the-loop radiology assistant could facilitate a collaborative diagnostic process, thus saving time and improving the quality of reports. Towards this goal, we introduce RaDialog, the first thoroughly evaluated and publicly available large vision-language model for radiology report generation and interactive dialog. RaDialog effectively integrates visual image features and structured pathology findings with a large language model (LLM) while simultaneously adapting it to a specialized domain using parameter-efficient fine-tuning. To keep the conversational abilities of the underlying LLM, we propose a comprehensive, semi-automatically labeled, image-grounded instruct dataset for chest X-ray radiology tasks. By training with this dataset, our method achieves state-of-the-art clinical correctness in report generation and shows impressive abilities in interactive tasks such as correcting reports and answering questions, serving as a foundational step toward clinical dialog systems. Our code is available on github: https://github.com/ChantalMP/RaDialog.

arxiv情報

著者 Chantal Pellegrini,Ege Özsoy,Benjamin Busam,Nassir Navab,Matthias Keicher
発行日 2025-05-07 07:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | RaDialog: A Large Vision-Language Model for Radiology Report Generation and Conversational Assistance はコメントを受け付けていません

VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning

要約

3つの異なる画像シナリオ、シングルパッチ画像、自動的にキーフレーム抽出されたクリップ、および手動でセグメント化されたビデオ病理画像を統合する計算病理学の最初の大きなマルチモーダルモデル(LMM)であるVideopath-llavaを提示して、病理学者の自然な診断プロセスを模倣します。
詳細な組織学的記述を生成し、決定的なサインアウト診断に至ることにより、Videopath-llavaは診断推論を備えた視覚的な物語を橋渡しします。
私たちのアプローチの中心は、YouTube上の教育組織病理学ビデオから供給された4278のビデオおよび診断固有の考え方の指導ペアで構成されるVideopath-Instructデータセットです。
高品質のデータは診断推論を強化するために重要ですが、その作成は時間を集中しており、ボリュームが制限されています。
この課題を克服するために、既存のシングルイメージ命令データセットから知識を転送して、弱く注釈付きのキーフレーム抽出されたクリップでトレーニングし、その後、手動でセグメント化されたビデオで微調整します。
Videopath-Llavaは、病理学的なビデオ分析における新しいベンチマークを確立し、統合された視覚および診断の推論を通じて臨床的意思決定をサポートする将来のAIシステムの有望な基盤を提供します。
当社のコード、データ、モデルは、https://github.com/trinhvg/videopath-llavaで公開されています。

要約(オリジナル)

We present VideoPath-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, single patch images, automatically keyframe-extracted clips, and manually segmented video pathology images, to mimic the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, VideoPath-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the VideoPath-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. VideoPath-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at https://github.com/trinhvg/VideoPath-LLaVA.

arxiv情報

著者 Trinh T. L. Vuong,Jin Tae Kwak
発行日 2025-05-07 07:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning はコメントを受け付けていません

Liger: Linearizing Large Language Models to Gated Recurrent Structures

要約

線形再発モデリングを備えたトランスは、線形時間トレーニングと一定のメモリ推論を提供します。
実証された効率とパフォーマンスにもかかわらず、そのような非標準的なアーキテクチャをゼロから前から取ることは、費用がかかり、危険なままです。
大規模な言語モデル(LLMS)の線形化は、前処理された標準モデルを線形再発構造に変換し、より効率的な展開を可能にします。
ただし、現在の線形化方法では、通常、広範な微調整を必要とする追加の特徴マップモジュールを導入し、最先端の線形再発モデルで使用されるゲーティングメカニズムを見落としています。
これらの問題に対処するために、このペーパーでは、LLMSを線形化するための略奪的な再発構造の略であるライガーを紹介します。
Ligerは、追加のパラメーターを追加せずに、前処理されたLLMをゲートの線形再発モデルに変換するための新しいアプローチです。
事前に抑制されたキーマトリックスの重みを再利用して、多様なゲーティングメカニズムを構築し、さまざまなゲートの再発構造の形成を促進しながら、追加のコンポーネントをゼロから訓練する必要性を避けます。
Ligerは、低ランク適応(LORA)を使用した軽量の微調整を使用して、線形化されたゲート再発モデルの性能を回復し、元のLLMのパフォーマンスを復元します。
さらに、Ligerの注意を紹介します。これは、線形化プロセス中に0.02 \%のトレーニング前トークンで変圧器ベースのLLMの93%を大幅に回復し、1Bから8Bのパラメーターの範囲のモデルで検証されている複数のベンチマークにわたって競争力のある結果を達成します。
コードはhttps://github.com/opensparsellms/linearizationで入手できます。

要約(オリジナル)

Transformers with linear recurrent modeling offer linear-time training and constant-memory inference. Despite their demonstrated efficiency and performance, pretraining such non-standard architectures from scratch remains costly and risky. The linearization of large language models (LLMs) transforms pretrained standard models into linear recurrent structures, enabling more efficient deployment. However, current linearization methods typically introduce additional feature map modules that require extensive fine-tuning and overlook the gating mechanisms used in state-of-the-art linear recurrent models. To address these issues, this paper presents Liger, short for Linearizing LLMs to gated recurrent structures. Liger is a novel approach for converting pretrained LLMs into gated linear recurrent models without adding extra parameters. It repurposes the pretrained key matrix weights to construct diverse gating mechanisms, facilitating the formation of various gated recurrent structures while avoiding the need to train additional components from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA), Liger restores the performance of the linearized gated recurrent models to match that of the original LLMs. Additionally, we introduce Liger Attention, an intra-layer hybrid attention mechanism, which significantly recovers 93\% of the Transformer-based LLM at 0.02\% pre-training tokens during the linearization process, achieving competitive results across multiple benchmarks, as validated on models ranging from 1B to 8B parameters. Code is available at https://github.com/OpenSparseLLMs/Linearization.

arxiv情報

著者 Disen Lan,Weigao Sun,Jiaxi Hu,Jusen Du,Yu Cheng
発行日 2025-05-07 07:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Liger: Linearizing Large Language Models to Gated Recurrent Structures はコメントを受け付けていません

LLM-Independent Adaptive RAG: Let the Question Speak for Itself

要約

大規模な言語モデル〜(LLMS)は幻覚を起こしやすく、検索された高等発電(RAG)はこれを緩和するのに役立ちますが、誤った情報を危険にさらしながら高い計算コストで役立ちます。
適応的検索は、必要な場合にのみ取得することを目的としていますが、既存のアプローチはLLMベースの不確実性推定に依存しています。
この研究では、外部情報に基づいて軽量LLMに依存しない適応検索方法を紹介します。
7つのグループとそのハイブリッドの組み合わせに編成された27の機能を調査しました。
これらの方法を6 QAデータセットで評価し、QAのパフォーマンスと効率を評価しました。
結果は、私たちのアプローチが複雑なLLMベースの方法のパフォーマンスと一致しながら、有意な効率の向上を達成し、適応検索の外部情報の可能性を示していることを示しています。

要約(オリジナル)

Large Language Models~(LLMs) are prone to hallucinations, and Retrieval-Augmented Generation (RAG) helps mitigate this, but at a high computational cost while risking misinformation. Adaptive retrieval aims to retrieve only when necessary, but existing approaches rely on LLM-based uncertainty estimation, which remain inefficient and impractical. In this study, we introduce lightweight LLM-independent adaptive retrieval methods based on external information. We investigated 27 features, organized into 7 groups, and their hybrid combinations. We evaluated these methods on 6 QA datasets, assessing the QA performance and efficiency. The results show that our approach matches the performance of complex LLM-based methods while achieving significant efficiency gains, demonstrating the potential of external information for adaptive retrieval.

arxiv情報

著者 Maria Marina,Nikolay Ivanov,Sergey Pletenev,Mikhail Salnikov,Daria Galimzianova,Nikita Krayko,Vasily Konovalov,Alexander Panchenko,Viktor Moskvoretskii
発行日 2025-05-07 08:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LLM-Independent Adaptive RAG: Let the Question Speak for Itself はコメントを受け付けていません