OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions

要約

オープンセマンティックマッピング(OSM)は、セマンティックセグメンテーションとスラムテクニックを組み合わせたロボット認識の重要なテクノロジーです。
このペーパーでは、OSMAベンチ(オープンセマンティックマッピングベンチマーク)と呼ばれるOSMソリューションを評価するための動的に構成可能で高度に自動化されたLLM/LVLM駆動パイプラインを紹介します。
この研究は、さまざまな屋内照明条件の下で最先端のセマンティックマッピングアルゴリズムの評価に焦点を当てています。これは、屋内環境での重大な課題です。
シミュレートされたRGB-Dシーケンスとグラウンドトゥルース3D再構成を備えた新しいデータセットを導入し、さまざまな照明条件にわたるマッピングパフォーマンスの厳密な分析を促進します。
Conceptgraphs、BBQ、Opensceneなどの主要なモデルに関する実験を通じて、オブジェクト認識とセグメンテーションの意味的な忠実度を評価します。
さらに、セマンティック構造を解釈するモデルの能力を分析するシーングラフ評価方法を紹介します。
この結果は、これらのモデルの堅牢性に関する洞察を提供し、回復力のある適応可能なロボットシステムを開発するための将来の研究の方向性を形成します。
私たちのコードは、https://be2rlab.github.io/osma-bench/で入手できます。

要約(オリジナル)

Open Semantic Mapping (OSM) is a key technology in robotic perception, combining semantic segmentation and SLAM techniques. This paper introduces a dynamically configurable and highly automated LLM/LVLM-powered pipeline for evaluating OSM solutions called OSMa-Bench (Open Semantic Mapping Benchmark). The study focuses on evaluating state-of-the-art semantic mapping algorithms under varying indoor lighting conditions, a critical challenge in indoor environments. We introduce a novel dataset with simulated RGB-D sequences and ground truth 3D reconstructions, facilitating the rigorous analysis of mapping performance across different lighting conditions. Through experiments on leading models such as ConceptGraphs, BBQ and OpenScene, we evaluate the semantic fidelity of object recognition and segmentation. Additionally, we introduce a Scene Graph evaluation method to analyze the ability of models to interpret semantic structure. The results provide insights into the robustness of these models, forming future research directions for developing resilient and adaptable robotic systems. Our code is available at https://be2rlab.github.io/OSMa-Bench/.

arxiv情報

著者 Maxim Popov,Regina Kurkova,Mikhail Iumanov,Jaafar Mahmoud,Sergey Kolyubin
発行日 2025-03-13 13:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions はコメントを受け付けていません

Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing

要約

知識トレース(KT)は、学生の学習の進捗状況を長期にわたってモデル化するための一般的なアプローチであり、よりパーソナライズされた適応学習を可能にすることができます。
ただし、既存のKTアプローチは2つの主要な制限に直面しています。(1)質問の専門家が定義された知識概念(KCS)に大きく依存しており、これは時間がかかり、エラーが発生しやすい。
(2)KTメソッドは、両方の質問と指定されたKCのセマンティクスを見落とす傾向があります。
この作業では、これらの課題に対処し、既存のKTモデルの有効性を改善できる自動化された知識コンセプトアノテーションと質問表現学習のフレームワークであるKCQRLを提示します。
まず、大規模な言語モデル(LLMS)を使用して自動化されたKCアノテーションプロセスを提案します。これは、質問ソリューションを生成し、質問の各ソリューションステップでKCを注釈します。
第二に、質問や解決策の手順のために意味的に豊富な埋め込みを生成するための対照的な学習アプローチを導入し、調整された偽陰性除去アプローチを介して関連するKCと整列します。
これらの埋め込みは、既存のKTモデルに容易に統合され、ランダムに初期化された埋め込みを置き換えることができます。
2つの大規模な現実世界の数学学習データセットで15 ktアルゴリズムにわたるKCQRLの有効性を実証し、一貫したパフォーマンスの改善を実現します。

要約(オリジナル)

Knowledge tracing (KT) is a popular approach for modeling students’ learning progress over time, which can enable more personalized and adaptive learning. However, existing KT approaches face two major limitations: (1) they rely heavily on expert-defined knowledge concepts (KCs) in questions, which is time-consuming and prone to errors; and (2) KT methods tend to overlook the semantics of both questions and the given KCs. In this work, we address these challenges and present KCQRL, a framework for automated knowledge concept annotation and question representation learning that can improve the effectiveness of any existing KT model. First, we propose an automated KC annotation process using large language models (LLMs), which generates question solutions and then annotates KCs in each solution step of the questions. Second, we introduce a contrastive learning approach to generate semantically rich embeddings for questions and solution steps, aligning them with their associated KCs via a tailored false negative elimination approach. These embeddings can be readily integrated into existing KT models, replacing their randomly initialized embeddings. We demonstrate the effectiveness of KCQRL across 15 KT algorithms on two large real-world Math learning datasets, where we achieve consistent performance improvements.

arxiv情報

著者 Yilmazcan Ozyurt,Stefan Feuerriegel,Mrinmaya Sachan
発行日 2025-03-13 13:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing はコメントを受け付けていません

FIND: Fine-grained Information Density Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

要約

外部知識をLLMに統合する検索大規模な言語モデル(LLM)は、臨床診断を含むさまざまな医療ドメインで顕著なパフォーマンスを示しています。
ただし、既存のRAGメソッドは、タスクの難易度を効果的に検索の決定を下すのに苦労しており、それにより、効率と精度のバランスをとるための臨床要件を満たすことができません。
したがって、この論文では、疾患診断シナリオにおけるRAGの信頼性を向上させる新しいフレームワークであるfind(\ textbf {f} ine-greain \ textbf {in} formation \ textbf {d} guided adaptive Rag)を提案します。
FINDには、入力の情報密度に基づいて検索が必要かどうかを判断するために、きめ細かい適応制御モジュールが組み込まれています。
検索プロセスを最適化し、知識フィルタリングモジュールを実装することにより、検索が臨床シナリオにより適していることを確認します。
3つの中国の電子医療記録データセットでの実験は、さまざまなベースライン方法を大幅に上回ることを発見し、臨床診断タスクにおけるその有効性を強調していることを示しています。

要約(オリジナル)

Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge into LLMs, have shown remarkable performance in various medical domains, including clinical diagnosis. However, existing RAG methods struggle to effectively assess task difficulty to make retrieval decisions, thereby failing to meet the clinical requirements for balancing efficiency and accuracy. So in this paper, we propose FIND (\textbf{F}ine-grained \textbf{In}formation \textbf{D}ensity Guided Adaptive RAG), a novel framework that improves the reliability of RAG in disease diagnosis scenarios. FIND incorporates a fine-grained adaptive control module to determine whether retrieval is necessary based on the information density of the input. By optimizing the retrieval process and implementing a knowledge filtering module, FIND ensures that the retrieval is better suited to clinical scenarios. Experiments on three Chinese electronic medical record datasets demonstrate that FIND significantly outperforms various baseline methods, highlighting its effectiveness in clinical diagnosis tasks.

arxiv情報

著者 Mingyi Jia,Junwen Duan,Yan Song,Jianxin Wang
発行日 2025-03-13 13:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FIND: Fine-grained Information Density Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis はコメントを受け付けていません

KV-Distill: Nearly Lossless Learnable Context Compression for LLMs

要約

シーケンスからシーケンスへのタスクは、しばしば長いコンテキストから恩恵を受けますが、標準変圧器における自己関節の二次複雑さはこの非自明になります。
生成中、GPUメモリの使用量の大部分について、いわゆるKVキャッシュアカウントに一時的な表現が貯蔵され、コンテキストの長さで直線的にスケーリングされます。
長いコンテキストKVキャッシュを質問に依存しない方法で大幅に短い表現に蒸留するトランス圧縮フレームワークであるKV-Distillを紹介します。
KV-distillは、事前に処理されたモデルのパラメーター効率の高いアダプターとしてトレーニングでき、事前に訓練されたモデル機能を維持しながら、コンテキストの任意のスパンの圧縮を可能にします。
圧縮された非競合キャッシュを学生と教師のペアリングとして扱い、KLタイプの発散を適用して生成された出力に合わせます。
KV-distillは、最悪の抽出タスクの他の圧縮技術を上回り、長いコンテキストの質問に応答して要約することで圧縮されていないパフォーマンスに近づき、ドメイン固有のコンテキストで微調整して、ダウンストリームパフォーマンスを維持しながら最大99%減少します。
さまざまなモデルサイズとアーキテクチャにわたるKV-Distillの一般化可能性を示します。

要約(オリジナル)

Sequence-to-sequence tasks often benefit from long contexts, but the quadratic complexity of self-attention in standard Transformers renders this non-trivial. During generation, temporary representations -stored in the so-called KV cache-account for a large portion of GPU memory usage and scale linearly with context length. We introduce KV-Distill, a Transformer compression framework that distills long context KV caches into significantly shorter representations in a question-independent fashion. KV-Distill can be trained as a parameter-efficient adaptor for pretrained models, and enables the compression of arbitrary spans of a context while preserving pre-trained model capabilities. We treat a compressed-uncompressed cache as a student-teacher pairing and apply a KL-type divergence to match the generated outputs. KV-Distill outperforms other compression techniques in worst-case extractive tasks and approaches uncompressed performance in long context question answering and summarization, and it can be fine-tuned on domain-specific contexts to reduce lengths by up to 99% while preserving downstream performance. We demonstrate the generalizability of KV-Distill across various model sizes and architectures.

arxiv情報

著者 Vivek Chari,Guanghui Qin,Benjamin Van Durme
発行日 2025-03-13 13:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | KV-Distill: Nearly Lossless Learnable Context Compression for LLMs はコメントを受け付けていません

Adapting Multilingual Embedding Models to Historical Luxembourgish

要約

デジタル化された履歴テキストの量が増えているため、テキストの埋め込みを使用した効果的なセマンティック検索が必要です。
ただし、事前に訓練された多言語モデルは、OCRノイズと時代遅れのスペルによる歴史的なコンテンツで課題に直面しています。
この研究では、低リソース言語である歴史的なルクセンブルク(LB)における言語間セマンティック検索のための多言語の埋め込みを調べます。
さまざまな期間から歴史的なルクセンブルクのニュース記事を収集し、文のセグメンテーションと翻訳にGPT-4oを使用して、言語ペアごとに20,000の並列トレーニング文を生成します。
さらに、セマンティック検索(Historical LB Bitext Mining)評価セットを作成し、既存のモデルが歴史的なルクセンブルギッシュの横断的検索でパフォーマンスが低いことがわかります。
履歴および追加の最新の並列トレーニングデータを使用して、対照的な学習または知識の蒸留を通じていくつかの多言語埋め込みモデルを適応させ、すべてのモデルの精度を大幅に向上させます。
調整されたモデルと歴史的なルクセンブルク – ドイツ/フランス語/英語のbitextsをリリースして、さらなる研究をサポートします。

要約(オリジナル)

The growing volume of digitized historical texts requires effective semantic search using text embeddings. However, pre-trained multilingual models face challenges with historical content due to OCR noise and outdated spellings. This study examines multilingual embeddings for cross-lingual semantic search in historical Luxembourgish (LB), a low-resource language. We collect historical Luxembourgish news articles from various periods and use GPT-4o for sentence segmentation and translation, generating 20,000 parallel training sentences per language pair. Additionally, we create a semantic search (Historical LB Bitext Mining) evaluation set and find that existing models perform poorly on cross-lingual search for historical Luxembourgish. Using our historical and additional modern parallel training data, we adapt several multilingual embedding models through contrastive learning or knowledge distillation and increase accuracy significantly for all models. We release our adapted models and historical Luxembourgish-German/French/English bitexts to support further research.

arxiv情報

著者 Andrianos Michail,Corina Julia Raclé,Juri Opitz,Simon Clematide
発行日 2025-03-13 13:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adapting Multilingual Embedding Models to Historical Luxembourgish はコメントを受け付けていません

Diabetica: Adapting Large Language Model to Enhance Multiple Medical Tasks in Diabetes Care and Management

要約

糖尿病は、重大な世界的な健康負担を伴う慢性疾患であり、最適な管理のためにマルチステークホルダーのコラボレーションを必要とします。
大規模な言語モデル(LLM)は、さまざまなヘルスケアシナリオで有望を示していますが、多様な糖尿病タスク全体の有効性は証明されていません。
私たちの研究では、糖尿病固有のLLMSを訓練および検証するための枠組みを導入しました。
最初に、データ収集、フィルタリング、増強、改良を含む包括的なデータ処理パイプラインを開発しました。
これにより、高品質の糖尿病固有のデータセットと評価ベンチマークがゼロから作成されました。
収集されたトレーニングデータセットで微調整された糖尿病特異的LLMファミリーは、他のLLMと比較してさまざまな糖尿病タスクの処理に最先端の習熟度を示しました。
さらに、臨床研究により、パーソナライズされたヘルスケアの提供、医学教育の支援、臨床タスクの合理化など、糖尿病ケアにおけるモデルの潜在的な応用が明らかになりました。
一般的に、導入されたフレームワークは、糖尿病固有のLLMSの開発に役立ち、臨床診療を強化し、さまざまなエンドユーザーにわたって糖尿病管理にパーソナライズされたデータ駆動型のサポートを提供する可能性を強調しています。
コード、ベンチマーク、モデルは、https://github.com/waltonfuture/diabeticaで入手できます。

要約(オリジナル)

Diabetes is a chronic disease with a significant global health burden, requiring multi-stakeholder collaboration for optimal management. Large language models (LLMs) have shown promise in various healthcare scenarios, but their effectiveness across diverse diabetes tasks remains unproven. Our study introduced a framework to train and validate diabetes-specific LLMs. We first developed a comprehensive data processing pipeline that includes data collection, filtering, augmentation and refinement. This created a high-quality, diabetes-specific dataset and evaluation benchmarks from scratch. Fine-tuned on the collected training dataset, our diabetes-specific LLM family demonstrated state-of-the-art proficiency in processing various diabetes tasks compared to other LLMs. Furthermore, clinical studies revealed the potential applications of our models in diabetes care, including providing personalized healthcare, assisting medical education, and streamlining clinical tasks. Generally, our introduced framework helps develop diabetes-specific LLMs and highlights their potential to enhance clinical practice and provide personalized, data-driven support for diabetes management across different end users. Our codes, benchmarks and models are available at https://github.com/waltonfuture/Diabetica.

arxiv情報

著者 Lai Wei,Zhen Ying,Muyang He,Yutong Chen,Qian Yang,Yanzhe Hong,Jiaping Lu,Kaipeng Zheng,Shaoting Zhang,Xiaoying Li,Weiran Huang,Ying Chen
発行日 2025-03-13 13:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG | Diabetica: Adapting Large Language Model to Enhance Multiple Medical Tasks in Diabetes Care and Management はコメントを受け付けていません

New Trends for Modern Machine Translation with Large Reasoning Models

要約

大規模な推論モデル(LRMS)、特にチェーンオブテーマの推論(COT)を活用する最近の進歩は、機械翻訳(MT)の新しい可能性を開きました。
このポジションペーパーでは、LRMSは、コンテキスト、文化、言語の理解と推論を必要とする動的な推論タスクとして翻訳を再構成することにより、LLMSベースのMTパラダイムと同様に、従来のニューラルMTとLLMSベースのMTパラダイムを実質的に変換したと主張しています。
3つの基本的な変化を特定します。1)文脈的一貫性。これにより、LRMは曖昧さを解決し、横断的および複雑な文脈、または文脈の欠如をめぐる明示的な推論を通じて談話構造を維持します。
2)文化的意図、モデルがスピーカーの意図、聴衆の期待、および社会言語的規範を推測することにより、モデルが出力を適応できるようにする。
3)自己反省、LRMSは、推論時間中に自己反省を実行して、翻訳の潜在的なエラーを修正することができます。
翻訳におけるLRMの優位性を示す経験的例を紹介することにより、様式化された翻訳、ドキュメントレベルの翻訳、マルチモーダル翻訳など、翻訳のさまざまなシナリオを探ります。
また、自動ピボット翻訳や、翻訳の過剰局在や推論効率などの重要な課題を含む、MTのLRMSの興味深い現象をいくつか特定します。
結論として、LRMSは、テキストコンバーターだけでなく、テキストを超えた意味について推論できる多言語認知エージェントとして再定義すると考えています。
このパラダイムシフトは、LRMSとはるかに広いコンテキストで、従来の翻訳シナリオを超えて翻訳の問題を考えることを思い出させます – その上で達成できること。

要約(オリジナル)

Recent advances in Large Reasoning Models (LRMs), particularly those leveraging Chain-of-Thought reasoning (CoT), have opened brand new possibility for Machine Translation (MT). This position paper argues that LRMs substantially transformed traditional neural MT as well as LLMs-based MT paradigms by reframing translation as a dynamic reasoning task that requires contextual, cultural, and linguistic understanding and reasoning. We identify three foundational shifts: 1) contextual coherence, where LRMs resolve ambiguities and preserve discourse structure through explicit reasoning over cross-sentence and complex context or even lack of context; 2) cultural intentionality, enabling models to adapt outputs by inferring speaker intent, audience expectations, and socio-linguistic norms; 3) self-reflection, LRMs can perform self-reflection during the inference time to correct the potential errors in translation especially extremely noisy cases, showing better robustness compared to simply mapping X->Y translation. We explore various scenarios in translation including stylized translation, document-level translation and multimodal translation by showcasing empirical examples that demonstrate the superiority of LRMs in translation. We also identify several interesting phenomenons for LRMs for MT including auto-pivot translation as well as the critical challenges such as over-localisation in translation and inference efficiency. In conclusion, we think that LRMs redefine translation systems not merely as text converters but as multilingual cognitive agents capable of reasoning about meaning beyond the text. This paradigm shift reminds us to think of problems in translation beyond traditional translation scenarios in a much broader context with LRMs – what we can achieve on top of it.

arxiv情報

著者 Sinuo Liu,Chenyang Lyu,Minghao Wu,Longyue Wang,Weihua Luo,Kaifu Zhang
発行日 2025-03-13 13:27:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | New Trends for Modern Machine Translation with Large Reasoning Models はコメントを受け付けていません

A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization

要約

イノベーションの巨大な成長により、特許分析と理解力手順に役立つ自動特許の要約アプローチは、高い需要があります。
自然言語処理(NLP)、テキストマイニング、およびディープラーニングの開発により、豊富な種類のドキュメントのテキスト要約モデルの有効性が顕著になりました。
特許テキストの要約は、技術的および合法的な複雑さを含むこれらのドキュメントの迷路の執筆スタイルのため、依然として関連する課題です。
さらに、これらの特許文書の内容は、要約のために適切な情報を抽出するプロセスを複雑にする典型的なドキュメントよりもかなり長くなっています。
抽出的で抽象的なテキスト要約の方法論をハイブリッドフレームワークに具体化するこの研究では、特許記録の抽象的な要約を効率的に作成するためのシステムを提案しています。
この手順では、Lexrankグラフベースのアルゴリズムを活用して、入力親テキストから重要な文を取得し、テキストの概要を作成するための低いランク適応(LORA)を使用して微調整された双方向の自動回帰トランス(BART)モデルを利用します。
これには、系統的なテストと評価戦略が伴います。
さらに、著者は、複数の特許フィールドにわたって抽象的コンポーネントのドメイン一般化(DG)を達成するために、特定のメタ学習技術を採用しました。

要約(オリジナル)

Automatic patent summarization approaches that help in the patent analysis and comprehension procedure are in high demand due to the colossal growth of innovations. The development of natural language processing (NLP), text mining, and deep learning has notably amplified the efficacy of text summarization models for abundant types of documents. Summarizing patent text remains a pertinent challenge due to the labyrinthine writing style of these documents, which includes technical and legal intricacies. Additionally, these patent document contents are considerably lengthier than archetypal documents, which intricates the process of extracting pertinent information for summarization. Embodying extractive and abstractive text summarization methodologies into a hybrid framework, this study proposes a system for efficiently creating abstractive summaries of patent records. The procedure involves leveraging the LexRank graph-based algorithm to retrieve the important sentences from input parent texts, then utilizing a Bidirectional Auto-Regressive Transformer (BART) model that has been fine-tuned using Low-Ranking Adaptation (LoRA) for producing text summaries. This is accompanied by methodical testing and evaluation strategies. Furthermore, the author employed certain meta-learning techniques to achieve Domain Generalization (DG) of the abstractive component across multiple patent fields.

arxiv情報

著者 Nevidu Jayatilleke,Ruvan Weerasinghe
発行日 2025-03-13 13:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization はコメントを受け付けていません

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

要約

このペーパーでは、ゼロショットセットアップでテキストからイメージモデルを使用して、分類概念の画像を生成する可能性を検討します。
分類濃縮のためのテキストベースの方法は確立されていますが、視覚的次元の可能性は未開拓のままです。
これに対処するために、分類学の概念を理解し、関連する高品質の画像を生成するモデルの能力を評価する分類画像生成のための包括的なベンチマークを提案します。
ベンチマークには、LLM生成予測と並んで、コモンセンスとランダムにサンプリングされたWordNetコンセプトが含まれます。
12のモデルは、9つの新しい分類関連テキストからイメージへのメトリックと人間のフィードバックを使用して評価されます。
さらに、画像生成のためのGPT-4フィードバックを使用して、ペアワイズ評価の使用を開拓します。
実験結果は、モデルのランキングが標準のT2Iタスクと大きく異なることを示しています。
Playground-V2とフラックスはメトリックとサブセット全体で一貫してアウトパフォームし、検索ベースのアプローチのパフォーマンスが低下します。
これらの調査結果は、構造化されたデータリソースのキュレーションを自動化する可能性を強調しています。

要約(オリジナル)

This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models’ abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.

arxiv情報

著者 Viktor Moskvoretskii,Alina Lobanova,Ekaterina Neminova,Chris Biemann,Alexander Panchenko,Irina Nikishina
発行日 2025-03-13 13:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark はコメントを受け付けていません

PAD: Personalized Alignment of LLMs at Decoding-Time

要約

文化的、教育的、政治的な違いによって大きく異なるパーソナライズされた好みに合わせて、従来の調整方法の計算コストとデータの要求により、重要な課題をもたらします。
これに応じて、このペーパーでは、DECODING TIME(PAD)でのパーソナライズされたアライメントを提示します。これは、推論フェーズ中にLLM出力を多様なパーソナライズされた好みに合わせて設計された新しいフレームワークであり、追加のトレーニングの必要性を排除します。
ユニークなパーソナライズされた報酬モデリング戦略を導入することにより、このフレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を促進します。
パッドアルゴリズムは、これらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに合わせて動的に調整します。
広範な実験結果は、PADが多様な好みとの整合性の観点から既存のトレーニングベースのアライメント方法を上回るだけでなく、異なるベースモデルでトレーニング中に目に見えない好みに対する重要な一般化可能性を示していることを示しています。
この作業は、リアルタイムアプリケーションでユーザーのニーズを満たすためにLLMの能力を進め、パーソナライズされたLLMアライメントにおいて大きな前進を示します。

要約(オリジナル)

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model’s predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.

arxiv情報

著者 Ruizhe Chen,Xiaotian Zhang,Meng Luo,Wenhao Chai,Zuozhu Liu
発行日 2025-03-13 13:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PAD: Personalized Alignment of LLMs at Decoding-Time はコメントを受け付けていません