PAD: Personalized Alignment of LLMs at Decoding-Time

要約

文化的、教育的、政治的な違いによって大きく異なるパーソナライズされた好みに合わせて、従来の調整方法の計算コストとデータの要求により、重要な課題をもたらします。
これに応じて、このペーパーでは、DECODING TIME(PAD)でのパーソナライズされたアライメントを提示します。これは、推論フェーズ中にLLM出力を多様なパーソナライズされた好みに合わせて設計された新しいフレームワークであり、追加のトレーニングの必要性を排除します。
ユニークなパーソナライズされた報酬モデリング戦略を導入することにより、このフレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を促進します。
パッドアルゴリズムは、これらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに合わせて動的に調整します。
広範な実験結果は、PADが多様な好みとの整合性の観点から既存のトレーニングベースのアライメント方法を上回るだけでなく、異なるベースモデルでトレーニング中に目に見えない好みに対する重要な一般化可能性を示していることを示しています。
この作業は、リアルタイムアプリケーションでユーザーのニーズを満たすためにLLMの能力を進め、パーソナライズされたLLMアライメントにおいて大きな前進を示します。

要約(オリジナル)

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model’s predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.

arxiv情報

著者 Ruizhe Chen,Xiaotian Zhang,Meng Luo,Wenhao Chai,Zuozhu Liu
発行日 2025-03-13 13:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PAD: Personalized Alignment of LLMs at Decoding-Time はコメントを受け付けていません

G-Boost: Boosting Private SLMs with General LLMs

要約

計算リソースが限られているため、ほとんどの大規模な言語モデル(LLMS)開発者は、独自のデータで小言語モデル(SLM)のみを微調整できます。
これらのプライベートSLMは通常、有効性が制限されています。
プライベートSLMのパフォーマンスを高めるために、このペーパーでは、一般的なLLMSに助けを求めることを提案しています。
一般的なLLMは、開発者が余裕がある推論にかかるAPIまたはより大きなLLMである可能性があります。
具体的には、Private SLMがプロセス報酬のガイドの下で一般的なLLMと共同推論を適応的に実行するGブーストフレームワークを提案します。
実験は、私たちのフレームワークがプライベートSLMのパフォーマンスを大幅に向上させることができることを示しています。

要約(オリジナル)

Due to the limited computational resources, most Large Language Models (LLMs) developers can only fine-tune Small Language Models (SLMs) on their own data. These private SLMs typically have limited effectiveness. To boost the performance of private SLMs, this paper proposes to ask general LLMs for help. The general LLMs can be APIs or larger LLMs whose inference cost the developers can afford. Specifically, we propose the G-Boost framework where a private SLM adaptively performs collaborative inference with a general LLM under the guide of process reward. Experiments demonstrate that our framework can significantly boost the performance of private SLMs.

arxiv情報

著者 Yijiang Fan,Yuren Mao,Longbin Lai,Ying Zhang,Zhengping Qian,Yunjun Gao
発行日 2025-03-13 13:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | G-Boost: Boosting Private SLMs with General LLMs はコメントを受け付けていません

MIX : a Multi-task Learning Approach to Solve Open-Domain Question Answering

要約

このペーパーでは、オープンエンドの質問を解決するためのマルチタスクディープラーニングアプローチであるMixを紹介します。
まず、システムを3つのビルディングブロックのマルチステージパイプラインとして設計します。検索スペースを削減するためのBM25ベースのレトリバー、ロベルタベースの得点者、およびそれぞれ検索された段落をランク付けし、関連するテキストスパンを抽出する抽出器です。
最終的には、スケーラビリティチャレンジに対処するためにシステムの計算効率をさらに改善します。マルチタスク学習のおかげで、スコアラーと抽出器によって解決された緊密なタスクに並行しています。
私たちのシステムは、概念的にシンプルである一方で、チームオープンベンチマークで最先端のパフォーマンスと同等です。

要約(オリジナル)

This paper introduces MIX, a multi-task deep learning approach to solve open-ended question-answering. First, we design our system as a multi-stage pipeline of 3 building blocks: a BM25-based Retriever to reduce the search space, a RoBERTa-based Scorer, and an Extractor to rank retrieved paragraphs and extract relevant text spans, respectively. Eventually, we further improve the computational efficiency of our system to deal with the scalability challenge: thanks to multi-task learning, we parallelize the close tasks solved by the Scorer and the Extractor. Our system is on par with state-of-the-art performances on the squad-open benchmark while being simpler conceptually.

arxiv情報

著者 Sofian Chaybouti,Achraf Saghe,Aymen Shabou
発行日 2025-03-13 13:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | MIX : a Multi-task Learning Approach to Solve Open-Domain Question Answering はコメントを受け付けていません

Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning

要約

私たちは、ほとんどの推論、数学、ロジックベンチマークで採用された数学のユビキタスな概念であるバイナリ関係に関する大規模な言語モデル(LLM)の能力を研究しています。
この作業は、IR/反射性、A/対称性、交換性、論理的な複雑さなど、それらが満たす特性(例えば、「ホップ」の数)など、それらが満たす特性とともに、平等、不平等、および包含に焦点を当てています。
新しく導入されたトークンの表現のみをトレーニングするコンテキスト内学習の代替案を提案します。
この方法は、モデルにすでに存在する言語バイアスを軽減し、コンテキスト学習とは異なる方法で、外部情報やイラストに依存していません。
コンテキスト外の表現学習は、より複雑な推論ベンチマークの構成要素であるロジックタスクでLLMSの機能を評価するためのコンテキスト内学習と微調整のより良い代替手段として主張しています。

要約(オリジナル)

We study the capabilities of Large Language Models (LLM) on binary relations, a ubiquitous concept in math employed in most reasoning, math and logic benchmarks. This work focuses on equality, inequality, and inclusion, along with the properties they satisfy, such as ir/reflexivity, a/symmetry, transitivity, and logical complexity (e.g., number of reasoning “hops”). We propose an alternative to in-context learning that trains only the representations of newly introduced tokens, namely out-of-context representation learning. This method mitigates linguistic biases already present in a model and, differently from in-context learning, does not rely on external information or illustrations. We argue out-of-context representation learning as a better alternative to in-context learning and fine-tuning to evaluate the capabilities of LLMs on logic tasks that are the building blocks of more complex reasoning benchmarks.

arxiv情報

著者 Jonathan Shaki,Emanuele La Malfa,Michael Wooldridge,Sarit Kraus
発行日 2025-03-13 14:32:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning はコメントを受け付けていません

VisTai: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan

要約

この論文では、伝統的な中国語の視覚言語モデル(VLM)の包括的な評価ベンチマークを提案します。
この種の最初の評価スイートには、2つの補完的なコンポーネントが含まれています。(1)Vistai-MCQ、VLMの幅広い知識と推論能力をテストするために設計された21の学術科目からの手動でキュレーションされた試験のマルチ選択質問のコレクション。
(2)Vistai-Dialogue、台湾の文化的文脈内での自由形式の対話生成におけるVLMの能力を評価するために手動で作成された131の画像質問ペアを含むオープンな対話ベンチマーク。
これらのベンチマークは、既存のベンチマークが主に英語または単純化された中国人に焦点を当てており、台湾や香港などの地域で使用される伝統的な中国語のユニークな言語的および文化的側面を無視している評価環境の重大なギャップに対処しています。
私たちの分析は、さまざまなVLM間の大きなパフォーマンスの違いを明らかにし、従来の中国の視覚コンテンツの処理における特定の課題を強調しています。

要約(オリジナル)

In this paper, we propose a comprehensive evaluation benchmark for Visual Language Models (VLM) in Traditional Chinese. Our evaluation suite, the first of its kind, contains two complementary components: (1) VisTai-MCQ, a collection of manually curated exam multi-choice questions from 21 academic subjects designed to test the broad knowledge and reasoning capabilities of VLMs; and (2) VisTai-Dialogue, an open dialogue benchmark comprising 131 image-question pairs manually created to evaluate VLMs’ ability in free-form dialogue generation within Taiwanese cultural contexts. These benchmarks address a critical gap in the evaluation landscape, where existing benchmarks predominantly focus on English or Simplified Chinese, neglecting the unique linguistic and cultural aspects of Traditional Chinese used in regions like Taiwan and Hong Kong. Our analysis reveals significant performance differences across various VLMs and highlights specific challenges in processing Traditional Chinese visual content.

arxiv情報

著者 Zhi Rui Tam,Ya-Ting Pai,Yen-Wei Lee
発行日 2025-03-13 14:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VisTai: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan はコメントを受け付けていません

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

要約

GPT-4Oは、多様な感情やトーンとのボーカルな会話を可能にするオムニモーダルモデルであり、オムニモーダルファンデーションモデルのマイルストーンを示しています。
ただし、大規模な言語モデルに、公開されたデータを使用して画像、テキスト、およびエンドツーエンドを認識して生成できるようにすることは、オープンソースコミュニティにとって依然として挑戦的です。
既存のビジョン言語モデルは、音声処理のために外部ツールに依存していますが、音声言語モデルは依然として視覚的理解能力が限られているか、まったくない能力があります。
このギャップに対処するために、EMOVA(感情的にオムニプレゼントの音声アシスタント)を提案し、主要なビジョン言語パフォーマンスを維持しながら、エンドツーエンドの音声能力を備えた大規模な言語モデルを可能にします。
セマンティック音響の解き伸びたスピーチトークネイザーを使用すると、驚くべきことに、オムニモーダルのアライメントは、バイモーダルの整列した対応物と比較して視覚言語と音声能力をさらに強化できることに気付きます。
さらに、感情やピッチなどの柔軟なスピーチスタイルコントロール用に軽量スタイルモジュールが導入されています。
EMOVAは、ビジョン言語と音声ベンチマークの両方で最先端のパフォーマンスを達成し、その間、鮮やかな感情とのオムニモーダルの話し言葉の対話をサポートしています。

要約(オリジナル)

GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging for the open-source community. Existing vision-language models rely on external tools for speech processing, while speech-language models still suffer from limited or totally without vision-understanding capabilities. To address this gap, we propose the EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech abilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we surprisingly notice that omni-modal alignment can further enhance vision-language and speech abilities compared with the bi-modal aligned counterparts. Moreover, a lightweight style module is introduced for the flexible speech style controls including emotions and pitches. For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

arxiv情報

著者 Kai Chen,Yunhao Gou,Runhui Huang,Zhili Liu,Daxin Tan,Jing Xu,Chunwei Wang,Yi Zhu,Yihan Zeng,Kuo Yang,Dingdong Wang,Kun Xiang,Haoyuan Li,Haoli Bai,Jianhua Han,Xiaohui Li,Weike Jin,Nian Xie,Yu Zhang,James T. Kwok,Hengshuang Zhao,Xiaodan Liang,Dit-Yan Yeung,Xiao Chen,Zhenguo Li,Wei Zhang,Qun Liu,Jun Yao,Lanqing Hong,Lu Hou,Hang Xu
発行日 2025-03-13 14:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions はコメントを受け付けていません

BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models

要約

この論文では、MMWAVE通信システムの高トレーニングオーバーヘッドとレイテンシの課題に対処するために、大きな言語モデル(LLMS)を活用する視力支援ミリ波(MMWAVE)ビーム予測フレームワークであるBeam​​llMを提案します。
コンピュータービジョン(CV)とLLMSのクロスモーダル推論機能を組み合わせることにより、フレームワークはRGB画像からユーザー機器(UE)の位置機能を抽出し、再プログラミング技術を通じてLLMSのセマンティックスペースを視覚的に対応する機能を整列させます。
現実的な車両からインフラストラクチャ(V2I)シナリオで評価された提案方法は、標準予測タスクで61.01%のTOP-1精度と97.39%のTOP-3精度を達成し、従来の深い学習モデルを大幅に上回っています。
少ないショット予測シナリオでは、パフォーマンスの劣化は、サンプル1から10から12.56%(TOP-1)と5.55%(TOP-3)に制限されており、優れた予測能力を示しています。

要約(オリジナル)

In this paper, we propose BeamLLM, a vision-aided millimeter-wave (mmWave) beam prediction framework leveraging large language models (LLMs) to address the challenges of high training overhead and latency in mmWave communication systems. By combining computer vision (CV) with LLMs’ cross-modal reasoning capabilities, the framework extracts user equipment (UE) positional features from RGB images and aligns visual-temporal features with LLMs’ semantic space through reprogramming techniques. Evaluated on a realistic vehicle-to-infrastructure (V2I) scenario, the proposed method achieves 61.01% top-1 accuracy and 97.39% top-3 accuracy in standard prediction tasks, significantly outperforming traditional deep learning models. In few-shot prediction scenarios, the performance degradation is limited to 12.56% (top-1) and 5.55% (top-3) from time sample 1 to 10, demonstrating superior prediction capability.

arxiv情報

著者 Can Zheng,Jiguang He,Guofa Cai,Zitong Yu,Chung G. Kang
発行日 2025-03-13 14:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models はコメントを受け付けていません

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

要約

このペーパーでは、モデル、データ、コードがすべてリリースされたLight-R1シリーズに関する作業を紹介します。
まず、長いCOTモデルをゼロからトレーニングすることに焦点を当てています。特に、最初は長いCOT機能を欠いているモデルから始まります。
2段階のSFTとセミポリティDPOで構成されるカリキュラムトレーニングレシピを使用して、QWEN2.5-32B-instructからモデルLight-R1-32Bをトレーニングし、DeepSeek-R1-Distill-QWen-32Bと比較して優れた数学のパフォーマンスをもたらします。
数学データのみで訓練されているにもかかわらず、Light-R1-32Bは他のドメイン全体で強い一般化を示しています。
この作業の後続のフェーズでは、他のモデルを強化するために2番目のSFTステージに構築された3Kデータセットの大きな利点を強調します。
このデータセットを使用してDeepSeek-R1-DISTILLモデルを微調整することにより、7Bおよび14Bで新しいSOTAモデルを取得し、32BモデルであるLight-R1-32B-DSはQWQ-32BおよびDeepSeek-R1と同等に実行されました。
さらに、推論のパフォーマンスをさらに向上させるために、補強学習、特にGRPOをロングコットモデルに適用することにより、作業を拡張します。
RLで最終的なLight-R1-14B-DSを正常にトレーニングし、数学の14BパラメーターモデルでSOTAパフォーマンスを達成しました。
それぞれ74.0と60.2のAIME24と25のスコアを使用すると、Light-R1-14B-DSは多くの32BモデルとDeepSeek-R1-Distill-llama-70Bを超えています。
また、RLトレーニングは予想される行動を示し、応答長と報酬スコアの同時増加を示します。
Light-R1シリーズの作業は、トレーニングのロングコットモデルをゼロから検証し、SFTデータのアートを紹介し、RLからSOTAモデルをリリースします。

要約(オリジナル)

This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

arxiv情報

著者 Liang Wen,Yunke Cai,Fenrui Xiao,Xin He,Qi An,Zhenyu Duan,Yimin Du,Junchen Liu,Lifu Tang,Xiaowei Lv,Haosheng Zou,Yongchao Deng,Shousheng Jia,Xiangzheng Zhang
発行日 2025-03-13 15:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond はコメントを受け付けていません

Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA

要約

音声パーツ(POS)タグ付けなどの構文ツールを使用することで、文の構造とその分布を多様なコーパス全体に理解するのに役立ちましたが、それは非常に複雑であり、自然言語処理(NLP)の課題をもたらします。
この研究は、そのようなツールに頼らずに調和して、名詞、動詞、決定因子などの使用方法(名詞、動詞、決定者などの使用)を理解することに焦点を当てています。
情報交換(ASCII)コードにAmerican Standard Codeを使用して、PCAを介して圧縮バージョンを使用した後、さまざまなソースからの11のテキストコーパスのテキストとその語彙カテゴリアライメントを表す新しい統計的方法を提案し、Shapiro-WilkやAnderson-Darling Testsなどのヒストグラムと正常テストを介して結果を分析します。
ASCIIコードに焦点を当てることにより、このアプローチはテキスト処理を簡素化しますが、構文ツールを置き換えるのではなく、テキストバランスを評価するためのリソース効率の高いツールとして提供することでそれらを補完します。
Grokによって生成されたストーリーは、LLM出力のバランスの取れた文構造を示す正常性に近いことを示していますが、残りの10のうち4つは正常性テストに合格します。
さらなる研究では、より広範なタスクのための構文統合により、テキスト品質評価とスタイル分析における潜在的なアプリケーションを探求することができます。

要約(オリジナル)

While utilizing syntactic tools such as parts-of-speech (POS) tagging has helped us understand sentence structures and their distribution across diverse corpora, it is quite complex and poses a challenge in natural language processing (NLP). This study focuses on understanding sentence structure balance – usages of nouns, verbs, determiners, etc – harmoniously without relying on such tools. It proposes a novel statistical method that uses American Standard Code for Information Interchange (ASCII) codes to represent text of 11 text corpora from various sources and their lexical category alignment after using their compressed versions through PCA, and analyzes the results through histograms and normality tests such as Shapiro-Wilk and Anderson-Darling Tests. By focusing on ASCII codes, this approach simplifies text processing, although not replacing any syntactic tools but complementing them by offering it as a resource-efficient tool for assessing text balance. The story generated by Grok shows near normality indicating balanced sentence structures in LLM outputs, whereas 4 out of the remaining 10 pass the normality tests. Further research could explore potential applications in text quality evaluation and style analysis with syntactic integration for more broader tasks.

arxiv情報

著者 Abhijeet Sahdev
発行日 2025-03-13 15:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA はコメントを受け付けていません

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

要約

大規模な視覚言語モデル(LVLMS)の最近の進歩は、具体化されたタスク計画の可能性を示していますが、依存関係の制約や効率などの基本的な課題に苦労しています。
既存のアプローチは、アクション選択を最適化するか、推論中に世界モデルを活用して、計画機能を強化する方法として世界をモデル化することの利点を見落としています。
二重優先最適化(D $^2 $ PO)を提案します。これは、優先学習を通じて状態予測とアクションの選択を共同で最適化し、LVLMがより良い計画のために環境ダイナミクスを理解できるようにする新しい学習フレームワークです。
人間の注釈なしで軌道と段階的優先データを自動的に収集するために、試行錯誤を介して広範な探索のためのツリー検索メカニズムを導入します。
vota-benchでの広範な実験は、d $^2 $ POベースの方法が既存の方法を大幅に上回ることを示しています。QWEN2-VL(7b)、Llava-1.6(7b)、およびLlama-3.2(11b)に適用すると、GPT-4oはより効率的な実行パスで優れたタスクの成功率を達成します。

要約(オリジナル)

Recent advances in large vision-language models (LVLMs) have shown promise for embodied task planning, yet they struggle with fundamental challenges like dependency constraints and efficiency. Existing approaches either solely optimize action selection or leverage world models during inference, overlooking the benefits of learning to model the world as a way to enhance planning capabilities. We propose Dual Preference Optimization (D$^2$PO), a new learning framework that jointly optimizes state prediction and action selection through preference learning, enabling LVLMs to understand environment dynamics for better planning. To automatically collect trajectories and stepwise preference data without human annotation, we introduce a tree search mechanism for extensive exploration via trial-and-error. Extensive experiments on VoTa-Bench demonstrate that our D$^2$PO-based method significantly outperforms existing methods and GPT-4o when applied to Qwen2-VL (7B), LLaVA-1.6 (7B), and LLaMA-3.2 (11B), achieving superior task success rates with more efficient execution paths.

arxiv情報

著者 Siyin Wang,Zhaoye Fei,Qinyuan Cheng,Shiduo Zhang,Panpan Cai,Jinlan Fu,Xipeng Qiu
発行日 2025-03-13 15:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning はコメントを受け付けていません