MM-Ego: Towards Building Egocentric Multimodal LLMs

要約

この研究は、自己中心的なビデオ理解のためのマルチモーダル基盤モデルの構築を包括的に検討することを目的としています。
この目標を達成するために、私たちは 3 つの分野に取り組んでいます。
まず、自己中心的なビデオを理解するための QA データが不足しているため、人間が注釈を付けたデータに基づいて、長さ 30 秒から 1 時間の自己中心的なビデオ用の 700 万の高品質 QA サンプルを効率的に生成するデータ エンジンを開発します。
これは現在、最大の自己中心的な QA データセットです。
次に、さまざまな長さのビデオにわたって視覚的な詳細を認識および記憶するモデルの能力を評価するために、629 のビデオと 7,026 の質問を含む挑戦的な自己中心的な QA ベンチマークを提供します。
評価対象のモデルに存在する避けられない言語バイアスを軽減するために、新しいバイアス除去評価方法を導入します。
第三に、新しい「メモリ ポインタ プロンプト」メカニズムを特徴とする特殊なマルチモーダル アーキテクチャを提案します。
この設計には、ビデオ全体を包括的に理解し、主要なビジュアル情報を特定するためのグローバル グランス ステップと、その後にキー ビジュアル情報を利用して応答を生成するフォールバック ステップが含まれています。
これにより、モデルは拡張ビデオ コンテンツをより効果的に理解できるようになります。
データ、ベンチマーク、モデルを使用して、自己中心的なビデオ理解において強力なパフォーマンスを示す自己中心的なマルチモーダル LLM である MM-Ego の構築に成功しました。

要約(オリジナル)

This research aims to comprehensively explore building a multimodal foundation model for egocentric video understanding. To achieve this goal, we work on three fronts. First, as there is a lack of QA data for egocentric video understanding, we develop a data engine that efficiently generates 7M high-quality QA samples for egocentric videos ranging from 30 seconds to one hour long, based on human-annotated data. This is currently the largest egocentric QA dataset. Second, we contribute a challenging egocentric QA benchmark with 629 videos and 7,026 questions to evaluate the models’ ability in recognizing and memorizing visual details across videos of varying lengths. We introduce a new de-biasing evaluation method to help mitigate the unavoidable language bias present in the models being evaluated. Third, we propose a specialized multimodal architecture featuring a novel ‘Memory Pointer Prompting’ mechanism. This design includes a global glimpse step to gain an overarching understanding of the entire video and identify key visual information, followed by a fallback step that utilizes the key visual information to generate responses. This enables the model to more effectively comprehend extended video content. With the data, benchmark, and model, we successfully build MM-Ego, an egocentric multimodal LLM that shows powerful performance on egocentric video understanding.

arxiv情報

著者 Hanrong Ye,Haotian Zhang,Erik Daxberger,Lin Chen,Zongyu Lin,Yanghao Li,Bowen Zhang,Haoxuan You,Dan Xu,Zhe Gan,Jiasen Lu,Yinfei Yang
発行日 2024-10-09 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models

要約

プロンプトは、人間が大規模言語モデル (LLM) と対話する主な方法として機能します。
商用 AI システムは通常、システム プロンプトで LLM の役割を定義します。
たとえば、ChatGPT は、デフォルトのシステム プロンプトの一部として「あなたは役に立つアシスタントです」を使用します。
システム プロンプトにペルソナを追加する現在の慣行にもかかわらず、さまざまなペルソナが客観的なタスクにおけるモデルのパフォーマンスにどのような影響を与えるかは依然として不明です。
この研究では、システム プロンプトにおけるペルソナの体系的な評価を紹介します。
私たちは、6 つのタイプの対人関係と 8 つの専門分野をカバーする 162 の役割のリストを厳選しています。
LLM の 4 つの一般的なファミリーと 2,410 の事実に基づく質問の広範な分析を通じて、システム プロンプトにペルソナを追加しても、ペルソナを追加しないコントロール設定と比較して、さまざまな質問にわたってモデルのパフォーマンスが向上しないことを実証しました。
それにもかかわらず、さらなる分析により、ペルソナの性別、タイプ、ドメインがすべて、結果として得られる予測精度に影響を与える可能性があることが示唆されています。
さらに、ペルソナ検索戦略のリストを実験したところ、質問ごとに最適なペルソナの結果を集約すると予測の精度が大幅に向上する一方で、最適なペルソナを自動的に特定するのは難しく、予測のパフォーマンスがランダムな選択と同等であることが多いことがわかりました。
全体として、私たちの調査結果は、ペルソナを追加すると特定の設定ではパフォーマンスの向上につながる可能性があるものの、各ペルソナの効果はほぼランダムである可能性があることを示唆しています。
コードとデータは https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles で入手できます。

要約(オリジナル)

Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses “You are a helpful assistant” as part of its default system prompt. Despite current practices of adding personas to system prompts, it remains unclear how different personas affect a model’s performance on objective tasks. In this study, we present a systematic evaluation of personas in system prompts. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 domains of expertise. Through extensive analysis of 4 popular families of LLMs and 2,410 factual questions, we demonstrate that adding personas in system prompts does not improve model performance across a range of questions compared to the control setting where no persona is added. Nevertheless, further analysis suggests that the gender, type, and domain of the persona can all influence the resulting prediction accuracies. We further experimented with a list of persona search strategies and found that, while aggregating results from the best persona for each question significantly improves prediction accuracy, automatically identifying the best persona is challenging, with predictions often performing no better than random selection. Overall, our findings suggest that while adding a persona may lead to performance gains in certain settings, the effect of each persona can be largely random. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.

arxiv情報

著者 Mingqian Zheng,Jiaxin Pei,Lajanugen Logeswaran,Moontae Lee,David Jurgens
発行日 2024-10-09 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | コメントする

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

要約

大規模言語モデル (LLM) のコンテキスト ウィンドウの拡張により、さまざまなアプリケーションの機能が大幅に強化されましたが、特に最初のトークンまでの時間 (TTFT) において、低遅延を維持する際に大きな課題も生じます。
このペーパーでは、コンテキストの長さが増加するにつれて TTFT が急激に上昇するのは、主にキュー遅延によって引き起こされていることがわかります。この遅延は、GPU キー/バリュー (KV) キャッシュ割り当てに対する需要の増大と、KV キャッシュ ブロックの限られた可用性との衝突によって引き起こされます。
この問題に対処するために、追加のハードウェアを必要とせず、出力パフォーマンスを犠牲にすることなく、既存の並列化戦略やスケジューリング技術とシームレスに統合しながら、TTFT を効果的に削減する、シンプルかつ効果的なプラグイン手法である LayerKV を提案します。
具体的には、LayerKV は、システム メモリをきめ細かく制御するためのレイヤーごとの KV ブロックの割り当て、管理、オフロードを導入し、SLO 対応スケジューラーと組み合わせて、全体的なサービス レベル目標 (SLO) を最適化します。
さまざまな GPU 構成にわたる 7B から 70B のパラメーターにわたる代表的なモデルの包括的な評価により、LayerKV が TTFT レイテンシを最大 69 倍に改善し、SLO 違反率を 28.7% 削減し、ユーザー エクスペリエンスが大幅に向上することが実証されました。

要約(オリジナル)

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.

arxiv情報

著者 Yi Xiong,Hao Wu,Changxu Shao,Ziqing Wang,Rui Zhang,Yuhong Guo,Junping Zhao,Ke Zhang,Zhenxuan Pan
発行日 2024-10-09 11:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.DC, cs.LG | コメントする

Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約

複数のタスクを完了できるジェネラリストの身体化エージェントを学習するには、主にアクションラベル付きロボットデータセットの不足に起因する課題が生じます。
対照的に、複雑なタスクや物理世界とのやり取りを捉えた人間のビデオが膨大に存在します。
事前トレーニングと知識の伝達に、アクションのない人間のビデオを利用して、限られたロボットのデモンストレーションを通じてロボットポリシーの学習を促進するという有望な見通しが生まれています。
しかし、人間とロボットの間には領域のギャップがあるため、依然として課題が残っています。
さらに、人間のビデオにはノイズが多く、マルチモーダルなデータ構造があるため、動的な世界を表す有用な情報を人間のビデオから抽出することは困難です。
この論文では、これらの課題に取り組むための新しいフレームワークを紹介します。このフレームワークは、統合された離散拡散を利用して、人間のビデオでの生成的な事前トレーニングと、アクションのラベルが付けられた少数のロボットのビデオでのポリシーの微調整を組み合わせます。
まず、人間とロボットの両方のビデオを統合ビデオ トークンに圧縮します。
事前トレーニング段階では、マスクと置換の拡散戦略を備えた離散拡散モデルを採用して、潜在空間内の将来のビデオ トークンを予測します。
微調整段階では、想像された未来のビデオを利用して、限られたロボット データのセットで低レベルのアクション学習をガイドします。
実験では、私たちの方法が計画用に忠実度の高い将来のビデオを生成し、以前の最先端のアプローチと比較して、優れたパフォーマンスで微調整されたポリシーを強化することを示しています。
私たちのプロジェクトの Web サイトは https://video-diff.github.io/ から入手できます。

要約(オリジナル)

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.

arxiv情報

著者 Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li
発行日 2024-10-09 04:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

要約

長いテキストを理解することは実際には大きな要求ですが、ほとんどの言語画像事前トレーニング (LIP) モデルでは実現できません。
この研究では、このような問題を引き起こす主な理由は、トレーニング画像が通常短いキャプションと組み合わされており、特定のトークンが顕著なトークンによって簡単に隠れてしまうためであることを経験的に確認しました。
この問題に対して、私たちの最初の試みは、長いキャプションでデータを再ラベルすることですが、それを直接学習すると、短いテキストを理解する際のパフォーマンスの低下につながる可能性があります (画像分類タスクなど)。
次に、コーナー トークンを組み込んで多様なテキスト情報を集約した後、モデルが本来の短文理解レベルに追いつきながら、長文理解能力を大幅に強化できるようにしました。
さらに、モデルが長いキャプションから継続的に恩恵を受けることができるかどうかを調査し、パフォーマンスと効率の間に明確なトレードオフがあることに気付きました。
最後に、100M の長いキャプション指向のテキストと画像のペアで構成される自己構築された大規模データセットを使用して、アプローチの有効性を検証します。
注目に値するのは、長いテキストの画像検索のタスクにおいて、長いキャプションを使用する競合他社に 11.1% の向上 (つまり、72.62% から 83.72% へ) で勝ったことです。
再現性とさらなる研究を促進するために、コード、モデル、および新しいデータセットをリリースします。
プロジェクト ページは https://wuw2019.github.io/lot-lip で利用できます。

要約(オリジナル)

Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lot-lip.

arxiv情報

著者 Wei Wu,Kecheng Zheng,Shuailei Ma,Fan Lu,Yuxin Guo,Yifei Zhang,Wei Chen,Qingpei Guo,Yujun Shen,Zheng-Jun Zha
発行日 2024-10-09 05:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

A Simulation-Free Deep Learning Approach to Stochastic Optimal Control

要約

確率的最適制御 (SOC) における一般的な問題を解決するためのシミュレーション不要のアルゴリズムを提案します。
既存の方法とは異なり、私たちのアプローチは随伴問題の解決を必要とせず、むしろギルサノフの定理を活用して、ポリシー上の SOC 目標の勾配を直接計算します。
これにより、ニューラル SDE フレームワークで使用される確率微分方程式 (SDE) による高価な逆伝播ステップが完全に回避されるため、ニューラル ネットワークによってパラメーター化された制御ポリシーの最適化を高速化できます。
特に、SOC の問題を高次元かつ長期的に解決できるようになります。
標準的な確率的最適制御問題、シュオーディンガー・フェルマープロセスの構築による非正規化分布からのサンプリング、事前訓練された拡散モデルの微調整など、アプリケーションのさまざまな領域におけるアプローチの効率性を実証します。
すべての場合において、私たちの方法は計算時間とメモリ効率の両方において既存の方法よりも優れていることが示されています。

要約(オリジナル)

We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr\’odinger-F\’ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.

arxiv情報

著者 Mengjian Hua,Matthieu Laurière,Eric Vanden-Eijnden
発行日 2024-10-08 17:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | コメントする

Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality

要約

Fr\’echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標です。
ただし、その有効性は重要な前提に依存します。
私たちの分析により、次の 3 つの重大な制限が明らかになりました。(1) Inflated 3D Convnet (I3D) 特徴空間の非ガウス性。
(2) I3D 特徴は時間的な歪みに対して鈍感である。
(3) 信頼性の高い推定に必要なサンプル サイズが非現実的である。
これらの発見は、FVD の信頼性を損ない、FVD がビデオ生成評価の独立した指標として不十分であることを示しています。
幅広いメトリクスとバックボーン アーキテクチャの広範な分析を経て、多項式カーネルによる最大平均不一致を使用して測定された、ジョイント エンベディング予測アーキテクチャから導出された特徴に基づいた JEDi (JEPA エンベディング ディスタンス) を提案します。
複数のオープンソース データセットに対する私たちの実験では、これが広く使用されている FVD メトリクスの優れた代替手段であるという明らかな証拠が示されており、サンプルの 16% だけで定常値に到達するだけで、人間の評価との整合性が平均 34% 向上します。

要約(オリジナル)

The Fr\’echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD’s reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.

arxiv情報

著者 Ge Ya Luo,Gian Mario Favero,Zhi Hao Luo,Alexia Jolicoeur-Martineau,Christopher Pal
発行日 2024-10-08 17:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Efficient Inference for Large Language Model-based Generative Recommendation

要約

大規模言語モデル (LLM) ベースの生成推奨は顕著な成功を収めていますが、その実際の導入は、特に自己回帰デコードによって引き起こされる過剰な推論遅延によりコストがかかります。
ロスレス LLM デコードの高速化では、投機的デコード (SD) が有望なソリューションとして浮上しています。
ただし、SD を生成推奨に適用すると、ビーム検索によって上位 K 個の項目 (つまり、K 個の異なるトークン シーケンス) を推奨リストとして生成する必要があるため、特有の課題が生じます。
これにより、SD ではより厳格な検証が行われ、ターゲット LLM からのすべての上位 K シーケンスが、各デコード ステップでドラフト モデルによって正常にドラフトされる必要があります。
これを軽減するために、1) ドラフト モデルとターゲット LLM の間の上位 K シーケンスのアラインメントを強化すること、2) 検証戦略を緩和して些細な LLM 呼び出しを減らすことを検討します。
この目的を達成するために、我々は AtSpeed という名前のアライメント フレームワークを提案します。これは、厳格な Top-K 検証の下で Top-K アライメントのための AtSpeed-S 最適化目標を提示します。
さらに、緩和されたサンプリング検証戦略を導入し、高確率で上位 K 以外のドラフト シーケンスを受け入れられるようにし、LLM 呼び出しを大幅に削減します。
これに対応して、この緩和されたサンプリング検証の下で、トップ K アライメント用の AtSpeed-R を提案します。
2 つの実際のデータセットに関する実証結果は、AtSpeed が LLM ベースの生成推奨を大幅に加速することを示しています。たとえば、厳格な Top-K 検証ではほぼ 2 倍の高速化、緩和されたサンプリング検証では最大 2.5 倍の高速化が見られます。
コードとデータセットは近い将来リリースされる予定です。

要約(オリジナル)

Large Language Model (LLM)-based generative recommendation has achieved notable success, yet its practical deployment is costly particularly due to excessive inference latency caused by autoregressive decoding. For lossless LLM decoding acceleration, Speculative Decoding (SD) has emerged as a promising solution. However, applying SD to generative recommendation presents unique challenges due to the requirement of generating top-K items (i.e., K distinct token sequences) as a recommendation list by beam search. This leads to more stringent verification in SD, where all the top-K sequences from the target LLM must be successfully drafted by the draft model at each decoding step. To alleviate this, we consider 1) boosting top-K sequence alignment between the draft model and the target LLM, and 2) relaxing the verification strategy to reduce trivial LLM calls. To this end, we propose an alignment framework named AtSpeed, which presents the AtSpeed-S optimization objective for top-K alignment under the strict top-K verification. Moreover, we introduce a relaxed sampling verification strategy that allows high-probability non-top-K drafted sequences to be accepted, significantly reducing LLM calls. Correspondingly, we propose AtSpeed-R for top-K alignment under this relaxed sampling verification. Empirical results on two real-world datasets demonstrate that AtSpeed significantly accelerates LLM-based generative recommendation, e.g., near 2x speedup under strict top-K verification and up to 2.5 speedup under relaxed sampling verification. The codes and datasets will be released in the near future.

arxiv情報

著者 Xinyu Lin,Chaoqun Yang,Wenjie Wang,Yongqi Li,Cunxiao Du,Fuli Feng,See-Kiong Ng,Tat-Seng Chua
発行日 2024-10-08 13:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | コメントする

SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks

要約

好みの最適化 (PO) は、言語モデルを人間の望ましい行動に合わせるための効果的なステップであることが証明されています。
現在のバリアントは、オフラインの Direct Preference Optimization 目標に従って、すべてのトークンが KL 発散のシグナルと損失関数への報酬に寄与する厳密な設定に焦点を当てています。
ただし、人間の好みは、シーケンス内の各単語に均等に影響を受けるのではなく、多くの場合、特定の単語やフレーズに依存します。
有害な用語が存在すると、好ましくない反応が生じます。
この観察に基づいて、我々は、PO 中にすべてのトークンが均等に重み付けされるべきではないと主張し、PO トレーニング中に各トークンに対応する KL 発散と報酬の重み付けを自動的に学習することを目的とした SparsePO と呼ばれる柔軟な目標を提案します。
私たちは、参照モデル自体から導出するか、オンザフライで学習できる重みマスクの 2 つの異なるバリアントを提案します。
特に、私たちの方法は学習されたマスクにスパース性を誘発し、モデルがトークンレベルで報酬と KL 発散寄与を最適に重み付ける方法を学習し、マスクのスパース性の最適なレベルを学習できるようにします。
感情制御、対話、テキストの要約、テキストからコードへの生成など、複数のドメインでの広範な実験により、私たちのアプローチがターゲットタスクに応じてトークンに意味のある重みを割り当て、望ましい優先順位でより多くの応答を生成し、推論タスクを向上させることが示されています。
他のトークンレベルおよびレスポンスレベルのPO方法と比較して、最大2パーセントポイントです。

要約(オリジナル)

Preference Optimization (PO) has proven an effective step for aligning language models to human-desired behaviors. Current variants, following the offline Direct Preference Optimization objective, have focused on a strict setting where all tokens are contributing signals of KL divergence and rewards to the loss function. However, human preference is not affected by each word in a sequence equally but is often dependent on specific words or phrases, e.g. existence of toxic terms leads to non-preferred responses. Based on this observation, we argue that not all tokens should be weighted equally during PO and propose a flexible objective termed SparsePO, that aims to automatically learn to weight the KL divergence and reward corresponding to each token during PO training. We propose two different variants of weight-masks that can either be derived from the reference model itself or learned on the fly. Notably, our method induces sparsity in the learned masks, allowing the model to learn how to best weight reward and KL divergence contributions at the token level, learning an optimal level of mask sparsity. Extensive experiments on multiple domains, including sentiment control, dialogue, text summarization and text-to-code generation, illustrate that our approach assigns meaningful weights to tokens according to the target task, generates more responses with the desired preference and improves reasoning tasks by up to 2 percentage points compared to other token- and response-level PO methods.

arxiv情報

著者 Fenia Christopoulou,Ronald Cardenas,Gerasimos Lampouras,Haitham Bou-Ammar,Jun Wang
発行日 2024-10-08 15:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control

要約

MPCはタイムステップごとに最適な制御問題を解くことで非線形フィードバック制御を実現しますが、計算負荷が非常に大きくなる傾向があり、制御周期内で政策を最適化することが困難です。
この問題に対処するために、考えられるアプローチの 1 つは、最終値学習を利用して計算コストを削減することです。
ただし、元の MPC セットアップでタスクが動的に変更される状況では、学習した値を他のタスクに使用することはできません。
この研究では、計算時間を削減しながらマルチタスク ポリシーの最適化を達成するために、目標条件付き最終値学習を備えた MPC フレームワークを開発します。
さらに、上位レベルの軌道プランナーが適切な目標条件付き軌道を出力できるようにする階層制御構造を使用することで、ロボット モデルが多様な動作を生成できることを実証します。
二足倒立振子ロボットモデルで提案手法を評価し、目標条件付き最終値学習と上位レベルの軌道プランナーを組み合わせることでリアルタイム制御が可能になることを確認します。
したがって、ロボットは傾斜地でもターゲットの軌道を追跡することができます。

要約(オリジナル)

While MPC enables nonlinear feedback control by solving an optimal control problem at each timestep, the computational burden tends to be significantly large, making it difficult to optimize a policy within the control period. To address this issue, one possible approach is to utilize terminal value learning to reduce computational costs. However, the learned value cannot be used for other tasks in situations where the task dynamically changes in the original MPC setup. In this study, we develop an MPC framework with goal-conditioned terminal value learning to achieve multitask policy optimization while reducing computational time. Furthermore, by using a hierarchical control structure that allows the upper-level trajectory planner to output appropriate goal-conditioned trajectories, we demonstrate that a robot model is able to generate diverse motions. We evaluate the proposed method on a bipedal inverted pendulum robot model and confirm that combining goal-conditioned terminal value learning with an upper-level trajectory planner enables real-time control; thus, the robot successfully tracks a target trajectory on sloped terrain.

arxiv情報

著者 Mitsuki Morita,Satoshi Yamamori,Satoshi Yagi,Norikazu Sugimoto,Jun Morimoto
発行日 2024-10-08 10:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | コメントする