Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following

要約

次の具体化された命令(EIF)は、インタラクティブな環境でオブジェクトをナビゲートして対話することにより、自然言語の指示を実行するタスクです。
EIFの重要な課題は、通常、監視された学習またはラベル付きデータを使用した少数のコンテキスト学習を通じて対処される構成タスク計画です。
この目的のために、Socratic Plannerを紹介します。これは、さらなるトレーニングなしで適切な計画を行う自己QAベースのゼロショット計画方法です。
ソクラテスプランナーは、最初に大規模な言語モデル(LLM)による自己質問と応答を促進し、これが一連のサブゴールを生成するのに役立ちます。
サブゴールを実行している間、具体化されたエージェントは、予期せぬ障害などの予期しない状況に遭遇する可能性があります。
ソクラテスプランナーは、視覚的に接地された再計画メカニズムを介した密な視覚フィードバックに基づいて計画を調整します。
実験は、ソクラテスプランナーの有効性を示しており、すべてのメトリックのアルフレッドベンチマークで現在の最先端の計画モデルを上回り、特に複雑な推論を必要とする長老タスクに優れています。
さらに、長期式タスクの物理ロボットでの展開を通じて、その現実世界の適用性を実証します。

要約(オリジナル)

Embodied Instruction Following (EIF) is the task of executing natural language instructions by navigating and interacting with objects in interactive environments. A key challenge in EIF is compositional task planning, typically addressed through supervised learning or few-shot in-context learning with labeled data. To this end, we introduce the Socratic Planner, a self-QA-based zero-shot planning method that infers an appropriate plan without any further training. The Socratic Planner first facilitates self-questioning and answering by the Large Language Model (LLM), which in turn helps generate a sequence of subgoals. While executing the subgoals, an embodied agent may encounter unexpected situations, such as unforeseen obstacles. The Socratic Planner then adjusts plans based on dense visual feedback through a visually-grounded re-planning mechanism. Experiments demonstrate the effectiveness of the Socratic Planner, outperforming current state-of-the-art planning models on the ALFRED benchmark across all metrics, particularly excelling in long-horizon tasks that demand complex inference. We further demonstrate its real-world applicability through deployment on a physical robot for long-horizon tasks.

arxiv情報

著者 Suyeon Shin,Sujin jeon,Junghyun Kim,Gi-Cheon Kang,Byoung-Tak Zhang
発行日 2025-03-26 07:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T45, 68T50, cs.AI, cs.CL, cs.CV, cs.RO | Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following はコメントを受け付けていません

A Multilingual, Culture-First Approach to Addressing Misgendering in LLM Applications

要約

誤解とは、選択したアイデンティティと一致しない性別で誰かを言及する行為です。
それは人の自己感覚を疎外し、弱体化させ、大きな害を引き起こします。
英語ベースのアプローチには、代名詞「They」の使用など、誤解を回避するための明確なアプローチがあります。
ただし、他の言語は、文法的構造と文化的構成要素の両方により、独自の課題をもたらします。
この作業では、参加型デザインのアプローチを使用して、42の言語と方言にわたって誤解を評価および緩和する方法論を開発し、すべての言語で効果的かつ適切なガードレールを設計します。
これらのガードレールは、データ生成と注釈手順の両方がループ内のアプローチに従った標準の大規模な言語モデルベースのアプリケーション(トランスクリプトの要約を満たす)でテストします。
提案されているガードレールは、生成された要約のすべての言語にわたって誤認率を低下させ、品質の損失を伴うことなく非常に効果的であることがわかります。
私たちのループのアプローチは、複数の言語と文化にわたって、包括的かつ責任あるAIベースのソリューションを実行可能にスケーリングする方法を実証しています。

要約(オリジナル)

Misgendering is the act of referring to someone by a gender that does not match their chosen identity. It marginalizes and undermines a person’s sense of self, causing significant harm. English-based approaches have clear-cut approaches to avoiding misgendering, such as the use of the pronoun “they”. However, other languages pose unique challenges due to both grammatical and cultural constructs. In this work we develop methodologies to assess and mitigate misgendering across 42 languages and dialects using a participatory-design approach to design effective and appropriate guardrails across all languages. We test these guardrails in a standard large language model-based application (meeting transcript summarization), where both the data generation and the annotation steps followed a human-in-the-loop approach. We find that the proposed guardrails are very effective in reducing misgendering rates across all languages in the summaries generated, and without incurring loss of quality. Our human-in-the-loop approach demonstrates a method to feasibly scale inclusive and responsible AI-based solutions across multiple languages and cultures.

arxiv情報

著者 Sunayana Sitaram,Adrian de Wynter,Isobel McCrum,Qilong Gu,Si-Qing Chen
発行日 2025-03-26 08:01:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Multilingual, Culture-First Approach to Addressing Misgendering in LLM Applications はコメントを受け付けていません

Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models

要約

大規模な言語モデル(LLM)は、応答の人間の価値に合わせて設計されています。
この研究は、各プロンプトが複数の反復で体系的に修正および改良され、徐々に攻撃攻​​撃での有効性を高めるために体系的に修正および改良されている反復プロンプト技術でLLMSを活用します。
この手法では、GPT-3.5、GPT-4、LLAMA2、VICUNA、およびCHATGLMなどのLLMの応答パターンを分析することで、LLMSの倫理的およびセキュリティ制約を回避するプロンプトを調整および最適化できます。
説得戦略は、悪意との一貫性を維持しながら、迅速な有効性を高めます。
我々の結果は、攻撃プロンプトがGPT4およびChatGlmで90%の最高のASR、Llama2で68%の最低ASRでより洗練されるにつれて、攻撃成功率(ASR)が増加することを示しています。
当社のテクニックは、ASRのベースラインテクニック(ペアとPAP)を上回り、GCGとArtPromptと同等のパフォーマンスを示しています。

要約(オリジナル)

Large language models (LLMs) are designed to align with human values in their responses. This study exploits LLMs with an iterative prompting technique where each prompt is systematically modified and refined across multiple iterations to enhance its effectiveness in jailbreaking attacks progressively. This technique involves analyzing the response patterns of LLMs, including GPT-3.5, GPT-4, LLaMa2, Vicuna, and ChatGLM, allowing us to adjust and optimize prompts to evade the LLMs’ ethical and security constraints. Persuasion strategies enhance prompt effectiveness while maintaining consistency with malicious intent. Our results show that the attack success rates (ASR) increase as the attacking prompts become more refined with the highest ASR of 90% for GPT4 and ChatGLM and the lowest ASR of 68% for LLaMa2. Our technique outperforms baseline techniques (PAIR and PAP) in ASR and shows comparable performance with GCG and ArtPrompt.

arxiv情報

著者 Shih-Wen Ke,Guan-Yu Lai,Guo-Lin Fang,Hsi-Yuan Kao
発行日 2025-03-26 08:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET | Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models はコメントを受け付けていません

VideoGEM: Training-free Action Grounding in Videos

要約

Vision-Language Foundationモデルは、主に画像のオブジェクトのローカライズに焦点を当てた、トレーニングなしのローカリゼーションや接地など、さまざまなゼロショットタスクで印象的な機能を示しています。
ただし、動画内のアクションやイベントをローカライズする機能を活用することは挑戦的です。アクションは物理的なアウトラインが少なく、通常は高レベルの概念によって説明されます。
この作業では、前処理された画像とビデオ言語のバックボーンに基づいた最初のトレーニングなしの空間アクション接地方法であるVideoGemを提案します。
つまり、宝石の自己自己注意の定式化を空間的な活動の接地に適応させます。
アクションなどの高レベルのセマンティック概念は、通常、画像モデルとビデオ言語モデルのより高い層に現れることを観察します。
したがって、私たちは、高層に優先順位を付けるために、自己関節経路に層の重み付けを提案します。
さらに、動的な重み付け方法を導入して、レイヤーの重みを自動的にチューニングして、特定のプロンプトに各レイヤーの関連性をキャプチャします。
最後に、プロンプトの分解、処理アクション、動詞、およびオブジェクトプロンプトを個別に導入し、アクションの空間的ローカリゼーションを改善します。
3つの画像およびビデオ言語のバックボーン、クリップ、OpenCLip、およびVicLip、および4つのビデオ接地データセット、V-HICO、DALY、YouCook Interctions、およびGroundingYouTubeで提案されたアプローチを評価します。

要約(オリジナル)

Vision-language foundation models have shown impressive capabilities across various zero-shot tasks, including training-free localization and grounding, primarily focusing on localizing objects in images. However, leveraging those capabilities to localize actions and events in videos is challenging, as actions have less physical outline and are usually described by higher-level concepts. In this work, we propose VideoGEM, the first training-free spatial action grounding method based on pretrained image- and video-language backbones. Namely, we adapt the self-self attention formulation of GEM to spatial activity grounding. We observe that high-level semantic concepts, such as actions, usually emerge in the higher layers of the image- and video-language models. We, therefore, propose a layer weighting in the self-attention path to prioritize higher layers. Additionally, we introduce a dynamic weighting method to automatically tune layer weights to capture each layer`s relevance to a specific prompt. Finally, we introduce a prompt decomposition, processing action, verb, and object prompts separately, resulting in a better spatial localization of actions. We evaluate the proposed approach on three image- and video-language backbones, CLIP, OpenCLIP, and ViCLIP, and on four video grounding datasets, V-HICO, DALY, YouCook-Interactions, and GroundingYouTube, showing that the proposed training-free approach is able to outperform current trained state-of-the-art approaches for spatial video grounding.

arxiv情報

著者 Felix Vogel,Walid Bousselham,Anna Kukleva,Nina Shvetsova,Hilde Kuehne
発行日 2025-03-26 09:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | VideoGEM: Training-free Action Grounding in Videos はコメントを受け付けていません

Exploratory Study into Relations between Cognitive Distortions and Emotional Appraisals

要約

近年、計算と心理的観点の両方から認知的歪みと感情的な評価を研究することに関心が高まっています。
感情的な再評価と感情調節技術としての認知的再構成の間のかなりの類似点にもかかわらず、これらの概念は主に単独で検討されてきました。
この研究では、認知的歪みと感情的な評価の側面との関係を探り、潜在的なつながりと将来の学際的研究との関連性を調べます。
この口実の下で、認知歪みと感情的な評価の関係を調査することを目的とした探索的計算研究を実施します。
認知的歪みと評価の次元の間の統計的に有意な関係のパターンは、異なる歪みカテゴリによって異なることを示し、個々の歪みクラスの明確な評価プロファイルを引き起こします。
さらに、評価の次元に対する認知再構築の影響を分析し、認知再構築の感情調節の側面を例示します。

要約(オリジナル)

In recent years, there has been growing interest in studying cognitive distortions and emotional appraisals from both computational and psychological perspectives. Despite considerable similarities between emotional reappraisal and cognitive reframing as emotion regulation techniques, these concepts have largely been examined in isolation. This research explores the relationship between cognitive distortions and emotional appraisal dimensions, examining their potential connections and relevance for future interdisciplinary studies. Under this pretext, we conduct an exploratory computational study, aimed at investigating the relationship between cognitive distortion and emotional appraisals. We show that the patterns of statistically significant relationships between cognitive distortions and appraisal dimensions vary across different distortion categories, giving rise to distinct appraisal profiles for individual distortion classes. Additionally, we analyze the impact of cognitive restructuring on appraisal dimensions, exemplifying the emotion regulation aspect of cognitive restructuring.

arxiv情報

著者 Navneet Agarwal,Kairit Sirts
発行日 2025-03-26 09:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploratory Study into Relations between Cognitive Distortions and Emotional Appraisals はコメントを受け付けていません

Ensemble Debiasing Across Class and Sample Levels for Fairer Prompting Accuracy

要約

言語モデルは強力な少ないショット学習者であり、テキスト分類タスクの全体的な正確さを達成し、結果の結果が大きなクラスの精度の不均衡に苦しんでいるという事実を隠しています。
私たちは、全体的な精度の追求は、強力なクラスを豊かにすることからではなく、弱いクラスを育てることからもたらされるべきだと考えています。
不均衡に対処するために、クラスレベルとサンプルレベルの両方で、コンテキスト内のクラス確率の柔軟な修正を可能にするため、重いステップ機能ベースのアンサンブルディビアシング方法を提案します。
7つのテキスト分類ベンチマークでのllama-2-13bでの評価は、私たちのアプローチがバランスの取れたクラスの精度で最先端の全体的な精度を達成することを示しています。
さらに重要なことは、結果の確率補正スキームの分析を実行し、弱いクラスを高めるためにサンプルレベルの修正が必要であることを示しています。
弱いクラスを効果的に修正するため、私たちの方法は、特に生物医学的ドメインタスクで、より大きなモデルバリアントLlama-2-70bに大きなパフォーマンスの向上をもたらし、両方のレベルでのアンサンブル紛争の必要性をさらに実証します。

要約(オリジナル)

Language models are strong few-shot learners and achieve good overall accuracy in text classification tasks, masking the fact that their results suffer from great class accuracy imbalance. We believe that the pursuit of overall accuracy should not come from enriching the strong classes, but from raising up the weak ones. To address the imbalance, we propose a Heaviside step function based ensemble debiasing method, which enables flexible rectifications of in-context learned class probabilities at both class and sample levels. Evaluations with Llama-2-13B on seven text classification benchmarks show that our approach achieves state-of-the-art overall accuracy gains with balanced class accuracies. More importantly, we perform analyses on the resulted probability correction scheme, showing that sample-level corrections are necessary to elevate weak classes. Due to effectively correcting weak classes, our method also brings significant performance gains to a larger model variant, Llama-2-70B, especially on a biomedical domain task, further demonstrating the necessity of ensemble debiasing at both levels.

arxiv情報

著者 Ruixi Lin,Ziqiao Wang,Yang You
発行日 2025-03-26 10:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Ensemble Debiasing Across Class and Sample Levels for Fairer Prompting Accuracy はコメントを受け付けていません

Retro-li: Small-Scale Retrieval Augmented Generation Supporting Noisy Similarity Searches and Domain Shift Generalization

要約

レトロなどの検索拡張生成(RAG)システムは、言語モデリング機能を改善し、数兆個のエントリを含むノンパラメトリックメモリのデータベースから取得することにより、毒性と幻覚を減らすことが示されています。
検索が小規模なデータベースの使用にも役立つことを示すRetro-LIを導入しますが、より小さなノンパラメトリックメモリで検索する際に、より正確でより良い隣人を必要とします。
これは、適切なセマンティックな類似性検索を使用して満たすことができます。
さらに、ノンパラメトリックメモリに正則化を初めて追加することを提案します。それは、推論中に近隣検索操作がうるさいと困惑を大幅に減らし、ドメインシフトが発生すると一般化を改善します。
また、Retro-LIのノンパラメトリックメモリをアナログインメモリコンピューティングハードウェアに潜在的に実装できることを示しており、最小(<1%)のパフォーマンス損失で、近隣の回収にノイズを引き起こしながらO(1)検索時間を示します。 私たちのコードは、https://github.com/ibm/retrieval-enhanced-transformer-littleで入手できます。

要約(オリジナル)

The retrieval augmented generation (RAG) system such as Retro has been shown to improve language modeling capabilities and reduce toxicity and hallucinations by retrieving from a database of non-parametric memory containing trillions of entries. We introduce Retro-li that shows retrieval can also help using a small-scale database, but it demands more accurate and better neighbors when searching in a smaller hence sparser non-parametric memory. This can be met by using a proper semantic similarity search. We further propose adding a regularization to the non-parametric memory for the first time: it significantly reduces perplexity when the neighbor search operations are noisy during inference, and it improves generalization when a domain shift occurs. We also show that Retro-li’s non-parametric memory can potentially be implemented on analog in-memory computing hardware, exhibiting O(1) search time while causing noise in retrieving neighbors, with minimal (<1%) performance loss. Our code is available at: https://github.com/IBM/Retrieval-Enhanced-Transformer-Little.

arxiv情報

著者 Gentiana Rashiti,Geethan Karunaratne,Mrinmaya Sachan,Abu Sebastian,Abbas Rahimi
発行日 2025-03-26 10:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Retro-li: Small-Scale Retrieval Augmented Generation Supporting Noisy Similarity Searches and Domain Shift Generalization はコメントを受け付けていません

CFunModel: A ‘Funny’ Language Model Capable of Chinese Humor Generation and Processing

要約

ユーモアは、毎日の言語コミュニケーションにおいて重要な役割を果たします。
大規模な言語モデル(LLM)の急速な発展により、自然言語処理は、さまざまなジャンルのテキストを理解し、生成することに大きな進歩を遂げました。
ただし、ほとんどのLLMは、中国のユーモアの生成と処理においてパフォーマンスが低下します。
この研究では、包括的な中国のユーモア関連のデータセット、The Chinese Fun Set(CFunset)を紹介します。
このデータセットは、既存の中国のユーモアデータセットを集約し、ジョーク共有で知られる中国のオンラインプラットフォームであるTieba-Jokebarから収集された20,000を超えるジョークが含まれています。
結果のコーパスは、160,000を超えるエントリで構成されています。
cfunsetを活用して、Chsined cfunset(Cfunmodel)を開発しました。これは、クロストーク応答の選択、ユーモア認識、冗談の生成など、さまざまな中国のユーモア関連のタスクを処理するために設計された最初の大規模な言語モデルです。
cfunsetはhttps://huggingface.co/datasets/zhenghanyu/cfunsetで入手でき、cfunmodelはhttps://huggingface.co/zhenghanyu/cfunmodelで入手できます。
私たちの作品のデモステーションビデオは、https://youtu.be/mosisoj66msで入手できます。

要約(オリジナル)

Humor plays a significant role in daily language communication. With the rapid development of large language models (LLMs), natural language processing has made significant strides in understanding and generating various genres of texts. However, most LLMs exhibit poor performance in generating and processing Chinese humor. In this study, we introduce a comprehensive Chinese humor-related dataset, the Chinese Fun Set (CFunSet). This dataset aggregates existing Chinese humor datasets and includes over 20,000 jokes collected from Tieba-JokeBar, a Chinese online platform known for joke sharing. The resulting corpus comprises more than 160,000 entries. Leveraging CFunSet, we developed the Chinese Fun Model (CFunModel), the first large language model designed to handle various Chinese humor-related tasks including Crosstalk Response Selection, Humor Recognition, Joke Generation, etc. Experimental results demonstrate that CFunModel outperforms popular large language models in these tasks. Our CFunSet is available at https://huggingface.co/datasets/ZhenghanYU/CFunSet and CFunModel is available at https://huggingface.co/ZhenghanYU/CFunModel. A demostration video of our work is available at https://youtu.be/MOsISOJ66Ms.

arxiv情報

著者 Zhenghan Yu,Xinyu Hu,Xiaojun Wan
発行日 2025-03-26 10:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CFunModel: A ‘Funny’ Language Model Capable of Chinese Humor Generation and Processing はコメントを受け付けていません

TempTest: Local Normalization Distortion and the Detection of Machine-generated Text

要約

機械で生成されたテキストのゼロショット検出のための既存の方法は、対数尤度、ログランク、およびエントロピーの3つの統計量によって支配されています。
言語モデルが人間のテキストの分布をこれまでに近づくにつれて、これにより、効果的な検出アルゴリズムを構築する能力が制限されます。
これと戦うために、生成言語モデルの完全に不可知論される機械で生成されたテキストを検出する方法を紹介します。
これは、温度やトップKサンプリングなどのデコード戦略が条件付き確率測定を正常化する方法で欠陥をターゲットにすることによって達成されます。
この方法は、理論的に正当化され、簡単に説明でき、概念的に既存の方法と機械生成テキストを検出する方法とは異なります。
さまざまな言語モデル、データセット、およびパッセージの長さにわたって、白とブラックボックスの設定で検出器を評価します。
また、検出器に対する言い換え攻撃の効果と、それが非ネイティブスピーカーに対して偏っている程度を研究します。
これらの各設定では、テストのパフォーマンスは、少なくとも他の最先端のテキスト検出器のパフォーマンスに匹敵します。場合によっては、これらのベースラインを強く上回ります。

要約(オリジナル)

Existing methods for the zero-shot detection of machine-generated text are dominated by three statistical quantities: log-likelihood, log-rank, and entropy. As language models mimic the distribution of human text ever closer, this will limit our ability to build effective detection algorithms. To combat this, we introduce a method for detecting machine-generated text that is entirely agnostic of the generating language model. This is achieved by targeting a defect in the way that decoding strategies, such as temperature or top-k sampling, normalize conditional probability measures. This method can be rigorously theoretically justified, is easily explainable, and is conceptually distinct from existing methods for detecting machine-generated text. We evaluate our detector in the white and black box settings across various language models, datasets, and passage lengths. We also study the effect of paraphrasing attacks on our detector and the extent to which it is biased against non-native speakers. In each of these settings, the performance of our test is at least comparable to that of other state-of-the-art text detectors, and in some cases, we strongly outperform these baselines.

arxiv情報

著者 Tom Kempton,Stuart Burrell,Connor Cheverall
発行日 2025-03-26 10:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.DS | TempTest: Local Normalization Distortion and the Detection of Machine-generated Text はコメントを受け付けていません

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

要約

ビデオ生成モデルは、テキストからビデオへのタスクで顕著な進歩を達成しています。
これらのモデルは通常、非常に詳細で慎重に作成された説明を備えたテキストビデオペアでトレーニングされますが、推論中の実際のユーザー入力はしばしば簡潔、曖昧、または不十分に構造化されています。
このギャップにより、高品質のビデオを生成するために迅速な最適化が重要になります。
現在の方法は、多くの場合、大規模な言語モデル(LLMS)に依存して、コンテキスト内の学習を通じてプロンプトを改良しますが、いくつかの制限に苦しんでいます。ユーザーの意図を歪めたり、重要な詳細を省略したり、安全リスクを導入したりする場合があります。
さらに、最終的なビデオ品質への影響を考慮せずにプロンプ​​トを最適化します。
これらの問題に対処するために、VPOを紹介します。VPOは、無害、正確性、有用性という3つのコア原則に基づいてプロンプトを最適化する原則的なフレームワークです。
生成されたプロンプトは、ユーザーの意図を忠実に保存し、さらに重要なことに、生成されたビデオの安全性と品質を向上させることです。
これを達成するために、VPOは2段階の最適化アプローチを採用しています。
まず、安全性とアライメントの原則に基づいて、監視された微調整(SFT)データセットを構築および改良します。
第二に、テキストレベルとビデオレベルの両方のフィードバックを導入して、SFTモデルを優先学習でさらに最適化します。
当社の広範な実験は、VPOがベースライン方法と比較して安全性、アラインメント、およびビデオの品質を大幅に改善することを示しています。
さらに、VPOはビデオ生成モデル全体で強力な一般化を示しています。
さらに、VPOがビデオ生成モデルのRLHFメソッドを上回り、RLHFメソッドと組み合わせることができることを実証し、ビデオ生成モデルの調整におけるVPOの有効性を強調しています。
私たちのコードとデータは、https://github.com/thu-coai/vpoで公開されています。

要約(オリジナル)

Video generation models have achieved remarkable progress in text-to-video tasks. These models are typically trained on text-video pairs with highly detailed and carefully crafted descriptions, while real-world user inputs during inference are often concise, vague, or poorly structured. This gap makes prompt optimization crucial for generating high-quality videos. Current methods often rely on large language models (LLMs) to refine prompts through in-context learning, but suffer from several limitations: they may distort user intent, omit critical details, or introduce safety risks. Moreover, they optimize prompts without considering the impact on the final video quality, which can lead to suboptimal results. To address these issues, we introduce VPO, a principled framework that optimizes prompts based on three core principles: harmlessness, accuracy, and helpfulness. The generated prompts faithfully preserve user intents and, more importantly, enhance the safety and quality of generated videos. To achieve this, VPO employs a two-stage optimization approach. First, we construct and refine a supervised fine-tuning (SFT) dataset based on principles of safety and alignment. Second, we introduce both text-level and video-level feedback to further optimize the SFT model with preference learning. Our extensive experiments demonstrate that VPO significantly improves safety, alignment, and video quality compared to baseline methods. Moreover, VPO shows strong generalization across video generation models. Furthermore, we demonstrate that VPO could outperform and be combined with RLHF methods on video generation models, underscoring the effectiveness of VPO in aligning video generation models. Our code and data are publicly available at https://github.com/thu-coai/VPO.

arxiv情報

著者 Jiale Cheng,Ruiliang Lyu,Xiaotao Gu,Xiao Liu,Jiazheng Xu,Yida Lu,Jiayan Teng,Zhuoyi Yang,Yuxiao Dong,Jie Tang,Hongning Wang,Minlie Huang
発行日 2025-03-26 12:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | VPO: Aligning Text-to-Video Generation Models with Prompt Optimization はコメントを受け付けていません