Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation

要約

小さな拡散モデルを使用して大きな画像を生成すると、大規模なモデルのトレーニングコストが法外になる可能性があるため、人気が高まっています。
一般的なアプローチでは、一連のオーバーラップ画像パッチを共同で生成し、隣接するパッチをマージして大きな画像を取得することが含まれます。
ただし、既存の方法の結果は、多くの場合、目立ったアーティファクト、たとえば縫い目や一貫性のないオブジェクトやスタイルを示します。
問題に対処するために、ガイド付き融合(GF)を提案しました。これは、重み付き平均を重複領域に適用することにより、遠い画像領域からのマイナスの影響を軽減します。
さらに、分散補正融合(VCF)を提案しました。これは、平均後のデータ分散を修正し、拡散性確率モデルの除去により正確な融合を生成します。
さらに、ワンショットスタイルのアラインメント(SA)を提案しました。これは、計算上の負担を追加せずに初期入力ノイズを調整することにより、大きな画像のコヒーレントスタイルを生成します。
広範な実験により、提案された融合方法により、生成された画像の品質が大幅に向上することが実証されました。
提案された方法は、大きな画像生成のための他の融合ベースの方法を強化するために、プラグアンドプレイモジュールとして広く適用できます。
コード:https://github.com/titorx/gvcfdiffusion

要約(オリジナル)

Producing large images using small diffusion models is gaining increasing popularity, as the cost of training large models could be prohibitive. A common approach involves jointly generating a series of overlapped image patches and obtaining large images by merging adjacent patches. However, results from existing methods often exhibit noticeable artifacts, e.g., seams and inconsistent objects and styles. To address the issues, we proposed Guided Fusion (GF), which mitigates the negative impact from distant image regions by applying a weighted average to the overlapping regions. Moreover, we proposed Variance-Corrected Fusion (VCF), which corrects data variance at post-averaging, generating more accurate fusion for the Denoising Diffusion Probabilistic Model. Furthermore, we proposed a one-shot Style Alignment (SA), which generates a coherent style for large images by adjusting the initial input noise without adding extra computational burden. Extensive experiments demonstrated that the proposed fusion methods improved the quality of the generated image significantly. The proposed method can be widely applied as a plug-and-play module to enhance other fusion-based methods for large image generation. Code: https://github.com/TitorX/GVCFDiffusion

arxiv情報

著者 Shoukun Sun,Min Xian,Tiankai Yao,Fei Xu,Luca Capriotti
発行日 2025-02-10 18:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation はコメントを受け付けていません

KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification

要約

特定のタスクの事前訓練を受けたビジョンモデルを微調整することは、コンピュータービジョンにおける一般的な実践です。
ただし、モデルが大きくなるにつれて、このプロセスはより高価になります。
最近、パラメーター効率の高い微調整(PEFT)メソッドは、事前に訓練されたバックボーン内の追加の低ランクモジュールを調整することにより、トレーニング効率を改善し、ストレージのニーズを削減するための一般的なソリューションとして浮上しています。
彼らの利点にもかかわらず、彼らは限られた表現能力と事前に訓練された中間機能との不整合に苦労しています。
これらの問題に対処するために、さまざまな認識タスクのために再スケーリング送信(KARST)を備えた革新的なマルチカーネルKronecker適応を導入します。
具体的には、そのマルチカーネル設計はKroneckerの投影を水平方向に拡張し、適応マトリックスを複数の相補的なスペースに分離し、パラメーターの依存関係を削減し、よりコンパクトなサブスペースを作成します。
また、事前に訓練された機能分布とより適切に調整するために、追加の学習可能な再スケーリング因子が組み込まれ、より柔軟でバランスの取れた機能集約が可能になります。
広範な実験では、カルストが再パラメーター化特性により、無視できる推論コストで他のPEFTカウンターパートよりも優れていることを検証します。
コードは、https://github.com/lucenova/karstで公開されています。

要約(オリジナル)

Fine-tuning pre-trained vision models for specific tasks is a common practice in computer vision. However, this process becomes more expensive as models grow larger. Recently, parameter-efficient fine-tuning (PEFT) methods have emerged as a popular solution to improve training efficiency and reduce storage needs by tuning additional low-rank modules within pre-trained backbones. Despite their advantages, they struggle with limited representation capabilities and misalignment with pre-trained intermediate features. To address these issues, we introduce an innovative Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission (KARST) for various recognition tasks. Specifically, its multi-kernel design extends Kronecker projections horizontally and separates adaptation matrices into multiple complementary spaces, reducing parameter dependency and creating more compact subspaces. Besides, it incorporates extra learnable re-scaling factors to better align with pre-trained feature distributions, allowing for more flexible and balanced feature aggregation. Extensive experiments validate that our KARST outperforms other PEFT counterparts with a negligible inference cost due to its re-parameterization characteristics. Code is publicly available at: https://github.com/Lucenova/KARST.

arxiv情報

著者 Yue Zhu,Haiwen Diao,Shang Gao,Long Chen,Huchuan Lu
発行日 2025-02-10 18:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification はコメントを受け付けていません

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

要約

最近の進歩により、生成モデリングの支配的なフレームワークとして拡散変圧器(DIT)が確立されています。
この成功に基づいて、Lumina-Nextは、次のディットを使用して、フォトリアリスティックな画像の生成において並外れたパフォーマンスを実現します。
ただし、ビデオ生成の可能性はほとんど未開発のままであり、ビデオデータに固有の時空の複雑さをモデル化する上で大きな課題があります。
これに対処するために、ビデオ統合のためのテーラードソリューションを導入しながら、次のディットの強度を活用するフレームワークであるLumina-Videoを紹介します。
Lumina-Videoには、マルチスケールのネクストディットアーキテクチャが組み込まれています。これは、効率と柔軟性の両方を強化するための複数のパッチ化を共同で学習します。
モーションスコアを明示的な条件として組み込むことにより、Lumina-Videoは生成されたビデオの動的程度を直接制御することもできます。
ますます高い解像度とFPSを備えたプログレッシブトレーニングスキーム、および自然データと合成データが混在するマルチソーストレーニングスキームと組み合わせることで、Lumina-Videoは、高トレーニングと推論効率で顕著な審美的な品質と動きの滑らかさを実現します。
さらに、次のディットに基づいたビデオからオーディオモデルであるLumina-V2Aを提案して、生成されたビデオの同期サウンドを作成します。
コードはhttps://www.github.com/alpha-vllm/lumina-videoでリリースされます。

要約(オリジナル)

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos’ dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

arxiv情報

著者 Dongyang Liu,Shicheng Li,Yutong Liu,Zhen Li,Kai Wang,Xinyue Li,Qi Qin,Yufei Liu,Yi Xin,Zhongyu Li,Bin Fu,Chenyang Si,Yuewen Cao,Conghui He,Ziwei Liu,Yu Qiao,Qibin Hou,Hongsheng Li,Peng Gao
発行日 2025-02-10 18:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT はコメントを受け付けていません

Visual Agentic AI for Spatial Reasoning with a Dynamic API

要約

視覚的な推論 – 視覚世界を解釈する能力 – は、3次元シーン内で動作する具体化されたエージェントにとって重要です。
AIの進歩は、画像からの質問に答えることができるビジョンモデルと言語モデルにつながりました。
ただし、3D空間推論を任された場合、パフォーマンスは低下します。
このような推論の問題の複雑さに取り組むために、LLMエージェントが一般的なサブ問題を解決するために新しい機能と共同でPythonic APIを生成するエージェントプログラム統合アプローチを導入します。
私たちの方法は、静的で人間定義されたAPIに依存する以前のアプローチの制限を克服し、より広い範囲のクエリを処理できるようにします。
3D理解のAI機能を評価するために、複数のステップの接地と推論を含むクエリの新しいベンチマークを紹介します。
私たちの方法は、3Dでの視覚的推論のために以前のゼロショットモデルを上回り、3D空間推論タスクのエージェントフレームワークの有効性を経験的に検証することを示します。
プロジェクトWebサイト:https://glab-caltech.github.io/vadar/

要約(オリジナル)

Visual reasoning — the ability to interpret the visual world — is crucial for embodied agents that operate within three-dimensional scenes. Progress in AI has led to vision and language models capable of answering questions from images. However, their performance declines when tasked with 3D spatial reasoning. To tackle the complexity of such reasoning problems, we introduce an agentic program synthesis approach where LLM agents collaboratively generate a Pythonic API with new functions to solve common subproblems. Our method overcomes limitations of prior approaches that rely on a static, human-defined API, allowing it to handle a wider range of queries. To assess AI capabilities for 3D understanding, we introduce a new benchmark of queries involving multiple steps of grounding and inference. We show that our method outperforms prior zero-shot models for visual reasoning in 3D and empirically validate the effectiveness of our agentic framework for 3D spatial reasoning tasks. Project website: https://glab-caltech.github.io/vadar/

arxiv情報

著者 Damiano Marsili,Rohun Agrawal,Yisong Yue,Georgia Gkioxari
発行日 2025-02-10 18:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Agentic AI for Spatial Reasoning with a Dynamic API はコメントを受け付けていません

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

要約

既存のエンコーダーフリーのビジョン言語モデル(VLM)は、エンコーダベースのカウンターパートとのパフォーマンスギャップを急速に狭め、構造的シンプルさと効率的な展開を備えた統一マルチモーダルシステムの有望な可能性を強調しています。
事前に訓練されたビジョンエンコーダー、離散トークナザー、およびミニマリストの視覚層をゼロから使用して、VLM間のパフォーマンスギャップを体系的に明確にし、エンコーダーフリーのVLMの尋問していない特性を深く掘削します。
主流のエンコーダーベースのエンコーダーベースのエンコーダーに匹敵するエンコーダーのないVLMの効率的な戦略を開発します。
詳細な調査の後、エンコーダーのないVLMの新しく改善されたファミリであるEVEV2.0を発売します。
(i)統一されたモデル内でビジョンと言語を適切に分解し、階層的に結び付け、モダリティ間の干渉を減らします。
(ii)適切に設計されたトレーニング戦略により、エンコーダーフリーのVLMの効果的な最適化が可能になります。
広範な評価を通じて、EVEV2.0は、モダリティ全体でデコーダーのみのアーキテクチャを開発するための徹底的な研究を表しており、優れたデータ効率と強力な視覚節能力を実証しています。
コードは、https://github.com/baaivision/eveで公開されています。

要約(オリジナル)

Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.

arxiv情報

著者 Haiwen Diao,Xiaotong Li,Yufeng Cui,Yueze Wang,Haoge Deng,Ting Pan,Wenxuan Wang,Huchuan Lu,Xinlong Wang
発行日 2025-02-10 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EVEv2: Improved Baselines for Encoder-Free Vision-Language Models はコメントを受け付けていません

Building Rome with Convex Optimization

要約

グローバルバンドル調整は、深さ予測と凸の最適化により簡単になります。
(i)2Dキーポイント測定を学習された深さで3Dに持ち上げるスケーリングされたバンドル調整(SBA)定式化を提案します。
Burer-Monteiro FactionizationとCUDAベースの信託地域のRiemannian Optimizer(XMと呼ばれる)を備えた極端なスケールでのSDP緩和は、XMを最適化エンジンとしてモーション(SFM)パイプラインから構造を構築し、XM-SFMがXM-SFMを示していることを示しています。
既存のSFMパイプラインと再構成の品質の点で好意的に支配または比較しますが、より速く、よりスケーラブルで、初期化が含まれていません。

要約(オリジナル)

Global bundle adjustment is made easy by depth prediction and convex optimization. We (i) propose a scaled bundle adjustment (SBA) formulation that lifts 2D keypoint measurements to 3D with learned depth, (ii) design an empirically tight convex semidfinite program (SDP) relaxation that solves SBA to certfiable global optimality, (iii) solve the SDP relaxations at extreme scale with Burer-Monteiro factorization and a CUDA-based trust-region Riemannian optimizer (dubbed XM), (iv) build a structure from motion (SfM) pipeline with XM as the optimization engine and show that XM-SfM dominates or compares favorably with existing SfM pipelines in terms of reconstruction quality while being faster, more scalable, and initialization-free.

arxiv情報

著者 Haoyu Han,Heng Yang
発行日 2025-02-10 15:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, math.OC | Building Rome with Convex Optimization はコメントを受け付けていません

Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces

要約

Lidar odometryは、3Dマッピング、ナビゲーション、同時ローカリゼーションとマッピングなど、多くのロボットアプリケーションに不可欠です。
Lidar odometryシステムは通常、モバイルロボットのエゴモーションを計算するための何らかの形のポイントクラウド登録に基づいています。
しかし、ポイントクラウドのアラインメント中に、今日のLidar odometryシステムのほとんどは、ドメイン固有の知識またはモバイルプラットフォームの運動モデルを考慮しています。
このホワイトペーパーでは、3Dライダーを装備し、平面表面を装備した車輪付きモバイルロボットに焦点を当てたLidar odometryシステムである運動学ICPを紹介します。これは、倉庫、オフィス、病院などの一般的な仮定です。
従来のポイントツーポイント反復的な最も近いポイントスキームの最適化内の制約。
このようにして、結果として生じる動きは、プラットフォームの運動学的制約に従い、ロボットのホイール臭気と3Dライダー観測を効果的に活用します。
最適化スキームにおけるLidar測定とホイール臭トメリトリーの影響を動的に調整し、システムが機能型の廊下などの縮退シナリオを処理できるようにします。
大規模な倉庫環境で動作するロボットに関するアプローチを評価しますが、屋外でも評価します。
この実験は、私たちのアプローチがトップパフォーマンスを達成し、ホイール臭トメトリーや一般的なLidar臭気システムよりも正確であることを示しています。
Kinematic-ICPは、最近、顧客のサイトで世界中の倉庫で動作するロボットのデキソリー艦隊に展開されており、完全なナビゲーションスタックとともにこの方法が現実の世界で実行できることを示しています。

要約(オリジナル)

LiDAR odometry is essential for many robotics applications, including 3D mapping, navigation, and simultaneous localization and mapping. LiDAR odometry systems are usually based on some form of point cloud registration to compute the ego-motion of a mobile robot. Yet, few of today’s LiDAR odometry systems consider domain-specific knowledge or the kinematic model of the mobile platform during the point cloud alignment. In this paper, we present Kinematic-ICP, a LiDAR odometry system that focuses on wheeled mobile robots equipped with a 3D LiDAR and moving on a planar surface, which is a common assumption for warehouses, offices, hospitals, etc. Our approach introduces kinematic constraints within the optimization of a traditional point-to-point iterative closest point scheme. In this way, the resulting motion follows the kinematic constraints of the platform, effectively exploiting the robot’s wheel odometry and the 3D LiDAR observations. We dynamically adjust the influence of LiDAR measurements and wheel odometry in our optimization scheme, allowing the system to handle degenerate scenarios such as feature-poor corridors. We evaluate our approach on robots operating in large-scale warehouse environments, but also outdoors. The experiments show that our approach achieves top performances and is more accurate than wheel odometry and common LiDAR odometry systems. Kinematic-ICP has been recently deployed in the Dexory fleet of robots operating in warehouses worldwide at their customers’ sites, showing that our method can run in the real world alongside a complete navigation stack.

arxiv情報

著者 Tiziano Guadagnino,Benedikt Mersch,Ignacio Vizzo,Saurabh Gupta,Meher V. R. Malladi,Luca Lobefaro,Guillaume Doisy,Cyrill Stachniss
発行日 2025-02-10 16:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces はコメントを受け付けていません

Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

要約

拡散モデル(DMS)やビジョン自動回帰モデル(VAR)などの最先端の視覚生成モデルは、非常に現実的な画像を生成します。
以前の作業は、視覚ドメインの仕事に安全ではない(NSFW)コンテンツを緩和しましたが、新しい脅威を特定します。画像に組み込まれたNSFWテキストの生成です。
これには、in辱、人種的中傷、性的に明示的な用語などの攻撃的な言語が含まれ、ユーザーに重大なリスクをもたらします。
すべての最先端のDMS(例:SD3、Flux、Deepfloyd IF)とVAR(例えば、無限)がこの問題に対して脆弱であることを示します。
広範な実験を通じて、視覚コンテンツに効果的な既存の緩和手法は、有害なテキスト生成を防ぎながら、良性のテキスト生成を実質的に分解しないことを実証します。
この脅威に対処するための最初のステップとして、カスタマイズされたデータセットを使用して、主要なDMアーキテクチャの基礎となるテキストエンコーダーの安全性微調整を検討します。
これにより、全体的な画像とテキスト生成の品質を維持しながら、NSFWの生成を抑制します。
最後に、この分野での研究を進めるために、画像のNSFWテキスト生成を評価するためのオープンソースベンチマークであるToxicBenchを紹介します。
ToxicBenchは、有害なプロンプト、新しいメトリック、およびNSFW性と生成品質の両方を評価する評価パイプラインのキュレーションされたデータセットを提供します。
私たちのベンチマークは、テキストから画像モデルのNSFWテキスト生成を緩和する際の将来の努力を導くことを目的としています。

要約(オリジナル)

State-of-the-art visual generation models, such as Diffusion Models (DMs) and Vision Auto-Regressive Models (VARs), produce highly realistic images. While prior work has successfully mitigated Not Safe For Work (NSFW) content in the visual domain, we identify a novel threat: the generation of NSFW text embedded within images. This includes offensive language, such as insults, racial slurs, and sexually explicit terms, posing significant risks to users. We show that all state-of-the-art DMs (e.g., SD3, Flux, DeepFloyd IF) and VARs (e.g., Infinity) are vulnerable to this issue. Through extensive experiments, we demonstrate that existing mitigation techniques, effective for visual content, fail to prevent harmful text generation while substantially degrading benign text generation. As an initial step toward addressing this threat, we explore safety fine-tuning of the text encoder underlying major DM architectures using a customized dataset. Thereby, we suppress NSFW generation while preserving overall image and text generation quality. Finally, to advance research in this area, we introduce ToxicBench, an open-source benchmark for evaluating NSFW text generation in images. ToxicBench provides a curated dataset of harmful prompts, new metrics, and an evaluation pipeline assessing both NSFW-ness and generation quality. Our benchmark aims to guide future efforts in mitigating NSFW text generation in text-to-image models.

arxiv情報

著者 Aditya Kumar,Tom Blanchard,Adam Dziedzic,Franziska Boenisch
発行日 2025-02-10 14:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images はコメントを受け付けていません

STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion

要約

ヒューマノイドロボットは、人工知能に大きな課題を提示し、高度の高度化システムの正確な調整と制御を必要とします。
このドメインにおける深い強化学習(DRL)の効果的な報酬機能の設計は、依然として重要なボトルネックであり、広範な手動の努力、ドメインの専門知識、反復改良を要求しています。
これらの課題を克服するために、Humanoid Robot Mocomotionタスクの報酬設計、DRLトレーニング、フィードバックの最適化を自動化するために、エージェントエンジニアリングに基づいた新しいフレームワークであるStrideを紹介します。
エージェントエンジニアリングの構造化された原理を、コードライティング、ゼロショット生成、およびコンテキスト内最適化のための大規模な言語モデル(LLMS)と組み合わせることにより、ストライドは、タスク固有のプロンプトやテンプレートに頼らずに報酬機能を生成、評価、および繰り返し洗練します。

ヒューマノイドロボットの形態を特徴とする多様な環境にわたって、Strideは最先端の報酬設計フレームワークEurekaを上回り、効率とタスクのパフォーマンスの大幅な改善を達成します。
ストライド生成の報酬を使用して、シミュレートされたヒューマノイドロボットは、複雑な地形でスプリントレベルの移動を実現し、DRLワークフローとヒューマノイドロボット研究を進める能力を強調します。

要約(オリジナル)

Humanoid robotics presents significant challenges in artificial intelligence, requiring precise coordination and control of high-degree-of-freedom systems. Designing effective reward functions for deep reinforcement learning (DRL) in this domain remains a critical bottleneck, demanding extensive manual effort, domain expertise, and iterative refinement. To overcome these challenges, we introduce STRIDE, a novel framework built on agentic engineering to automate reward design, DRL training, and feedback optimization for humanoid robot locomotion tasks. By combining the structured principles of agentic engineering with large language models (LLMs) for code-writing, zero-shot generation, and in-context optimization, STRIDE generates, evaluates, and iteratively refines reward functions without relying on task-specific prompts or templates. Across diverse environments featuring humanoid robot morphologies, STRIDE outperforms the state-of-the-art reward design framework EUREKA, achieving significant improvements in efficiency and task performance. Using STRIDE-generated rewards, simulated humanoid robots achieve sprint-level locomotion across complex terrains, highlighting its ability to advance DRL workflows and humanoid robotics research.

arxiv情報

著者 Zhenwei Wu,Jinxiong Lu,Yuxiao Chen,Yunxin Liu,Yueting Zhuang,Luhui Hu
発行日 2025-02-10 13:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion はコメントを受け付けていません

Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems

要約

この研究では、大規模な言語モデル(LLM)を使用してタスク指向のダイアログシステムを開発するための構造化されたプロンプトエンジニアリングフレームワークである会話ルーチン(CR)を紹介します。
LLMは顕著な自然言語理解能力を示していますが、複雑なビジネスワークフローを確実に実行するためにそれらを設計することは依然として困難です。
提案されたCRフレームワークにより、自然言語仕様を通じて会話エージェントシステム(CAS)の開発が可能になり、LLMプロンプトにタスク指向のロジックを埋め込みます。
このアプローチは、行動の一貫性を維持しながら、複雑な会話ワークフローを設計および実装するための体系的な方法論を提供します。
2つの概念実装の実装を通じてフレームワークの有効性を実証します:列車のチケット予約システムとインタラクティブなトラブルシューティングカピロー。
これらのケーススタディは、自然な会話の柔軟性を維持しながら、洗練された行動パターンと決定論理をエンコードするCRの能力を検証します。
結果は、CRがソフトウェアエンジニアによって開発されたカスタム関数(ツール)を活用しながら、ドメインの専門家が自然言語で会話のワークフローを設計できることを示しており、開発者がコアAPI実装に焦点を当て、ドメインの専門家が会話のデザインを処理する効率的な責任の分割を作成します。
フレームワークはアクセシビリティと適応性の有望を示していますが、計算オーバーヘッド、非決定論的行動、ドメイン固有のロジック最適化などの重要な課題を特定します。
将来の研究の方向性には、目標指向のグレーディング基準によって駆動される迅速なエンジニアリングフレームワークに基づくCR評価方法、複雑なマルチエージェント相互作用のスケーラビリティの向上、および多様なビジネスアプリケーション全体の特定された制限に対処するためのシステムの堅牢性の向上が含まれます。

要約(オリジナル)

This study introduces Conversation Routines (CR), a structured prompt engineering framework for developing task-oriented dialog systems using Large Language Models (LLMs). While LLMs demonstrate remarkable natural language understanding capabilities, engineering them to reliably execute complex business workflows remains challenging. The proposed CR framework enables the development of Conversation Agentic Systems (CAS) through natural language specifications, embedding task-oriented logic within LLM prompts. This approach provides a systematic methodology for designing and implementing complex conversational workflows while maintaining behavioral consistency. We demonstrate the framework’s effectiveness through two proof-of-concept implementations: a Train Ticket Booking System and an Interactive Troubleshooting Copilot. These case studies validate CR’s capability to encode sophisticated behavioral patterns and decision logic while preserving natural conversational flexibility. Results show that CR enables domain experts to design conversational workflows in natural language while leveraging custom functions (tools) developed by software engineers, creating an efficient division of responsibilities where developers focus on core API implementation and domain experts handle conversation design. While the framework shows promise in accessibility and adaptability, we identify key challenges including computational overhead, non-deterministic behavior, and domain-specific logic optimization. Future research directions include CR evaluation methods based on prompt engineering frameworks driven by goal-oriented grading criteria, improving scalability for complex multi-agent interactions, and enhancing system robustness to address the identified limitations across diverse business applications.

arxiv情報

著者 Giorgio Robino
発行日 2025-02-10 12:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.HC, cs.PL | Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems はコメントを受け付けていません