PhysAnimator: Physics-Guided Generative Cartoon Animation

要約

手描きのアニメーションシーケンスを作成することは労働集約的であり、専門的な専門知識を要求します。
Physanimatorを紹介します。これは、静的なアニメイラストから物理的にもっともらしいアニメsty化されたアニメーションを生成するための新しいアプローチです。
この方法では、物理ベースのシミュレーションをデータ駆動型の生成モデルとシームレスに統合して、動的で視覚的に魅力的なアニメーションを生成します。
アニメの流動性と誇張特性をキャプチャするために、抽出されたメッシュジオメトリで画像空間変形可能な身体シミュレーションを実行します。
カスタマイズ可能なエネルギーストロークを導入し、リギングポイントサポートを組み込んで、風の相互作用などのテーラードアニメーション効果を作成できるようにすることにより、芸術的制御を強化します。
最後に、シミュレーションシーケンスからスケッチを抽出してワープし、テクスチャに依存しない表現を生成し、高品質のアニメーションフレームを合成するためにスケッチガイドのビデオ拡散モデルを採用します。
結果として生じるアニメーションは、時間的な一貫性と視覚的妥当性を示し、ダイナミックアニメスタイルのアニメーションを作成する際の方法の有効性を示しています。
詳細については、プロジェクトページをご覧ください:https://xpandora.github.io/physanimator/

要約(オリジナル)

Creating hand-drawn animation sequences is labor-intensive and demands professional expertise. We introduce PhysAnimator, a novel approach for generating physically plausible meanwhile anime-stylized animation from static anime illustrations. Our method seamlessly integrates physics-based simulations with data-driven generative models to produce dynamic and visually compelling animations. To capture the fluidity and exaggeration characteristic of anime, we perform image-space deformable body simulations on extracted mesh geometries. We enhance artistic control by introducing customizable energy strokes and incorporating rigging point support, enabling the creation of tailored animation effects such as wind interactions. Finally, we extract and warp sketches from the simulation sequence, generating a texture-agnostic representation, and employ a sketch-guided video diffusion model to synthesize high-quality animation frames. The resulting animations exhibit temporal consistency and visual plausibility, demonstrating the effectiveness of our method in creating dynamic anime-style animations. See our project page for more demos: https://xpandora.github.io/PhysAnimator/

arxiv情報

著者 Tianyi Xie,Yiwei Zhao,Ying Jiang,Chenfanfu Jiang
発行日 2025-03-26 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | PhysAnimator: Physics-Guided Generative Cartoon Animation はコメントを受け付けていません

FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks

要約

拡散モデルと3D生成技術の急速な進歩により、動的な3Dコンテンツ生成が重要な研究分野になりました。
ただし、強力な空間的一貫性を備えた高忠実度4D(動的3D)生成を達成することは、困難なタスクのままです。
前処理された拡散機能が豊富な対応をキャプチャするという最近の調査結果に触発されたFB-4Dを提案します。FB-4Dは、生成されたフレームの空間的および時間的一貫性の両方を強化する機能バンクメカニズムを統合する新しい4D生成フレームワークです。
FB-4Dでは、以前のフレームから抽出された機能を保存し、それらをその後のフレームを生成するプロセスに融合し、時間と複数のビューの両方で一貫した特性を確保します。
コンパクトな表現を確保するために、機能バンクは、提案された動的マージメカニズムによって更新されます。
この機能バンクを活用して、複数の自己回帰反復を介して追加の参照シーケンスを生成することで、生成パフォーマンスを継続的に改善できることを初めて実証します。
実験結果は、FB-4Dが品質、空間的一貫性、および堅牢性をレンダリングするという点で既存の方法を大幅に上回ることを示しています。
すべてのマルチビュー生成チューニングフリーアプローチを大きなマージンで上回り、トレーニングベースの方法と同等のパフォーマンスを達成します。

要約(オリジナル)

With the rapid advancements in diffusion models and 3D generation techniques, dynamic 3D content generation has become a crucial research area. However, achieving high-fidelity 4D (dynamic 3D) generation with strong spatial-temporal consistency remains a challenging task. Inspired by recent findings that pretrained diffusion features capture rich correspondences, we propose FB-4D, a novel 4D generation framework that integrates a Feature Bank mechanism to enhance both spatial and temporal consistency in generated frames. In FB-4D, we store features extracted from previous frames and fuse them into the process of generating subsequent frames, ensuring consistent characteristics across both time and multiple views. To ensure a compact representation, the Feature Bank is updated by a proposed dynamic merging mechanism. Leveraging this Feature Bank, we demonstrate for the first time that generating additional reference sequences through multiple autoregressive iterations can continuously improve generation performance. Experimental results show that FB-4D significantly outperforms existing methods in terms of rendering quality, spatial-temporal consistency, and robustness. It surpasses all multi-view generation tuning-free approaches by a large margin and achieves performance on par with training-based methods.

arxiv情報

著者 Jinwei Li,Huan-ang Gao,Wenyi Li,Haohan Chi,Chenyu Liu,Chenxi Du,Yiqian Liu,Mingju Gao,Guiyu Zhang,Zongzheng Zhang,Li Yi,Yao Yao,Jingwei Zhao,Hongyang Li,Yikai Wang,Hao Zhao
発行日 2025-03-26 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks はコメントを受け付けていません

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

要約

単一の画像からの4Dシーン生成のための新しいチューニングフリーのフレームワークであるFree4Dを提示します。
既存の方法は、オブジェクトレベルの生成に焦点を当て、シーンレベルの生成を実行不可能にするか、4Dシーンデータが不足しているため、一般化能力が限られている高価なトレーニングのために大規模なマルチビュービデオデータセットに依存しています。
対照的に、私たちの重要な洞察は、一貫した4Dシーン表現のために事前に訓練された基礎モデルを蒸留することです。これは、効率や一般化などの有望な利点を提供します。
1)これを達成するために、最初に画像間拡散モデルを使用して入力画像をアニメーション化し、それに続いて4D幾何学的構造の初期化を行います。
2)この粗い構造を空間的な一貫したマルチビュービデオに変えるために、空間的一貫性のための点誘導除去戦略と、時間的一貫性のための新規潜在的置換戦略を備えた適応ガイダンスメカニズムを設計します。
3)これらの生成された観察結果を一貫した4D表現に持ち上げるために、生成された情報を完全に活用しながら、矛盾を緩和するための変調ベースの改良を提案します。
結果として得られる4D表現により、リアルタイムで制御可能なレンダリングが可能になり、シングルイメージベースの4Dシーン生成が大幅に進歩します。

要約(オリジナル)

We present Free4D, a novel tuning-free framework for 4D scene generation from a single image. Existing methods either focus on object-level generation, making scene-level generation infeasible, or rely on large-scale multi-view video datasets for expensive training, with limited generalization ability due to the scarcity of 4D scene data. In contrast, our key insight is to distill pre-trained foundation models for consistent 4D scene representation, which offers promising advantages such as efficiency and generalizability. 1) To achieve this, we first animate the input image using image-to-video diffusion models followed by 4D geometric structure initialization. 2) To turn this coarse structure into spatial-temporal consistent multiview videos, we design an adaptive guidance mechanism with a point-guided denoising strategy for spatial consistency and a novel latent replacement strategy for temporal coherence. 3) To lift these generated observations into consistent 4D representation, we propose a modulation-based refinement to mitigate inconsistencies while fully leveraging the generated information. The resulting 4D representation enables real-time, controllable rendering, marking a significant advancement in single-image-based 4D scene generation.

arxiv情報

著者 Tianqi Liu,Zihao Huang,Zhaoxi Chen,Guangcong Wang,Shoukang Hu,Liao Shen,Huiqiang Sun,Zhiguo Cao,Wei Li,Ziwei Liu
発行日 2025-03-26 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency はコメントを受け付けていません

Contextually Structured Token Dependency Encoding for Large Language Models

要約

大規模なニューラルアーキテクチャ内のトークン表現戦略は、しばしば文脈的に洗練された埋め込みに依存していますが、従来のアプローチは、トークン相互作用内で構造化された関係を明示的にエンコードすることはめったにありません。
自己関節メカニズムは、動的なコンテキスト依存関係を効果的にキャプチャしますが、学習した体重分布への依存により、生成されたシーケンスの長距離階層構造の保存が制限されます。
依存関係の認識トークンエンコーディングは、初期化を埋め込むための構造化されたアプローチを導入し、注意力学のみを通じて推測されるのではなく、トークン表現にリレーショナル制約が埋め込まれるようにします。
提案されているエンコーディングメカニズムは、依存関係加重注意計算を介してトークンの相互作用を改善し、複数の処理層にわたって構文とセマンティックの依存関係が保持されるようにします。
経験的評価は、多様な言語ベンチマーク全体の困惑の減少を示しており、文脈的一貫性の改善と自己回帰テキスト生成の予測的一貫性を示唆しています。
計算効率の評価により、エンコーディングモジュール内の追加のマトリックス計算に起因するメモリ消費とトレーニング時間の中程度の増加が明らかになりますが、従来の変圧器アーキテクチャ内ではスケーラビリティが実行可能なままです。
構造化されたエンコーディングは、語彙の変動と依存関係の保持を強化し、外部の構文アノテーションや補助トレーニング目標を必要とせずに言語の一貫性を強化します。
統計的比較は、特に従来の自己触媒モデルが階層的な一貫性に分解を示す長いシーケンスで、依存関係のアラインメントの改善を強調しています。
文の長さ分布は、急激なフレーズの遷移の減少を示し、明示的な依存性エンコードがより構造化されたフレーズ生成を促進するという仮説をさらにサポートします。

要約(オリジナル)

Token representation strategies within large-scale neural architectures often rely on contextually refined embeddings, yet conventional approaches seldom encode structured relationships explicitly within token interactions. Self-attention mechanisms effectively capture dynamic contextual dependencies, but their reliance on learned weight distributions limits the preservation of long-range hierarchical structures in generated sequences. Dependency-aware token encoding introduces a structured approach to embedding initialization, ensuring that relational constraints are embedded within token representations rather than inferred solely through attention dynamics. The proposed encoding mechanism refines token interactions through dependency-weighted attention computations, ensuring that syntactic and semantic dependencies are retained across multiple processing layers. Empirical evaluations indicate reductions in perplexity across diverse linguistic benchmarks, suggesting improvements in contextual coherence and predictive consistency in autoregressive text generation. Computational efficiency assessments reveal a moderate increase in memory consumption and training time, attributed to additional matrix computations within the encoding module, yet scalability remains feasible within conventional transformer architectures. Structured encoding enhances lexical variation and dependency retention, reinforcing linguistic coherence without requiring external syntactic annotations or auxiliary training objectives. Statistical comparisons highlight improvements in dependency alignment, particularly in longer sequences where conventional self-attention models exhibit degradation in hierarchical consistency. Sentence length distributions indicate a reduction in abrupt phrase transitions, further supporting the hypothesis that explicit dependency encoding facilitates more structured phrase generation.

arxiv情報

著者 James Blades,Frederick Somerfield,William Langley,Susan Everingham,Maurice Witherington
発行日 2025-03-26 15:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contextually Structured Token Dependency Encoding for Large Language Models はコメントを受け付けていません

Contextual Subspace Manifold Projection for Structural Refinement of Large Language Model Representations

要約

深い神経アーキテクチャ内の内部表現は、言語構造の高次元的な抽象化をエンコードしますが、それらはしばしば特徴分布で非効率性を示し、表現力と適応性を制限します。
コンテキストサブスペースマニホールドプロジェクションは、制御された部分空間制約を介してトークンの埋め込みを選択的に再構成する構造化された改良技術を導入し、より安定した幾何学的に明確に定義された特徴分布を確保します。
実証的評価により、構造化された介入が異方性を減らし、変圧器層全体でセマンティックの忠実度を維持しながら表現のコンパクトさを改善することが示されました。
クラスタリング分析では、トークンの埋め込みがより大きな特徴分離性を示し、構造化された投影技術が言語の一貫性を犠牲にすることなく内部表現組織を強化するという仮説を強化することを示しました。
勾配の大きさ分布は、この方法がよりスムーズな最適化軌道を導入し、トレーニングを通してより安定したパラメーターの更新に貢献する可能性があることを示唆しました。
投影操作に関連する計算オーバーヘッドは最小限のままであり、改良によりモデルの効率や推論速度に大きなトレードオフが導入されないようにしました。
標準の埋め込み洗練技術との比較により、構造化されたマニホールド制約は、追加の勾配ベースの最適化を必要とせずに表現品質を改善するための直接的なメカニズムを提供することが強調されました。
困惑の評価により、調整はシーケンスのコヒーレンスに悪影響を与えず、提案されたアプローチの有効性をさらに検証したことが確認されました。

要約(オリジナル)

Internal representations within deep neural architectures encode high-dimensional abstractions of linguistic structures, yet they often exhibit inefficiencies in feature distribution, limiting expressiveness and adaptability. Contextual Subspace Manifold Projection introduces a structured refinement technique that selectively reconfigures token embeddings through controlled subspace constraints, ensuring more stable and geometrically well-defined feature distributions. Empirical evaluations demonstrated that the structured intervention reduced anisotropy, leading to improved representation compactness while preserving semantic fidelity across transformer layers. Clustering analyses indicated that token embeddings exhibited greater feature separability, reinforcing the hypothesis that structured projection techniques enhance internal representation organization without sacrificing linguistic coherence. Gradient magnitude distributions suggested that the method introduced a smoother optimization trajectory, potentially contributing to more stable parameter updates throughout training. Computational overhead associated with the projection operations remained minimal, ensuring that the refinements did not introduce significant trade-offs in model efficiency or inference speed. Comparisons with standard embedding refinement techniques highlighted that structured manifold constraints provided a direct mechanism for improving representation quality without requiring additional gradient-based optimization. Perplexity evaluations confirmed that the adjustments did not negatively impact sequence coherence, further validating the effectiveness of the proposed approach.

arxiv情報

著者 Alistair Wren,Beatrice Loxley,Hamish Cadwallader,Simon Beckwith,Fabian Pargeter,James Blades
発行日 2025-03-26 15:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contextual Subspace Manifold Projection for Structural Refinement of Large Language Model Representations はコメントを受け付けていません

A Survey on Event-driven 3D Reconstruction: Development under Different Categories

要約

イベントカメラは、時間分解能が高い、遅延が低く、ダイナミックレンジが高いため、3D再構成の注目を集めています。
ピクセルあたりの輝度が非同期に変化し、速い動きと挑戦的な照明条件下での正確な再構築が可能になります。
この調査では、ステレオ、モノクラー、マルチモーダルシステムなどのイベント駆動型の3D再構成方法の包括的なレビューを提供します。
さらに、幾何学、学習ベース、ハイブリッドアプローチに基づいて最近の開発を分類します。
ニューラル放射輝度フィールドやイベントデータを使用した3Dガウスのスプラッティングなどの新たな傾向もカバーされています。
関連する作品は、分野内の革新と進歩を説明するために時系列に構成されています。
将来の研究をサポートするために、データセット、実験、評価、イベント表現などの重要な研究のギャップと将来の研究の方向性も強調しています。

要約(オリジナル)

Event cameras have gained increasing attention for 3D reconstruction due to their high temporal resolution, low latency, and high dynamic range. They capture per-pixel brightness changes asynchronously, allowing accurate reconstruction under fast motion and challenging lighting conditions. In this survey, we provide a comprehensive review of event-driven 3D reconstruction methods, including stereo, monocular, and multimodal systems. We further categorize recent developments based on geometric, learning-based, and hybrid approaches. Emerging trends, such as neural radiance fields and 3D Gaussian splatting with event data, are also covered. The related works are structured chronologically to illustrate the innovations and progression within the field. To support future research, we also highlight key research gaps and future research directions in dataset, experiment, evaluation, event representation, etc.

arxiv情報

著者 Chuanzhi Xu,Haoxian Zhou,Haodong Chen,Vera Chung,Qiang Qu
発行日 2025-03-26 12:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | A Survey on Event-driven 3D Reconstruction: Development under Different Categories はコメントを受け付けていません

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

要約

空間的理解とは、ロボットが周囲、環境についての理由を認識し、それと意味的に相互作用できるようにする重要な能力です。
現代のロボット工学では、これらの機能はビジョン言語モデルによってますます提供されています。
ただし、これらのモデルは、トレーニングデータが洗練された空間的理解を欠く汎用画像データセットに基づいているため、空間推論タスクの重要な課題に直面しています。
たとえば、データセットは参照フレームの理解をキャプチャしないことがよくありますが、効果的な空間的推論では、自我、世界、またはオブジェクト中心の視点から推論するかどうかを理解する必要があります。
この問題に対処するために、ロボット工学における空間的理解のための大規模なデータセットであるRobospatialを紹介します。
これは、実際の屋内および卓上シーンで構成され、3Dスキャンとエゴセントリック画像としてキャプチャされ、ロボット工学に関連する豊富な空間情報で注釈が付けられています。
データセットには、1M画像、5K 3Dスキャン、3M注釈付きの空間関係が含まれ、3Dスキャンを使用した2Dエゴセントリック画像のペアリングにより、2Dと3Dの両方の準備ができています。
私たちの実験では、ロボスパシアで訓練されたモデルが、空間アフォーダンス予測、空間関係予測、ロボット操作などの下流タスクのベースラインをアウトパフォーマンスすることを示しています。

要約(オリジナル)

Spatial understanding is a crucial capability that enables robots to perceive their surroundings, reason about their environment, and interact with it meaningfully. In modern robotics, these capabilities are increasingly provided by vision-language models. However, these models face significant challenges in spatial reasoning tasks, as their training data are based on general-purpose image datasets that often lack sophisticated spatial understanding. For example, datasets frequently do not capture reference frame comprehension, yet effective spatial reasoning requires understanding whether to reason from ego-, world-, or object-centric perspectives. To address this issue, we introduce RoboSpatial, a large-scale dataset for spatial understanding in robotics. It consists of real indoor and tabletop scenes, captured as 3D scans and egocentric images, and annotated with rich spatial information relevant to robotics. The dataset includes 1M images, 5k 3D scans, and 3M annotated spatial relationships, and the pairing of 2D egocentric images with 3D scans makes it both 2D- and 3D- ready. Our experiments show that models trained with RoboSpatial outperform baselines on downstream tasks such as spatial affordance prediction, spatial relationship prediction, and robot manipulation.

arxiv情報

著者 Chan Hee Song,Valts Blukis,Jonathan Tremblay,Stephen Tyree,Yu Su,Stan Birchfield
発行日 2025-03-26 07:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics はコメントを受け付けていません

Towards Efficient Training of Graph Neural Networks: A Multiscale Approach

要約

グラフニューラルネットワーク(GNNS)は、グラフ構造のデータから学習および推測するための強力なツールとして浮上しており、多くの場合、大量のデータと大きなグラフを考慮して、さまざまなアプリケーションで広く使用されています。
ただし、このようなデータのトレーニングには、大きなメモリと広範な計算が必要です。
この論文では、グラフのマルチスケール表現全体に情報を統合するように設計されたGNNSの効率的なマルチスケールトレーニングのための新しいフレームワークを紹介します。
私たちのアプローチは、階層的なグラフ表現を活用し、各粗いスケールグラフのノードとエッジが少ないトレーニングプロセスで粗いグラフスケールを活用します。
このアプローチに基づいて、粗から財政、サブからフル、マルチスケールグラデーションの計算など、一連のGNNトレーニング方法を提案します。
さまざまなデータセットや学習タスクに対するメソッドの有効性を実証します。

要約(オリジナル)

Graph Neural Networks (GNNs) have emerged as a powerful tool for learning and inferring from graph-structured data, and are widely used in a variety of applications, often considering large amounts of data and large graphs. However, training on such data requires large memory and extensive computations. In this paper, we introduce a novel framework for efficient multiscale training of GNNs, designed to integrate information across multiscale representations of a graph. Our approach leverages a hierarchical graph representation, taking advantage of coarse graph scales in the training process, where each coarse scale graph has fewer nodes and edges. Based on this approach, we propose a suite of GNN training methods: such as coarse-to-fine, sub-to-full, and multiscale gradient computation. We demonstrate the effectiveness of our methods on various datasets and learning tasks.

arxiv情報

著者 Eshed Gal,Moshe Eliasof,Carola-Bibiane Schönlieb,Eldad Haber,Eran Treister
発行日 2025-03-26 10:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Towards Efficient Training of Graph Neural Networks: A Multiscale Approach はコメントを受け付けていません

Scaling Laws of Synthetic Data for Language Models

要約

大規模な言語モデル(LLM)は、主にトレーニング前に使用される高品質のWebデータによって駆動される多様なタスク全体で強力なパフォーマンスを実現します。
ただし、最近の研究では、このデータソースが急速に枯渇していることが示されています。
合成データは有望な代替手段として浮上していますが、合成データセットが生のトレーニング前データに匹敵する予測可能なスケーラビリティを示すかどうかは不明のままです。
この作業では、トレーニング前のコーパスを多様で高品質の合成データセットに変換するスケーラブルなフレームワークであるSynthllMを導入することにより、合成データのスケーリング法則を体系的に調査します。
私たちのアプローチは、グラフアルゴリズムを使用して複数のドキュメントにわたって高レベルの概念を自動的に抽出および再結合することにより、これを達成します。
Synthllmに関する広範な数学実験からの主要な調査結果には、次のものが含まれます。(1)Synthllmは、さまざまなモデルサイズにわたって整流されたスケーリング法に確実に付着する合成データを生成します。
(2)パフォーマンスの改善300Bトークン近くのプラトー。
(3)より少ないトレーニングトークンで、より大きなモデルが最適なパフォーマンスにアプローチします。
たとえば、8Bモデルは1Tトークンでピークに達しますが、3Bモデルには4Tが必要です。
さらに、既存の合成データ生成および増強方法との比較により、Synthllmが優れたパフォーマンスとスケーラビリティを達成することが示されています。
私たちの調査結果は、合成データを強調して、オーガニックのプリトレーニングコーパスに代わるスケーラブルで信頼できる代替手段として、モデルパフォーマンスの継続的な改善への実行可能なパスを提供します。

要約(オリジナル)

Large language models (LLMs) achieve strong performance across diverse tasks, largely driven by high-quality web data used in pre-training. However, recent studies indicate this data source is rapidly depleting. Synthetic data emerges as a promising alternative, but it remains unclear whether synthetic datasets exhibit predictable scalability comparable to raw pre-training data. In this work, we systematically investigate the scaling laws of synthetic data by introducing SynthLLM, a scalable framework that transforms pre-training corpora into diverse, high-quality synthetic datasets. Our approach achieves this by automatically extracting and recombining high-level concepts across multiple documents using a graph algorithm. Key findings from our extensive mathematical experiments on SynthLLM include: (1) SynthLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens. For instance, an 8B model peaks at 1T tokens, while a 3B model requires 4T. Moreover, comparisons with existing synthetic data generation and augmentation methods demonstrate that SynthLLM achieves superior performance and scalability. Our findings highlight synthetic data as a scalable and reliable alternative to organic pre-training corpora, offering a viable path toward continued improvement in model performance.

arxiv情報

著者 Zeyu Qin,Qingxiu Dong,Xingxing Zhang,Li Dong,Xiaolong Huang,Ziyi Yang,Mahmoud Khademi,Dongdong Zhang,Hany Hassan Awadalla,Yi R. Fung,Weizhu Chen,Minhao Cheng,Furu Wei
発行日 2025-03-26 11:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Scaling Laws of Synthetic Data for Language Models はコメントを受け付けていません

Multi-agent Application System in Office Collaboration Scenarios

要約

このペーパーでは、オフィスのコラボレーション効率と仕事の質を高めるために設計されたマルチエージェントアプリケーションシステムを紹介します。
このシステムは、人工知能、機械学習、および自然言語処理技術を統合し、タスクの割り当て、進捗監視、情報共有などの機能を達成します。
システム内のエージェントは、チームメンバーのニーズに基づいてパーソナライズされたコラボレーションサポートを提供し、意思決定の品質を向上させるためのデータ分析ツールを組み込むことができます。
このペーパーでは、プランとソルバーを分​​離するインテリジェントエージェントアーキテクチャも提案しており、マルチターンクエリの書き換えやビジネスツールの取得などの手法を通じて、エージェントのマルチインテントおよびマルチターンダイアログ機能が強化されます。
さらに、このペーパーでは、オフィスコラボレーションシナリオのコンテキストでのツールの設計とマルチターン対話の詳細を説明し、実験と評価を通じてシステムの有効性を検証します。
最終的に、このシステムは、特にクエリの理解、タスク計画、ツール呼び出しで、実際のビジネスアプリケーションで優れたパフォーマンスを実証しています。
楽しみにして、このシステムは、動的環境と大規模なマルチエージェントシステム内の複雑な相互作用の問題に対処する上で、より重要な役割を果たすことが期待されています。

要約(オリジナル)

This paper introduces a multi-agent application system designed to enhance office collaboration efficiency and work quality. The system integrates artificial intelligence, machine learning, and natural language processing technologies, achieving functionalities such as task allocation, progress monitoring, and information sharing. The agents within the system are capable of providing personalized collaboration support based on team members’ needs and incorporate data analysis tools to improve decision-making quality. The paper also proposes an intelligent agent architecture that separates Plan and Solver, and through techniques such as multi-turn query rewriting and business tool retrieval, it enhances the agent’s multi-intent and multi-turn dialogue capabilities. Furthermore, the paper details the design of tools and multi-turn dialogue in the context of office collaboration scenarios, and validates the system’s effectiveness through experiments and evaluations. Ultimately, the system has demonstrated outstanding performance in real business applications, particularly in query understanding, task planning, and tool calling. Looking forward, the system is expected to play a more significant role in addressing complex interaction issues within dynamic environments and large-scale multi-agent systems.

arxiv情報

著者 Songtao Sun,Jingyi Li,Yuanfei Dong,Haoguang Liu,Chenxin Xu,Fuyang Li,Qiang Liu
発行日 2025-03-26 03:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Multi-agent Application System in Office Collaboration Scenarios はコメントを受け付けていません