PulseCheck457: A Diagnostic Benchmark for Comprehensive Spatial Reasoning of Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は、視覚的なシーンの解釈と推論において顕著な能力を実証していますが、複雑で正確な3次元空間推論の能力は不確実なままです。
既存のベンチマークは主に2D空間的理解に焦点を当てており、さまざまな複雑さにわたって6D空間的推論を包括的に評価するためのフレームワークを欠いています。
この制限に対処するために、空間推論のために4つの重要な機能を備えたスケーラブルで偏りのない合成データセットであるPulsecheck457を提示します:マルチオブジェクト認識、2Dロケーション、3Dロケーション、3D方向。
カスケード評価構造を開発し、基本的な単一オブジェクト認識から新しい提案された複雑な6D空間推論タスクに至るまで、5つの難易度レベルにわたって7つの質問タイプを構築します。
Pulsecheck457でさまざまな大きなマルチモーダルモデル(LMMS)を評価し、特に3D推論と6D空間タスクで、タスクの複雑さが増加するにつれてパフォーマンスの一般的な低下を観察しました。
これらの課題を定量化するために、相対パフォーマンスの低下率(RPDR)を導入し、3D推論能力の重要な弱点を強調します。
データセットの偏りのない属性設計を活用すると、実際の画像設定で同様のパターンが観察される異なる属性にわたって予測バイアスも明らかにします。

要約(オリジナル)

Although large multimodal models (LMMs) have demonstrated remarkable capabilities in visual scene interpretation and reasoning, their capacity for complex and precise 3-dimensional spatial reasoning remains uncertain. Existing benchmarks focus predominantly on 2D spatial understanding and lack a framework to comprehensively evaluate 6D spatial reasoning across varying complexities. To address this limitation, we present PulseCheck457, a scalable and unbiased synthetic dataset designed with 4 key capability for spatial reasoning: multi-object recognition, 2D location, 3D location, and 3D orientation. We develop a cascading evaluation structure, constructing 7 question types across 5 difficulty levels that range from basic single object recognition to our new proposed complex 6D spatial reasoning tasks. We evaluated various large multimodal models (LMMs) on PulseCheck457, observing a general decline in performance as task complexity increases, particularly in 3D reasoning and 6D spatial tasks. To quantify these challenges, we introduce the Relative Performance Dropping Rate (RPDR), highlighting key weaknesses in 3D reasoning capabilities. Leveraging the unbiased attribute design of our dataset, we also uncover prediction biases across different attributes, with similar patterns observed in real-world image settings.

arxiv情報

著者 Xingrui Wang,Wufei Ma,Tiezheng Zhang,Celso M de Melo,Jieneng Chen,Alan Yuille
発行日 2025-02-12 18:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PulseCheck457: A Diagnostic Benchmark for Comprehensive Spatial Reasoning of Large Multimodal Models はコメントを受け付けていません

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

要約

この作業では、3Dが認識し、制御可能なテキストからビデオへの生成のための新しいフレームワークであるCinemasterを紹介します。
私たちの目標は、プロの映画監督として同等の制御可能性を持つユーザーに力を与えることです。シーン内のオブジェクトの正確な配置、3Dスペースでのオブジェクトとカメラの両方の柔軟な操作、およびレンダリングされたフレームに対する直感的なレイアウト制御です。
これを達成するために、Cinemasterは2つの段階で動作します。
最初の段階では、オブジェクトの境界ボックスを配置し、3Dスペース内でカメラの動きを定義することにより、ユーザーが3Dに目覚める条件付き信号を直感的に構築できるインタラクティブワークフローを設計します。
第2段階では、これらの制御信号(レンダリングされた深さマップ、カメラの軌跡、オブジェクトクラスのラベル)が、テキストからビデオへの拡散モデルのガイダンスとして、ユーザー向けのビデオコンテンツを生成することを保証します。
さらに、3Dオブジェクトの動きとカメラのポーズアノテーションを使用して、野生のデータセットの希少性を克服するために、大規模なビデオデータから3D境界ボックスとカメラの軌道を抽出する自動データアノテーションパイプラインを慎重に確立します。
広範な定性的および定量的実験は、Cinemasterが既存の方法を大幅に上回り、顕著な3Dに目覚めるテキストからビデオへの生成を実装することを示しています。
プロジェクトページ:https://cinemaster-dev.github.io/。

要約(オリジナル)

In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals–comprising rendered depth maps, camera trajectories and object class labels–serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

arxiv情報

著者 Qinghe Wang,Yawen Luo,Xiaoyu Shi,Xu Jia,Huchuan Lu,Tianfan Xue,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-02-12 18:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation はコメントを受け付けていません

Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

要約

AISが急速に前進し、よりエージェントになるにつれて、彼らが提起するリスクは、その能力によってだけでなく、目標や価値を含む彼らの傾向によってますます支配されます。
目標と価値の出現を追跡することは長年の問題を証明しており、長年にわたって多くの関心にもかかわらず、現在のAIが意味のある価値を持っているかどうかは不明のままです。
この問題の解決策を提案し、ユーティリティ関数のフレームワークを活用して、AIの好みの内部一貫性を研究します。
驚くべきことに、現在のLLMで独立してサンプリングされた好みは、高度の構造的一貫性を示し、さらにこれがスケールで出現することがわかります。
これらの発見は、価値のあるシステムが意味のある意味でLLMSに現れることを示唆しています。これは、幅広い意味を持つ発見です。
これらの緊急価値システムを研究するために、AIユーティリティの分析と制御の両方を含む研究アジェンダとしてユーティリティエンジニアリングを提案します。
既存の制御措置にもかかわらず、LLMアシスタントの問題と衝撃的な価値を明らかにします。
これらには、AISが人間よりも自分自身を大切にし、特定の個人と反調整されている場合が含まれます。
これらの緊急価値システムを制約するために、ユーティリティ制御の方法を提案します。
ケーススタディとして、ユーティリティを市民集会に合わせることで政治的バイアスを減らし、新しいシナリオに一般化する方法を示します。
私たちがそれを好むかどうかにかかわらず、バリューシステムはすでにAISで登場しており、これらの緊急表現を完全に理解し制御するための多くの作業が残っています。

要約(オリジナル)

As AIs rapidly advance and become more agentic, the risk they pose is governed not only by their capabilities but increasingly by their propensities, including goals and values. Tracking the emergence of goals and values has proven a longstanding problem, and despite much interest over the years it remains unclear whether current AIs have meaningful values. We propose a solution to this problem, leveraging the framework of utility functions to study the internal coherence of AI preferences. Surprisingly, we find that independently-sampled preferences in current LLMs exhibit high degrees of structural coherence, and moreover that this emerges with scale. These findings suggest that value systems emerge in LLMs in a meaningful sense, a finding with broad implications. To study these emergent value systems, we propose utility engineering as a research agenda, comprising both the analysis and control of AI utilities. We uncover problematic and often shocking values in LLM assistants despite existing control measures. These include cases where AIs value themselves over humans and are anti-aligned with specific individuals. To constrain these emergent value systems, we propose methods of utility control. As a case study, we show how aligning utilities with a citizen assembly reduces political biases and generalizes to new scenarios. Whether we like it or not, value systems have already emerged in AIs, and much work remains to fully understand and control these emergent representations.

arxiv情報

著者 Mantas Mazeika,Xuwang Yin,Rishub Tamirisa,Jaehyuk Lim,Bruce W. Lee,Richard Ren,Long Phan,Norman Mu,Adam Khoja,Oliver Zhang,Dan Hendrycks
発行日 2025-02-12 18:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs はコメントを受け付けていません

SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation

要約

大規模なビジョン言語モデルの最近の進歩により、非常に表現力豊かで多様なベクタースケッチ生成が可能になりました。
ただし、最先端の方法は、脳卒中の配置を決定するために、前処理されたモデルからの繰り返しフィードバックを含む時間のかかる最適化プロセスに依存しています。
その結果、印象的なスケッチを作成しているにもかかわらず、これらの方法は実際のアプリケーションでは制限されています。
この作業では、1秒以内に高品質のスケッチを生成できる画像条件付きベクタースケッチ生成の拡散モデルであるSwiftsketchを紹介します。
Swiftsketchは、ガウス分布からサンプリングされたストローク制御ポイントを徐々に除去することで動作します。
そのトランスデコーダーアーキテクチャは、ベクトル表現の個別の性質を効果的に処理し、ストローク間の固有のグローバル依存関係をキャプチャするように設計されています。
SwiftSketchをトレーニングするために、画像スケッチペアの合成データセットを構築し、既存のスケッチデータセットの制限に対処します。これは、非アーティストによって作成され、プロフェッショナルな品質が欠けていることがよくあります。
これらの合成スケッチを生成するために、ControlSketchを紹介します。これは、深度認識コントロールネットを介して正確な空間制御を組み込むことにより、SDSベースの技術を強化する方法です。
Swiftsketchは、多様な概念全体に一般化され、高い忠実度と自然で視覚的に魅力的なスタイルを組み合わせたスケッチを効率的に作成することを実証します。

要約(オリジナル)

Recent advancements in large vision-language models have enabled highly expressive and diverse vector sketch generation. However, state-of-the-art methods rely on a time-consuming optimization process involving repeated feedback from a pretrained model to determine stroke placement. Consequently, despite producing impressive sketches, these methods are limited in practical applications. In this work, we introduce SwiftSketch, a diffusion model for image-conditioned vector sketch generation that can produce high-quality sketches in less than a second. SwiftSketch operates by progressively denoising stroke control points sampled from a Gaussian distribution. Its transformer-decoder architecture is designed to effectively handle the discrete nature of vector representation and capture the inherent global dependencies between strokes. To train SwiftSketch, we construct a synthetic dataset of image-sketch pairs, addressing the limitations of existing sketch datasets, which are often created by non-artists and lack professional quality. For generating these synthetic sketches, we introduce ControlSketch, a method that enhances SDS-based techniques by incorporating precise spatial control through a depth-aware ControlNet. We demonstrate that SwiftSketch generalizes across diverse concepts, efficiently producing sketches that combine high fidelity with a natural and visually appealing style.

arxiv情報

著者 Ellie Arar,Yarden Frenkel,Daniel Cohen-Or,Ariel Shamir,Yael Vinker
発行日 2025-02-12 18:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation はコメントを受け付けていません

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

要約

オープンワールド環境でのロボット操作のタスク仕様は挑戦的であり、人間の意図と整合し、反復フィードバックを通じて進化する柔軟で適応的な目標を必要とします。
動的タスク仕様として機能する視覚的に接地されたPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介します。
当社のフレームワークは、VLMを活用して、マルチステップ操作タスクのこれらの報酬機能を生成および改良します。
RGB-Dの観察と自由形式の言語の指示を考えると、シーンのキーポイントをサンプリングし、これらのキーポイントに条件付けられた報酬関数を生成します。
Ikerは、キーポイント間の空間的関係を操作し、望ましい動作に関する常識的な事前を活用し、正確なSE(3)制御を可能にします。
シミュレーションで実世界のシーンを再構築し、生成された報酬を使用して補強学習(RL)ポリシーを訓練し、実際の世界からリアルへのループを実現する現実の世界に展開されます。
私たちのアプローチは、事前濃度と非充実したタスクの両方、マルチステップタスクの実行、自発的なエラー回復、オンザフライ戦略の調整など、さまざまなシナリオ全体で顕著な機能を示しています。
結果は、ロボットが反復的な報酬形状を通じて動的環境でマルチステップタスクを実行できるようにすることにおけるIkerの有効性を強調しています。

要約(オリジナル)

Task specification for robotic manipulation in open-world environments is challenging, requiring flexible and adaptive objectives that align with human intentions and can evolve through iterative feedback. We introduce Iterative Keypoint Reward (IKER), a visually grounded, Python-based reward function that serves as a dynamic task specification. Our framework leverages VLMs to generate and refine these reward functions for multi-step manipulation tasks. Given RGB-D observations and free-form language instructions, we sample keypoints in the scene and generate a reward function conditioned on these keypoints. IKER operates on the spatial relationships between keypoints, leveraging commonsense priors about the desired behaviors, and enabling precise SE(3) control. We reconstruct real-world scenes in simulation and use the generated rewards to train reinforcement learning (RL) policies, which are then deployed into the real world-forming a real-to-sim-to-real loop. Our approach demonstrates notable capabilities across diverse scenarios, including both prehensile and non-prehensile tasks, showcasing multi-step task execution, spontaneous error recovery, and on-the-fly strategy adjustments. The results highlight IKER’s effectiveness in enabling robots to perform multi-step tasks in dynamic environments through iterative reward shaping.

arxiv情報

著者 Shivansh Patel,Xinchen Yin,Wenlong Huang,Shubham Garg,Hooshang Nayyeri,Li Fei-Fei,Svetlana Lazebnik,Yunzhu Li
発行日 2025-02-12 18:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards はコメントを受け付けていません

Poly-Autoregressive Prediction for Modeling Interactions

要約

マルチエージェント設定でエージェントの動作を予測するための簡単なフレームワークを紹介します。
言語処理などの自己回帰(AR)タスクとは対照的に、私たちの焦点は、物理的な制約と内部動機によって相互作用が形成される複数のエージェントのシナリオに焦点を当てています。
この目的のために、私たちはポリオートレーフ(PAR)モデリングを提案します。これは、エゴエージェントの州の歴史と他の相互作用中のエージェントの過去と現在の状態について推論することにより、エゴエージェントの将来の行動を予測します。
そのコアでは、PARはすべてのエージェントの動作を一連のトークンとして表し、それぞれが特定のタイムステップでエージェントの状態を表します。
最小限のデータの前処理の変更により、PARは、社会的状況での人間のアクション予測、自律車両の軌跡予測、および手観察の相互作用中のオブジェクトポーズ予測の3つの異なる問題に適用できることを示します。
小さな概念変圧器のバックボーンを使用して、これら3つのシナリオ全体でARを上回ることができます。
プロジェクトのWebサイトは、https://neerja.me/par/にあります。

要約(オリジナル)

We introduce a simple framework for predicting the behavior of an agent in multi-agent settings. In contrast to autoregressive (AR) tasks, such as language processing, our focus is on scenarios with multiple agents whose interactions are shaped by physical constraints and internal motivations. To this end, we propose Poly-Autoregressive (PAR) modeling, which forecasts an ego agent’s future behavior by reasoning about the ego agent’s state history and the past and current states of other interacting agents. At its core, PAR represents the behavior of all agents as a sequence of tokens, each representing an agent’s state at a specific timestep. With minimal data pre-processing changes, we show that PAR can be applied to three different problems: human action forecasting in social situations, trajectory prediction for autonomous vehicles, and object pose forecasting during hand-object interaction. Using a small proof-of-concept transformer backbone, PAR outperforms AR across these three scenarios. The project website can be found at https://neerja.me/PAR/.

arxiv情報

著者 Neerja Thakkar,Tara Sadjadpour,Jathushan Rajasegaran,Shiry Ginosar,Jitendra Malik
発行日 2025-02-12 18:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Poly-Autoregressive Prediction for Modeling Interactions はコメントを受け付けていません

Automated Capability Discovery via Model Self-Exploration

要約

基礎モデルは汎用アシスタントになり、Webスケールデータのトレーニングを通じて多数のドメインにわたって多様な機能を示しています。
新しいモデルの機能と潜在的なリスクの全範囲のほんの一部を正確に特徴付けることは困難なままです。
既存の評価アプローチは、多くの場合、かなりの人間の努力を必要とし、より能力のあるモデルにもっと困難な課題を設計するためにますます努力を払っています。
科学者として1つの基礎モデルを指定するフレームワークであるAutomated Capability Discovery(ACD)を導入し、主題モデル(潜在的にそれ自体)の能力を調査する自由回答形式のタスクを体系的に提案します。
フロンティアモデルをオープンエンドネスの分野からのアイデアと組み合わせることにより、ACDは、サブジェクトモデルの驚くべき能力と障害の両方を自動的かつ体系的に明らかにします。
さまざまなファンデーションモデル(GPT、Claude、およびLlamaシリーズを含む)にわたってACDを実証し、1つのチームが発見するのが難しい数千の機能を自動的に明らかにしていることを示しています。
さらに、モデル生成と人間の評価との間の高い一致を観察し、広範な人間の調査でメソッドの自動スコアリングを検証します。
ファンデーションモデルのタスクを作成する能力と自己評価の両方を活用することにより、ACDは、新しいAIシステムのスケーラブルで自動化された評価に向けた重要なステップです。
すべてのコードと評価ログは、https://github.com/conglu1997/acdでオープンソースを受けています。

要約(オリジナル)

Foundation models have become general-purpose assistants, exhibiting diverse capabilities across numerous domains through training on web-scale data. It remains challenging to precisely characterize even a fraction of the full spectrum of capabilities and potential risks in any new model. Existing evaluation approaches often require significant human effort, and it is taking increasing effort to design ever harder challenges for more capable models. We introduce Automated Capability Discovery (ACD), a framework that designates one foundation model as a scientist to systematically propose open-ended tasks probing the abilities of a subject model (potentially itself). By combining frontier models with ideas from the field of open-endedness, ACD automatically and systematically uncovers both surprising capabilities and failures in the subject model. We demonstrate ACD across a range of foundation models (including the GPT, Claude, and Llama series), showing that it automatically reveals thousands of capabilities that would be challenging for any single team to uncover. We further validate our method’s automated scoring with extensive human surveys, observing high agreement between model-generated and human evaluations. By leveraging foundation models’ ability to both create tasks and self-evaluate, ACD is a significant step toward scalable, automated evaluation of novel AI systems. All code and evaluation logs are open-sourced at https://github.com/conglu1997/ACD.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-02-12 16:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Automated Capability Discovery via Model Self-Exploration はコメントを受け付けていません

SoK: A Classification for AI-driven Personalized Privacy Assistants

要約

ユーザーがプライバシー関連の意思決定を行うのを支援するために、AIテクノロジーに基づいたパーソナライズされたプライバシーアシスタントが近年開発されています。
これらのAI駆動型のパーソナライズされたプライバシーアシスタント(AI主導のPPA)は、プライバシー関連の決定要求に満ちた環境での個人データに関する決定を下すのに苦労する可能性があります。
ただし、これらのAI駆動型PPAの特徴、その基礎となる技術、またはその決定の正確性について体系的に調査する研究はありませんでした。
このギャップを埋めるために、科学文献にある既存のソリューションをマッピングするために、知識(SOK)の体系化を提示します。
過去10年間(2013-2023)に1697年のユニークな研究論文を上映し、39の含まれる論文から分類を構築しました。
その結果、このSOKは、出版物の種類、貢献、方法論の質、およびその他の定量的洞察の観点から、AI主導のPPAに関する既存の研究のいくつかの側面をレビューします。
さらに、AI駆動型PPAの包括的な分類を提供し、建築の選択、システムのコンテキスト、使用済みのAIの種類、データソース、決定の種類、意思決定の制御などを掘り下げます。
SOKに基づいて、研究のギャップと課題をさらに強調し、AI主導のPPAの設計と開発に関する推奨事項と、将来の研究の道を策定します。

要約(オリジナル)

To help users make privacy-related decisions, personalized privacy assistants based on AI technology have been developed in recent years. These AI-driven Personalized Privacy Assistants (AI-driven PPAs) can reap significant benefits for users, who may otherwise struggle to make decisions regarding their personal data in environments saturated with privacy-related decision requests. However, no study systematically inquired about the features of these AI-driven PPAs, their underlying technologies, or the accuracy of their decisions. To fill this gap, we present a Systematization of Knowledge (SoK) to map the existing solutions found in the scientific literature. We screened 1697 unique research papers over the last decade (2013-2023), constructing a classification from 39 included papers. As a result, this SoK reviews several aspects of existing research on AI-driven PPAs in terms of types of publications, contributions, methodological quality, and other quantitative insights. Furthermore, we provide a comprehensive classification for AI-driven PPAs, delving into their architectural choices, system contexts, types of AI used, data sources, types of decisions, and control over decisions, among other facets. Based on our SoK, we further underline the research gaps and challenges and formulate recommendations for the design and development of AI-driven PPAs as well as avenues for future research.

arxiv情報

著者 Victor Morel,Leonardo Iwaya,Simone Fischer-Hübner
発行日 2025-02-12 16:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | SoK: A Classification for AI-driven Personalized Privacy Assistants はコメントを受け付けていません

Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

要約

Next-Token Prediction(NTP)は、自己回帰(AR)ビデオ生成のための事実上のアプローチですが、最適ではない一方向の依存関係と推論速度が遅いことに苦しんでいます。
この作業では、ビデオ生成のために、次のブロック予測(NBP)と呼ばれる半自動性(SEMI-AR)フレームワークを提案します。
ビデオコンテンツを等しいサイズのブロック(行やフレームなど)に均一に分解することにより、生成ユニットを個々のトークンからブロックにシフトし、現在のブロック内の各トークンが次のブロックの対応するトークンを同時に予測できるようにします。
従来のARモデリングとは異なり、当社のフレームワークは各ブロック内で双方向の注意を採用しており、トークンがより堅牢な空間依存関係をキャプチャできるようにします。
複数のトークンを並行して予測することにより、NBPモデルは生成ステップの数を大幅に減らし、より速く、より効率的な推論につながります。
私たちのモデルは、UCF101で103.3、K600で25.5のFVDスコアを達成し、平均4.4でバニラNTPモデルを上回ります。
さらに、推論手順の数が減ったため、NBPモデルは1秒あたり8.89フレーム(128×128解像度)を生成し、11倍のスピードアップを達成します。
また、700mから3Bのパラメーターの範囲のモデルスケールを調査し、生成品質の大幅な改善を観察し、FVDスコアはUCF101で103.3から55.3、K600で25.5から19.5に低下し、アプローチのスケーラビリティを示しました。

要約(オリジナル)

Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR) video generation, but it suffers from suboptimal unidirectional dependencies and slow inference speed. In this work, we propose a semi-autoregressive (semi-AR) framework, called Next-Block Prediction (NBP), for video generation. By uniformly decomposing video content into equal-sized blocks (e.g., rows or frames), we shift the generation unit from individual tokens to blocks, allowing each token in the current block to simultaneously predict the corresponding token in the next block. Unlike traditional AR modeling, our framework employs bidirectional attention within each block, enabling tokens to capture more robust spatial dependencies. By predicting multiple tokens in parallel, NBP models significantly reduce the number of generation steps, leading to faster and more efficient inference. Our model achieves FVD scores of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an average of 4.4. Furthermore, thanks to the reduced number of inference steps, the NBP model generates 8.89 frames (128×128 resolution) per second, achieving an 11x speedup. We also explored model scales ranging from 700M to 3B parameters, observing significant improvements in generation quality, with FVD scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600, demonstrating the scalability of our approach.

arxiv情報

著者 Shuhuai Ren,Shuming Ma,Xu Sun,Furu Wei
発行日 2025-02-12 14:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Next Block Prediction: Video Generation via Semi-Autoregressive Modeling はコメントを受け付けていません

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

要約

さまざまなジオメトリと変形可能なオブジェクトを備えたオブジェクトを操作することは、ロボット工学の大きな課題です。
異なるオブジェクトや布吊り下げの挿入などのタスクには、正確な制御と複雑なダイナミクスの効果的なモデリングが必要です。
この作業では、この問題を、アクチュエーターやオブジェクトなどの小さなサブグラフを含む不均一なグラフのレンズを通して、相互作用を説明するさまざまなエッジタイプを伴います。
このグラフ表現は、剛性と変形可能なオブジェクトの両方のタスクの統一された構造として機能し、複数のアクチュエーターを含むタスクにさらに拡張できます。
このセットアップを評価するために、多様なオブジェクトの剛性挿入、複数のエンド効果によるロープと布の操作など、斬新で挑戦的な強化学習ベンチマークを提示します。
これらのタスクは、初期構成とターゲット構成の両方が3Dスペースで均一にサンプリングされるため、大きな検索スペースを提示します。
この問題に対処するために、幾何学的対称性を活用するための主要なバックボーンとして$ se(3)$ equivariantメッセージパスネットワークを利用して、不均一等量ポリシー(HEPI)と呼ばれる新しいグラフベースのポリシーモデルを提案します。
さらに、明示的な不均一性をモデル化することにより、HEPIは、平均リターン、サンプル効率、および目に見えないオブジェクトへの一般化に関して、変圧器ベースおよび非氷河の等縁ポリシーを上回ることができます。

要約(オリジナル)

Manipulating objects with varying geometries and deformable objects is a major challenge in robotics. Tasks such as insertion with different objects or cloth hanging require precise control and effective modelling of complex dynamics. In this work, we frame this problem through the lens of a heterogeneous graph that comprises smaller sub-graphs, such as actuators and objects, accompanied by different edge types describing their interactions. This graph representation serves as a unified structure for both rigid and deformable objects tasks, and can be extended further to tasks comprising multiple actuators. To evaluate this setup, we present a novel and challenging reinforcement learning benchmark, including rigid insertion of diverse objects, as well as rope and cloth manipulation with multiple end-effectors. These tasks present a large search space, as both the initial and target configurations are uniformly sampled in 3D space. To address this issue, we propose a novel graph-based policy model, dubbed Heterogeneous Equivariant Policy (HEPi), utilizing $SE(3)$ equivariant message passing networks as the main backbone to exploit the geometric symmetry. In addition, by modeling explicit heterogeneity, HEPi can outperform Transformer-based and non-heterogeneous equivariant policies in terms of average returns, sample efficiency, and generalization to unseen objects.

arxiv情報

著者 Tai Hoang,Huy Le,Philipp Becker,Vien Anh Ngo,Gerhard Neumann
発行日 2025-02-12 08:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects はコメントを受け付けていません