OLMES: A Standard for Language Model Evaluations

要約

AIの進捗は、モデル機能を測定するタスクのパフォーマンスの向上を主張する新しいモデルによってしばしば実証されます。
言語モデルの評価は、タスクでモデルがどのように評価されるかの選択が測定されたパフォーマンスの大きな変化につながる可能性があるため、特に困難な場合があります。
一般的な標準セットアップはないため、同じタスクで異なる方法で異なるモデルが評価され、どのモデルが再現性がないことが最も効果的であるかについての主張につながります。
再現可能なLLM評価のための完全に文書化された実用的なオープン標準であるOlmesを提案します。
この基準の開発において、迅速なフォーマットの詳細、コンテキスト内の例の選択、確率の正常化、タスクの定式化など、コミュニティが採用した評価慣行のさまざまな要因を特定してレビューします。
特に、OLMESは、元の定式化を利用できる大規模なモデルに対する複数選択の質問の不自然な「クローズ」定式化を必要とする小さなベースモデル間の意味のある比較をサポートしています。
Olmesには、既存の文献の結果と、未解決の質問を解決する新しい実験によって導かれた、よく考えられた文書化された推奨事項が含まれています。

要約(オリジナル)

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models can be particularly challenging, as choices of how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community – such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural ‘cloze’ formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered, documented recommendations guided by results from existing literature as well as new experiments resolving open questions.

arxiv情報

著者 Yuling Gu,Oyvind Tafjord,Bailey Kuehl,Dany Haddad,Jesse Dodge,Hannaneh Hajishirzi
発行日 2025-02-11 18:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OLMES: A Standard for Language Model Evaluations はコメントを受け付けていません

Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning

要約

クラスインクリメンテルラーニング(CIL)は、モデルが以前に学んだ知識の知識を保持しながら、新しいクラスを順次学習できるようにすることを目指しています。
特にタスクIDが不明な場合、柔軟性と安定性のバランスをとることは重要な課題のままです。
これに対処するために、我々の研究では、斬新なタスクと既存のタスクの間の特徴分布のギャップは、主に平均と共分散の瞬間の違いによって駆動されることが明らかになりました。
この洞察に基づいて、平均シフト補償と共分散キャリブレーションを組み込んだ新しいセマンティックドリフトキャリブレーション法を提案します。
具体的には、サンプルの埋め込みを平均化することにより、各クラスの平均を計算し、以前の平均に近い加重埋め込み変更を使用してタスクシフトを推定し、新しいタスクごとにすべての学習クラスの平均シフトを効果的にキャプチャします。
また、共分散キャリブレーションのためにマハラノビス距離制約を適用し、クラス固有の埋め込みコバリエンスを古いネットワークと現在のネットワーク間の共分散化に合わせて、共分散シフトを緩和します。
さらに、一般化を強化するために、機能レベルの自己設定アプローチを統合します。
一般的に使用されるデータセットでの包括的な実験は、私たちのアプローチの有効性を示しています。
ソースコードは、\ href {https://github.com/fwu11/macil.git} {https://github.com/fwu11/macil.git}で利用できます。

要約(オリジナル)

Class-incremental learning (CIL) seeks to enable a model to sequentially learn new classes while retaining knowledge of previously learned ones. Balancing flexibility and stability remains a significant challenge, particularly when the task ID is unknown. To address this, our study reveals that the gap in feature distribution between novel and existing tasks is primarily driven by differences in mean and covariance moments. Building on this insight, we propose a novel semantic drift calibration method that incorporates mean shift compensation and covariance calibration. Specifically, we calculate each class’s mean by averaging its sample embeddings and estimate task shifts using weighted embedding changes based on their proximity to the previous mean, effectively capturing mean shifts for all learned classes with each new task. We also apply Mahalanobis distance constraint for covariance calibration, aligning class-specific embedding covariances between old and current networks to mitigate the covariance shift. Additionally, we integrate a feature-level self-distillation approach to enhance generalization. Comprehensive experiments on commonly used datasets demonstrate the effectiveness of our approach. The source code is available at \href{https://github.com/fwu11/MACIL.git}{https://github.com/fwu11/MACIL.git}.

arxiv情報

著者 Fangwen Wu,Lechao Cheng,Shengeng Tang,Xiaofeng Zhu,Chaowei Fang,Dingwen Zhang,Meng Wang
発行日 2025-02-11 13:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning はコメントを受け付けていません

An Elliptic Curve Based Solution to the Perspective-Three-Point Problem

要約

視点3点問題(P3P)は、カメラから制御ポイントまでの距離ではなく、カメラに対するコントロールポイントのペアを介してラインの方向を決定することに最初に焦点を当てることによって解決されます。
この分析は、最先端のP3Pソルバー「Lambda Twist」と比較される、効率的で正確で合理的にシンプルなP3Pソルバーを生成します。
両方の方法は、立方体の多項式の単一のルートの正確な計算に依存します。
それらは、幅広い制御点三角形について実装およびテストされており、特定の合理的な制限の下では、新しい方法はラムダのねじれよりも顕著に正確ですが、遅くなります。
ただし、現在の研究の主要な価値は、さらに別のP3Pソルバーを導入することではなく、P3P問題と暗号化に使用される曲線を含む楕円曲線の特別なファミリーとの間の親密なつながりを発見することにあります。
これにより、多くの方向にさらなる進歩の可能性があります。
このつながりを作るために、古代の「スライド」問題の興味深い球状の類似物が述べられ、解決されます。

要約(オリジナル)

The Perspective-Three-Point Problem (P3P) is solved by first focusing on determining the directions of the lines through pairs of control points, relative to the camera, rather than the distances from the camera to the control points. The analysis of this produces an efficient, accurate and reasonably simple P3P solver, which is compared with a state-of-the-art P3P solver, ‘Lambda Twist.’ Both methods depend on the accurate computation of a single root of a cubic polynomial. They have been implemented and tested for a wide range of control-point triangles, and under certain reasonable restrictions, the new method is noticably more accurate than Lambda Twist, though it is slower. However, the principal value of the present work is not in introducing yet another P3P solver, but lies rather in the discovery of an intimate connection between the P3P problem and a special family of elliptic curves that includes curves utilized in cryptography. This holds the potential for further advances in a number of directions. To make this connection, an interesting spherical analogue of an ancient ‘sliding’ problem is stated and solved.

arxiv情報

著者 Michael Q. Rieck
発行日 2025-02-11 14:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 14H52, 51M10, cs.CV, math.AG | An Elliptic Curve Based Solution to the Perspective-Three-Point Problem はコメントを受け付けていません

Finding Dino: A Plug-and-Play Framework for Zero-Shot Detection of Out-of-Distribution Objects Using Prototypes

要約

あらゆるシーンで不明または分散排出(OOD)オブジェクトを検出およびローカリングすることは、特に自動化された車両や列車などの自律システムが関与する安全性のあるケースでは、ビジョンにおける挑戦的なタスクになる可能性があります。
監視された異常セグメンテーションまたはオープンワールドオブジェクト検出モデルは、すべてのドメインの徹底的に注釈付きのデータセットでのトレーニングに依存し、背景とOODオブジェクトを区別するのに苦労しています。
この作業では、プラグアンドプレイフレームワーク – ラベルのないプロトタイプベースのOOD検出(Prowl)を提示します。
これは、ドメインデータセットでのトレーニングを必要としない推論ベースの方法であり、自己教師の事前訓練モデルから関連する機能の抽出に依存しています。
Prowlは、このドメインから既知のクラスのリストを指定することにより、任意の設計ドメイン(ODD)のドメイン内オブジェクトをゼロショット方法で簡単に検出できるように簡単に適合させることができます。
Prowlは、最初のゼロショットの監視なしの方法として、道路駆動ベンチマークで提供されるロードノマリーおよびロード抽象データセットで最新の結果を達成します – SegmentMeifyoucan(SMIYC)と魚の科。
補助的なoodデータ。
また、鉄道や海事などの他のドメインに対する一般化可能性も示しています。

要約(オリジナル)

Detecting and localising unknown or out-of-distribution (OOD) objects in any scene can be a challenging task in vision, particularly in safety-critical cases involving autonomous systems like automated vehicles or trains. Supervised anomaly segmentation or open-world object detection models depend on training on exhaustively annotated datasets for every domain and still struggle in distinguishing between background and OOD objects. In this work, we present a plug-and-play framework – PRototype-based OOD detection Without Labels (PROWL). It is an inference-based method that does not require training on the domain dataset and relies on extracting relevant features from self-supervised pre-trained models. PROWL can be easily adapted to detect in-domain objects in any operational design domain (ODD) in a zero-shot manner by specifying a list of known classes from this domain. PROWL, as a first zero-shot unsupervised method, achieves state-of-the-art results on the RoadAnomaly and RoadObstacle datasets provided in road driving benchmarks – SegmentMeIfYouCan (SMIYC) and Fishyscapes, as well as comparable performance against existing supervised methods trained without auxiliary OOD data. We also demonstrate its generalisability to other domains such as rail and maritime.

arxiv情報

著者 Poulami Sinhamahapatra,Franziska Schwaiger,Shirsha Bose,Huiyu Wang,Karsten Roscher,Stephan Guennemann
発行日 2025-02-11 14:05:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Finding Dino: A Plug-and-Play Framework for Zero-Shot Detection of Out-of-Distribution Objects Using Prototypes はコメントを受け付けていません

Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology

要約

組織病理学総合画像(WSI)は、計算病理学(CPATH)の癌予後を評価するための重要なツールを提供します。
既存の生存分析(SA)アプローチはエキサイティングな進歩を遂げましたが、一般に、非常に発現するネットワークアーキテクチャと粗い患者レベルのラベルのみを採用して、ギガピクセルWSIからの視覚的予後表現を学習します。
このような学習パラダイムは、現在の希少なトレーニングデータとCPATHの標準的なマルチインスタンス学習(MIL)フレームワークに直面している場合、重要なパフォーマンスボトルネックに苦しんでいます。
それを克服するために、この論文は初めて、新しいビジョン言語ベースのSA(VLSA)パラダイムを提案します。
具体的には、(1)VLSAは病理VL基礎モデルによって駆動されます。
高能力ネットワークに依存しなくなり、データ効率の利点を示しています。
(2)ビジョンエンドでは、VLSAはテキスト予後事前をエンコードし、インスタンスレベルでの視覚的予後特徴の集約を導くために補助信号としてそれを採用し、それによってMILの弱い監督を補正します。
さらに、SAの特性を考慮して、i)順序生存プロンプトの学習が継続的生存ラベルをテキストプロンプトに変換することを提案します。
およびii)VLベースの予測とSAを互換性のあるものにするための予測ターゲットとしての順序発生率。
特に、VLSAの予測は、Shapleyの価値ベースの方法によって直感的に解釈される可能性があります。
5つのデータセットでの広範な実験は、スキームの有効性を確認します。
私たちのVLSAは、Gigapixel WSIから貴重な予後の手がかりを学ぶための効果的な手段を弱く監視したMILに提供することにより、CPATのSAの新しい方法を開くことができます。
ソースコードは、https://github.com/liupei101/vlsaで入手できます。

要約(オリジナル)

Histopathology Whole-Slide Images (WSIs) provide an important tool to assess cancer prognosis in computational pathology (CPATH). While existing survival analysis (SA) approaches have made exciting progress, they are generally limited to adopting highly-expressive network architectures and only coarse-grained patient-level labels to learn visual prognostic representations from gigapixel WSIs. Such learning paradigm suffers from critical performance bottlenecks, when facing present scarce training data and standard multi-instance learning (MIL) framework in CPATH. To overcome it, this paper, for the first time, proposes a new Vision-Language-based SA (VLSA) paradigm. Concretely, (1) VLSA is driven by pathology VL foundation models. It no longer relies on high-capability networks and shows the advantage of data efficiency. (2) In vision-end, VLSA encodes textual prognostic prior and then employs it as auxiliary signals to guide the aggregating of visual prognostic features at instance level, thereby compensating for the weak supervision in MIL. Moreover, given the characteristics of SA, we propose i) ordinal survival prompt learning to transform continuous survival labels into textual prompts; and ii) ordinal incidence function as prediction target to make SA compatible with VL-based prediction. Notably, VLSA’s predictions can be interpreted intuitively by our Shapley values-based method. The extensive experiments on five datasets confirm the effectiveness of our scheme. Our VLSA could pave a new way for SA in CPATH by offering weakly-supervised MIL an effective means to learn valuable prognostic clues from gigapixel WSIs. Our source code is available at https://github.com/liupei101/VLSA.

arxiv情報

著者 Pei Liu,Luping Ji,Jiaxiang Gou,Bo Fu,Mao Ye
発行日 2025-02-11 14:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology はコメントを受け付けていません

Near, far: Patch-ordering enhances vision foundation models’ scene understanding

要約

NECO:PATCH Neighbor Consecencyを紹介します。これは、学生と教師モデル全体でパッチレベルの最近隣接する一貫性を実施する新しい自己監視のトレーニング損失です。
バイナリ学習信号のみ、つまり「引き付け」と「反発」のみを生成する対照的なアプローチと比較して、このアプローチは、参照パッチと比較して空間的に密な特徴をソートするというより微細な学習信号から利益を得ます。
私たちの方法は、DinoV2-registersなどの前提条件の表現の上に適用される微分可能な並べ替えを活用して、学習信号をブートストラップし、さらに改善します。
この密集後の予定は、単一のGPUで19時間しか必要としないにもかかわらず、さまざまなモデルとデータセットで優れたパフォーマンスにつながります。
この方法は、高品質の高密度機能エンコーダーを生成し、ADE20KおよびPascal VOCのノンパラメトリックインコンテキストセマンティックセグメンテーション、 +7.2%および + +など、 +5.5%および +6%などのいくつかの新しい最先端の結果を確立します。
5.7%Coco-Thingsの線形セグメンテーション評価と、SPAIR-71Kのマルチビューの一貫性の3D理解の頑丈な評価と改善、1.5%以上。

要約(オリジナル)

We introduce NeCo: Patch Neighbor Consistency, a novel self-supervised training loss that enforces patch-level nearest neighbor consistency across a student and teacher model. Compared to contrastive approaches that only yield binary learning signals, i.e., ‘attract’ and ‘repel’, this approach benefits from the more fine-grained learning signal of sorting spatially dense features relative to reference patches. Our method leverages differentiable sorting applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. This method generates high-quality dense feature encoders and establishes several new state-of-the-art results such as +5.5% and +6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff and improvements in the 3D understanding of multi-view consistency on SPair-71k, by more than 1.5%.

arxiv情報

著者 Valentinos Pariza,Mohammadreza Salehi,Gertjan Burghouts,Francesco Locatello,Yuki M. Asano
発行日 2025-02-11 14:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Near, far: Patch-ordering enhances vision foundation models’ scene understanding はコメントを受け付けていません

Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness

要約

拡散モデル(DM)は、DMベースの防御方法が敵対的な訓練なしで優れた防御能力を達成できる敵対的な堅牢性の分野で大きな可能性を実証しています。
ただし、大規模な事前訓練を受けたDMSの使用により、それらはすべて膨大な計算コストを必要としているため、強力な攻撃の下で完全な評価を実施し、従来のCNNベースの方法と比較することが困難です。
DMSのネットワークサイズとタイムステップを単純に縮小するだけで、以前のフレームワークを無効にする画像生成品質を大幅に害する可能性があります。
この問題を軽減するために、拡散フレームワークを高品質の画像の生成から識別可能な画像ラベルの予測に再設計します。
具体的には、イメージ翻訳フレームワークを使用して、入力サンプルから設計された直交画像ラベルまでの多くのマッピングを学習します。
このフレームワークに基づいて、剪定されたU-NET構造と拡散タイムステップを減らした効率的な画像間拡散分類器を導入します。
フレームワークに加えて、DMSの最適化目標を再設計して、画像分類のターゲットに適合します。ここでは、新しい分類損失がDMベースの画像翻訳フレームワークに組み込まれ、生成されたラベルを他のクラスのラベルと区別します。
人気のあるベンチマークに対するさまざまな攻撃の下で、提案された分類器の十分な評価を実施します。
広範な実験は、DMベースおよびCNNベースの方法よりも計算コストが少なく、私たちの方法がより良い敵対的堅牢性を達成することを示しています。
このコードは、https://github.com/hfmei/idcで入手できます

要約(オリジナル)

Diffusion models (DMs) have demonstrated great potential in the field of adversarial robustness, where DM-based defense methods can achieve superior defense capability without adversarial training. However, they all require huge computational costs due to the usage of large-scale pre-trained DMs, making it difficult to conduct full evaluation under strong attacks and compare with traditional CNN-based methods. Simply reducing the network size and timesteps in DMs could significantly harm the image generation quality, which invalidates previous frameworks. To alleviate this issue, we redesign the diffusion framework from generating high-quality images to predicting distinguishable image labels. Specifically, we employ an image translation framework to learn many-to-one mapping from input samples to designed orthogonal image labels. Based on this framework, we introduce an efficient Image-to-Image diffusion classifier with a pruned U-Net structure and reduced diffusion timesteps. Besides the framework, we redesign the optimization objective of DMs to fit the target of image classification, where a new classification loss is incorporated in the DM-based image translation framework to distinguish the generated label from those of other classes. We conduct sufficient evaluations of the proposed classifier under various attacks on popular benchmarks. Extensive experiments show that our method achieves better adversarial robustness with fewer computational costs than DM-based and CNN-based methods. The code is available at https://github.com/hfmei/IDC

arxiv情報

著者 Hefei Mei,Minjing Dong,Chang Xu
発行日 2025-02-11 14:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness はコメントを受け付けていません

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

要約

拡散トランス(DIT)は、高品質のビデオのモデリングと生成において顕著なパフォーマンスを示しています。
ただし、3D完全な注意メカニズムの二次計算の複雑さは、特に高解像度と長いビデオのスケーリングビデオDITトレーニングに大きな課題を示します。
大きな入力サイズを処理するため。
このペーパーでは、トレーニングプロセス全体で固有の動的な注意スパース性を活用することにより、ビデオDITのトレーニングを加速および拡大するように設計された新しいフレームワークであるDSVを紹介します。
DSVは、スパースパターンを悪用する2段階のトレーニングアルゴリズムを採用しており、効率的でカスタマイズされたカーネルによってサポートされている重要な要素に焦点を当てています。
新しいスパースの次元に対応するために、ハイブリッドスパースアウェアコンテキストの並列性を開発し、注意ヘッドとブロック全体でスパースの不均一性に対処することにより、大きな入力に効果的にスケーリングし、最適化されたスパースの計算と通信をもたらします。
広範な評価は、DSVが品質の低下をほとんど伴わずにトレーニングスループットで最大3.02倍の増加を達成することを示しています。

要約(オリジナル)

Diffusion Transformers (DiTs) have shown remarkable performance in modeling and generating high-quality videos. However, the quadratic computational complexity of 3D full attention mechanism presents significant challenges in scaling video DiT training, especially for high-definition and lengthy videos, where attention can dominate up to 95% of the end-to-end time and necessitate specialized communication paradigms to handle large input sizes. This paper introduces DSV, a novel framework designed to accelerate and scale the training of video DiTs by leveraging the inherent dynamic attention sparsity throughout the training process. DSV employs a two-stage training algorithm that exploits sparsity patterns, focusing on critical elements supported by efficient, tailored kernels. To accommodate the new sparsity dimension, we develop a hybrid sparsity-aware context parallelism that effectively scales to large inputs by addressing the heterogeneity of sparsity across attention heads and blocks, resulting in optimized sparse computation and communication. Extensive evaluations demonstrate that DSV achieves up to 3.02x gain in training throughput with nearly no quality degradation.

arxiv情報

著者 Xin Tan,Yuetao Chen,Yimin Jiang,Xing Chen,Kun Yan,Nan Duan,Yibo Zhu,Daxin Jiang,Hong Xu
発行日 2025-02-11 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC | DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training はコメントを受け付けていません

YOLO Network For Defect Detection In Optical lenses

要約

大量生産された光レンズは、散乱特性を変え、品質基準を妥協する欠陥を示すことがよくあります。
通常、手動検査は欠陥を検出するために採用されますが、精度が低く、エラー率が高く、スケーラビリティが限られているため、推奨されません。
これらの課題に対処するために、この研究はYolov8ディープラーニングモデルに基づいた自動欠陥検出システムを提示します。
モデルをトレーニングするために、欠陥領域とレンズ領域が注釈付けされた光レンズのカスタムデータセットが作成されました。
この研究で得られた実験結果は、システムを使用して光レンズの欠陥を効率的かつ正確に検出できることを明らかにしています。
提案されたシステムは、光学レンズ製造における信頼性が高くスケーラブルな欠陥検出を可能にすることにより、リアルタイムの産業環境で品質管理プロセスを強化することができます。

要約(オリジナル)

Mass-produced optical lenses often exhibit defects that alter their scattering properties and compromise quality standards. Manual inspection is usually adopted to detect defects, but it is not recommended due to low accuracy, high error rate and limited scalability. To address these challenges, this study presents an automated defect detection system based on the YOLOv8 deep learning model. A custom dataset of optical lenses, annotated with defect and lens regions, was created to train the model. Experimental results obtained in this study reveal that the system can be used to efficiently and accurately detect defects in optical lenses. The proposed system can be utilized in real-time industrial environments to enhance quality control processes by enabling reliable and scalable defect detection in optical lens manufacturing.

arxiv情報

著者 Habib Yaseen
発行日 2025-02-11 14:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO Network For Defect Detection In Optical lenses はコメントを受け付けていません

PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning

要約

将来のシーンの表現を予測することは、ロボットが環境を理解して対話できるようにするための重要なタスクです。
ただし、ほとんどの既存の方法は、正確なアクション注釈を備えたビデオシーケンスとシミュレーションに依存しており、利用可能な大量の非標識ビデオデータを活用する能力を制限しています。
この課題に対処するために、オブジェクト中心のビデオ予測モデルであるPlayslotを提案します。これは、オブジェクト表現と潜在的なアクションを非標識ビデオシーケンスから推進します。
次に、これらの表現を使用して、将来のオブジェクト状態とビデオフレームを予測します。
PlaySlotを使用すると、ユーザーが提供する、または学習したアクションポリシーによって生成されるビデオダイナミクスから推測できる潜在的なアクションに条件付けられた複数の可能な先物を生成できます。
私たちの結果は、プレイスロットが、さまざまな環境でビデオ予測のために確率的およびオブジェクト中心の両方のベースラインよりも優れていることを示しています。
さらに、推測された潜在アクションを使用して、ラベルのないビデオデモンストレーションからロボットの動作をサンプル効率的に学習できることを示しています。
ビデオとコードは、https://play-slot.github.io/playslot/で入手できます。

要約(オリジナル)

Predicting future scene representations is a crucial task for enabling robots to understand and interact with the environment. However, most existing methods rely on video sequences and simulations with precise action annotations, limiting their ability to leverage the large amount of available unlabeled video data. To address this challenge, we propose PlaySlot, an object-centric video prediction model that infers object representations and latent actions from unlabeled video sequences. It then uses these representations to forecast future object states and video frames. PlaySlot allows to generate multiple possible futures conditioned on latent actions, which can be inferred from video dynamics, provided by a user, or generated by a learned action policy, thus enabling versatile and interpretable world modeling. Our results show that PlaySlot outperforms both stochastic and object-centric baselines for video prediction across different environments. Furthermore, we show that our inferred latent actions can be used to learn robot behaviors sample-efficiently from unlabeled video demonstrations. Videos and code are available at https://play-slot.github.io/PlaySlot/.

arxiv情報

著者 Angel Villar-Corrales,Sven Behnke
発行日 2025-02-11 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning はコメントを受け付けていません