Going Beyond Conventional OOD Detection

要約

外部分布(OOD)検出は、重要なアプリケーションでの深い学習モデルの安全な展開を確保するために重要です。
ディープラーニングモデルは、多くの場合、oodサンプルを分散貢献(ID)サンプルとして誤認する可能性があります。
この脆弱性は、トレーニングセットに偽の相関がある場合に悪化します。
同様に、細粒の分類設定では、IDサンプルとの類似性が高いため、細粒サンプルの検出が本質的に困難になります。
ただし、OOD検出に関する現在の研究は、これらの挑戦的なシナリオをほとんど無視しており、代わりに比較的簡単な(従来の)ケースに焦点を当てています。
この作業では、偽り、きめの細かい、従来のOOD検出(ASCOOD)に対する統一されたアプローチを提示します。
まず、不変の特徴の破壊を近似することにより、IDデータから仮想外れ値を合成することを提案します。
この目的のために、学習中のモデルを使用して、ピクセル属性法で不変の機能を特定します。
このアプローチは、外部OODデータセットをキュレーションする負担を排除します。
次に、標準化された機能表現を活用する仮想外れ値に対するID分類と予測不確実性を同時に奨励します。
私たちのアプローチは、偽の相関の影響を効果的に軽減し、きめ細かい属性のキャプチャを促進します。
7つのデータセットにわたる広範な実験は、偽り、きめの細かい設定、および従来の設定におけるアスクードのメリットを示しています。
コードはhttps://github.com/sudarshanregmi/ascood/で入手できます。

要約(オリジナル)

Out-of-distribution (OOD) detection is critical to ensure the safe deployment of deep learning models in critical applications. Deep learning models can often misidentify OOD samples as in-distribution (ID) samples. This vulnerability worsens in the presence of spurious correlation in the training set. Likewise, in fine-grained classification settings, detection of fine-grained OOD samples becomes inherently challenging due to their high similarity to ID samples. However, current research on OOD detection has largely ignored these challenging scenarios, focusing instead on relatively easier (conventional) cases. In this work, we present a unified Approach to Spurious, fine-grained, and Conventional OOD Detection (ASCOOD). First, we propose synthesizing virtual outliers from ID data by approximating the destruction of invariant features. To this end, we identify invariant features with the pixel attribution method using the model being learned. This approach eliminates the burden of curating external OOD datasets. Then, we simultaneously incentivize ID classification and predictive uncertainty towards virtual outliers leveraging standardized feature representation. Our approach effectively mitigates the impact of spurious correlations and encourages capturing fine-grained attributes. Extensive experiments across seven datasets demonstrate the merit of ASCOOD in spurious, fine-grained, and conventional settings. The code is available at: https://github.com/sudarshanregmi/ASCOOD/

arxiv情報

著者 Sudarshan Regmi
発行日 2025-03-11 17:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Going Beyond Conventional OOD Detection はコメントを受け付けていません

Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning

要約

一般的な信念は、本質的に解釈可能な深い学習モデルが、彼らの行動を正しく直感的に理解し、偶発的なエラーや意図的な操作に対してより大きな堅牢性を提供するということです。
しかし、これらの信念は包括的に検証されておらず、増え続ける証拠はそれらに疑問を投げかけています。
このホワイトペーパーでは、これらのいわゆる「本質的に(本質的に)解釈可能な」モデルの敵対的操作に対する過依存と感受性に関連するリスクを強調します。
プロトタイプの操作とプロトタイプベースのネットワークに対するバックドア攻撃により、敵対的な分析のための2つの戦略を導入し、コンセプトボトルネックモデルがこれらの攻撃に対してどのように防御するかを議論します。
潜在的なプロトタイプの使用を活用することでモデルの推論をだますことは、深いニューラルネットワークの固有の不可解性を明らかにし、視覚的確認バイアスによって強化された誤ったセキュリティの感覚につながります。
プロトタイプベースのネットワークの報告された制限により、信頼性と適用性が疑問視され、(深い)解釈可能なモデルの堅牢性と調整に関するさらなる作業が動機付けられました。

要約(オリジナル)

A common belief is that intrinsically interpretable deep learning models ensure a correct, intuitive understanding of their behavior and offer greater robustness against accidental errors or intentional manipulation. However, these beliefs have not been comprehensively verified, and growing evidence casts doubt on them. In this paper, we highlight the risks related to overreliance and susceptibility to adversarial manipulation of these so-called ‘intrinsically (aka inherently) interpretable’ models by design. We introduce two strategies for adversarial analysis with prototype manipulation and backdoor attacks against prototype-based networks, and discuss how concept bottleneck models defend against these attacks. Fooling the model’s reasoning by exploiting its use of latent prototypes manifests the inherent uninterpretability of deep neural networks, leading to a false sense of security reinforced by a visual confirmation bias. The reported limitations of prototype-based networks put their trustworthiness and applicability into question, motivating further work on the robustness and alignment of (deep) interpretable models.

arxiv情報

著者 Hubert Baniecki,Przemyslaw Biecek
発行日 2025-03-11 17:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning はコメントを受け付けていません

GBlobs: Explicit Local Structure via Gaussian Blobs for Improved Cross-Domain LiDAR-based 3D Object Detection

要約

LIDARベースの3D検出器には、トレーニングのために大きなデータセットが必要ですが、新しいドメインに一般化するのに苦労しています。
ドメイン一般化(DG)は、このようなドメインシフトに不変の検出器をトレーニングすることにより、これを軽減することを目的としています。
現在のDGアプローチは、入力機能としてグローバルな幾何学的特徴(Point Cloud Cartesian Coordinates)にのみ依存しています。
ただし、これらのグローバルな幾何学的特徴に過度に依存すると、3D検出器がオブジェクトの位置と絶対位置に優先順位を付けることができ、クロスドメインのパフォーマンスが低下します。
これを緩和するために、特にGaussian Blobs、GBLOBでポイントクラウド近隣をエンコードすることにより、DGの明示的なローカルポイントクラウド構造を活用することを提案します。
提案された策定は非常に効率的であり、追加のパラメーターは必要ありません。
ベルやホイッスルなしで、既存の検出器にGBLOBを統合するだけで、21を超えるマップ(Waymo-> kitti)、13 Map(Kitti-> waymo)、および12 Map(nuscenes-> kitti)によって、挑戦的なシングルソースDGベンチマークを倒すことで、ドメイン内のパフォーマンスを犠牲にすることなく、現在の最先端のシングルソースDGベンチマークを破りました。
さらに、GBLOBSはマルチソースDGで例外的なパフォーマンスを発揮し、それぞれ現在の最先端を17、12、および5のマップを上回ります。

要約(オリジナル)

LiDAR-based 3D detectors need large datasets for training, yet they struggle to generalize to novel domains. Domain Generalization (DG) aims to mitigate this by training detectors that are invariant to such domain shifts. Current DG approaches exclusively rely on global geometric features (point cloud Cartesian coordinates) as input features. Over-reliance on these global geometric features can, however, cause 3D detectors to prioritize object location and absolute position, resulting in poor cross-domain performance. To mitigate this, we propose to exploit explicit local point cloud structure for DG, in particular by encoding point cloud neighborhoods with Gaussian blobs, GBlobs. Our proposed formulation is highly efficient and requires no additional parameters. Without any bells and whistles, simply by integrating GBlobs in existing detectors, we beat the current state-of-the-art in challenging single-source DG benchmarks by over 21 mAP (Waymo->KITTI), 13 mAP (KITTI->Waymo), and 12 mAP (nuScenes->KITTI), without sacrificing in-domain performance. Additionally, GBlobs demonstrate exceptional performance in multi-source DG, surpassing the current state-of-the-art by 17, 12, and 5 mAP on Waymo, KITTI, and ONCE, respectively.

arxiv情報

著者 Dušan Malić,Christian Fruhwirth-Reisinger,Samuel Schulter,Horst Possegger
発行日 2025-03-11 17:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GBlobs: Explicit Local Structure via Gaussian Blobs for Improved Cross-Domain LiDAR-based 3D Object Detection はコメントを受け付けていません

Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark

要約

大規模なマルチモーダルモデル(LMM)は、単一の画像に対して視覚的な質問を回答することで大きな進歩を遂げました。
長いコンテキストLMMのような最近の進歩により、彼らはより大きく、または複数の画像を摂取することができました。
ただし、多数の視覚トークンを処理する能力は、特にフォトアルバム検索や衛星画像分析などの実際のアプリケーションで、マルチイメージ質問応答(MIQA)の効果的な検索と推論を保証するものではありません。
この作業では、最初にロングコンテキストLMMの現在のベンチマークの制限を評価します。
これらの制限に対処し、新しい視覚中心の長いコンテキストベンチマーク「Visual Haystacks(VHS)」を導入します。
VHS上のオープンソースと独自のモデルの両方を包括的に評価し、これらのモデルが、潜在的に無関係な画像全体で推論するときに苦労し、クロスイメージの推論でパフォーマンスが低下し、コンテキストウィンドウ内の重要な情報の配置に基づいてバイアスを示すことを実証します。
ソリューションに向けて、Mirage(マルチイメージ検索拡張生成)を導入します。これは、現代モデルの1Kイメージの制限をはるかに超える40g A100 GPUで最大10kの画像を処理するオープンソースの軽量の視覚的距離フレームワークです。
Mirageは、VHSの既存のオープンソースLMMよりも最大13%のパフォーマンス改善を示し、RetVQAマルチイメージQAベンチマークに新しい最先端を設定し、最先端のLMMを使用してシングルイメージQAで競争力のあるパフォーマンスを達成します。
データセット、モデル、およびコードは、https://visual-haystacks.github.ioで入手できます。

要約(オリジナル)

Large Multimodal Models (LMMs) have made significant strides in visual question-answering for single images. Recent advancements like long-context LMMs have allowed them to ingest larger, or even multiple, images. However, the ability to process a large number of visual tokens does not guarantee effective retrieval and reasoning for multi-image question answering (MIQA), especially in real-world applications like photo album searches or satellite imagery analysis. In this work, we first assess the limitations of current benchmarks for long-context LMMs. We address these limitations by introducing a new vision-centric, long-context benchmark, ‘Visual Haystacks (VHs)’. We comprehensively evaluate both open-source and proprietary models on VHs, and demonstrate that these models struggle when reasoning across potentially unrelated images, perform poorly on cross-image reasoning, as well as exhibit biases based on the placement of key information within the context window. Towards a solution, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), an open-source, lightweight visual-RAG framework that processes up to 10k images on a single 40G A100 GPU — far surpassing the 1k-image limit of contemporary models. MIRAGE demonstrates up to 13% performance improvement over existing open-source LMMs on VHs, sets a new state-of-the-art on the RetVQA multi-image QA benchmark, and achieves competitive performance on single-image QA with state-of-the-art LMMs. Our dataset, model, and code are available at: https://visual-haystacks.github.io.

arxiv情報

著者 Tsung-Han Wu,Giscard Biamby,Jerome Quenum,Ritwik Gupta,Joseph E. Gonzalez,Trevor Darrell,David M. Chan
発行日 2025-03-11 17:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark はコメントを受け付けていません

Rethinking Diffusion Model in High Dimension

要約

次元の呪いは、統計的確率モデルでは避けられない課題ですが、拡散モデルはこの制限を克服し、高次元データ生成で印象的な結果を達成しているようです。
拡散モデルは、基礎となる確率分布の統計的特性を学習できると仮定し、この分布からサンプリングが現実的なサンプルを生成できるようにします。
しかし、これは本当に彼らがどのように機能するかですか?
この質問に対処するために、このペーパーでは、拡散モデルの目的関数と推論方法の詳細な分析を実施し、上記の質問に答えるのに役立ついくつかの重要な結論につながります。
2)主流の推論方法はすべて、マルコフチェーンやSDEなどの統計的概念を必要とせずに、すべて単純な統一フレームワーク内で表現できます。
3)この単純なフレームワークに導かれ、より効率的な推論方法を発見できます。

要約(オリジナル)

Curse of Dimensionality is an unavoidable challenge in statistical probability models, yet diffusion models seem to overcome this limitation, achieving impressive results in high-dimensional data generation. Diffusion models assume that they can learn the statistical properties of the underlying probability distribution, enabling sampling from this distribution to generate realistic samples. But is this really how they work? To address this question, this paper conducts a detailed analysis of the objective function and inference methods of diffusion models, leading to several important conclusions that help answer the above question: 1) In high-dimensional sparse scenarios, the target of the objective function fitting degrades from a weighted sum of multiple samples to a single sample. 2) The mainstream inference methods can all be represented within a simple unified framework, without requiring statistical concepts such as Markov chains and SDEs. 3) Guided by this simple framework, more efficient inference methods can be discovered.

arxiv情報

著者 Zhenxin Zheng,Zhenjie Zheng
発行日 2025-03-11 17:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Rethinking Diffusion Model in High Dimension はコメントを受け付けていません

MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input

要約

Virtual Try-On(VITON)の最近の進歩により、強力なテキストからイメージ(T2I)拡散モデルによって駆動される画像リアリズムと衣服の詳細保存が大幅に改善されました。
ただし、既存の方法は、多くの場合、ユーザーが提供するマスクに依存しており、図1(a)に示すように、不完全な入力による複雑さとパフォーマンスの劣化をもたらします。
これに対処するために、1人の画像とターゲットガーメントのみを使用してリアルなVitonを達成するマスクフリービトン(MF-Viton)フレームワークを提案し、補助マスクの要件を排除します。
このアプローチでは、新しい2段階のパイプラインを紹介します。(1)既存のマスクベースのVitonモデルを活用して、高品質のデータセットを合成します。
このデータセットには、現実世界のシナリオを模倣するためにさまざまな背景で補強された、多様で現実的な人の画像と対応する衣服が含まれています。
(2)事前に訓練されたマスクベースのモデルは、生成されたデータセットで微調整されており、マスクの依存関係なしで衣服の転送を可能にします。
この段階は、衣服のテクスチャーを保存しながら、忠実度を維持しながら、入力要件を簡素化します。
私たちのフレームワークは、衣服移動の精度と視覚的リアリズムに関する最先端の(SOTA)パフォーマンスを実現します。
特に、提案されたマスクフリーモデルは、既存のマスクベースのアプローチを大幅に上回り、新しいベンチマークを設定し、以前のアプローチよりも大きなリードを示します。
詳細については、プロジェクトページをご覧ください:https://zhenchenwan.github.io/mf-viton/。

要約(オリジナル)

Recent advancements in Virtual Try-On (VITON) have significantly improved image realism and garment detail preservation, driven by powerful text-to-image (T2I) diffusion models. However, existing methods often rely on user-provided masks, introducing complexity and performance degradation due to imperfect inputs, as shown in Fig.1(a). To address this, we propose a Mask-Free VITON (MF-VITON) framework that achieves realistic VITON using only a single person image and a target garment, eliminating the requirement for auxiliary masks. Our approach introduces a novel two-stage pipeline: (1) We leverage existing Mask-based VITON models to synthesize a high-quality dataset. This dataset contains diverse, realistic pairs of person images and corresponding garments, augmented with varied backgrounds to mimic real-world scenarios. (2) The pre-trained Mask-based model is fine-tuned on the generated dataset, enabling garment transfer without mask dependencies. This stage simplifies the input requirements while preserving garment texture and shape fidelity. Our framework achieves state-of-the-art (SOTA) performance regarding garment transfer accuracy and visual realism. Notably, the proposed Mask-Free model significantly outperforms existing Mask-based approaches, setting a new benchmark and demonstrating a substantial lead over previous approaches. For more details, visit our project page: https://zhenchenwan.github.io/MF-VITON/.

arxiv情報

著者 Zhenchen Wan,Yanwu xu,Dongting Hu,Weilun Cheng,Tianxi Chen,Zhaoqing Wang,Feng Liu,Tongliang Liu,Mingming Gong
発行日 2025-03-11 17:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input はコメントを受け付けていません

TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On

要約

Virtual Try-On(VTO)の最近の進歩は、現実的な画像を生成し、衣服の詳細を保存する際に並外れた有効性を実証しました。
ただし、これらの方法を支えるT2Iモデルは時代遅れになっているため、VTOのさらなる改善の可能性が制限されています。
さらに、現在の方法は、歪みや材料の忠実度など、歪みや微粒子の詳細を保存することなく、衣服にテキストを正確にレンダリングする際に顕著な課題に直面しています。
拡散トランス(DIT)ベースのT2Iモデルの出現は、印象的なパフォーマンスを紹介し、VTOを前進させるための有望な機会を提供します。
既存のVTO技術をトランスベースのT2Iモデルに直接適用することは、実質的なアーキテクチャの違いのために効果がありません。これにより、テキスト生成の改善のためにモデルの高度な機能を完全に活用する能力が妨げられます。
これらの課題に対処し、VTOのDITベースのT2Iモデルの可能性を最大限に発揮するために、TED-Vitonを提案します。TEDVitonは、衣服固有の特徴を強化するための衣服セマンティック(GS)アダプターを統合する新しいフレームワーク、テキストの保存損失、正確で歪みのないテキストレンダリングを確保し、大規模な言語モデルを最適化するための解釈メカニズムを確保するための新しいフレームワークを提案します(LLM)。
これらのイノベーションにより、視覚品質とテキストの忠実度で最先端の(SOTA)パフォーマンスが可能になり、VTOタスクの新しいベンチマークが確立されます。
プロジェクトページ:https://zhenchenwan.github.io/ted-viton/

要約(オリジナル)

Recent advancements in Virtual Try-On (VTO) have demonstrated exceptional efficacy in generating realistic images and preserving garment details, largely attributed to the robust generative capabilities of text-to-image (T2I) diffusion backbones. However, the T2I models that underpin these methods have become outdated, thereby limiting the potential for further improvement in VTO. Additionally, current methods face notable challenges in accurately rendering text on garments without distortion and preserving fine-grained details, such as textures and material fidelity. The emergence of Diffusion Transformer (DiT) based T2I models has showcased impressive performance and offers a promising opportunity for advancing VTO. Directly applying existing VTO techniques to transformer-based T2I models is ineffective due to substantial architectural differences, which hinder their ability to fully leverage the models’ advanced capabilities for improved text generation. To address these challenges and unlock the full potential of DiT-based T2I models for VTO, we propose TED-VITON, a novel framework that integrates a Garment Semantic (GS) Adapter for enhancing garment-specific features, a Text Preservation Loss to ensure accurate and distortion-free text rendering, and a constraint mechanism to generate prompts by optimizing Large Language Model (LLM). These innovations enable state-of-the-art (SOTA) performance in visual quality and text fidelity, establishing a new benchmark for VTO task. Project page: https://zhenchenwan.github.io/TED-VITON/

arxiv情報

著者 Zhenchen Wan,Yanwu Xu,Zhaoqing Wang,Feng Liu,Tongliang Liu,Mingming Gong
発行日 2025-03-11 17:42:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On はコメントを受け付けていません

Task-Oriented Co-Design of Communication, Computing, and Control for Edge-Enabled Industrial Cyber-Physical Systems

要約

このペーパーでは、ミッションクリティカルな産業サイバー物理システム(CPS)の帯域幅の制限、騒音干渉、および遅延の重要な課題に対処するために、コミュニケーション、コンピューティング、および制御を統合するタスク指向の共同設計フレームワークを提案します。
通信効率と堅牢性を向上させるために、情報ボトルネック(IB)を使用してタスク指向のジョイントソースチャネルコーディング(JSCC)を設計して、タスク固有の情報に優先順位を付けることでデータ送信効率を高めます。
知覚されたエンドツーエンド(E2E)の遅延を緩和するために、軌道計画を制御予測と統合し、E2E遅延に基づいてコマンドを予測する遅延軌道誘導制御制御予測(DTCP)戦略を開発します。
さらに、DTCPはタスク指向のJSCCと共同設計されており、タイムリーで信頼性の高い自律運転のためのタスク固有の情報の送信に焦点を当てています。
Carlaシミュレーターの実験結果は、E2Eの遅延1秒(20時間スロット)の下で、提案されたフレームワークが48.12の運転スコアを達成し、これはより良いポータブルグラフィックス(BPG)を使用しながら帯域幅の使用量を99.19%削減するよりも31.59ポイント高いことを示しています。

要約(オリジナル)

This paper proposes a task-oriented co-design framework that integrates communication, computing, and control to address the key challenges of bandwidth limitations, noise interference, and latency in mission-critical industrial Cyber-Physical Systems (CPS). To improve communication efficiency and robustness, we design a task-oriented Joint Source-Channel Coding (JSCC) using Information Bottleneck (IB) to enhance data transmission efficiency by prioritizing task-specific information. To mitigate the perceived End-to-End (E2E) delays, we develop a Delay-Aware Trajectory-Guided Control Prediction (DTCP) strategy that integrates trajectory planning with control prediction, predicting commands based on E2E delay. Moreover, the DTCP is co-designed with task-oriented JSCC, focusing on transmitting task-specific information for timely and reliable autonomous driving. Experimental results in the CARLA simulator demonstrate that, under an E2E delay of 1 second (20 time slots), the proposed framework achieves a driving score of 48.12, which is 31.59 points higher than using Better Portable Graphics (BPG) while reducing bandwidth usage by 99.19%.

arxiv情報

著者 Yufeng Diao,Yichi Zhang,Daniele De Martini,Philip Guodong Zhao,Emma Liying Li
発行日 2025-03-11 17:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, eess.IV, math.IT | Task-Oriented Co-Design of Communication, Computing, and Control for Edge-Enabled Industrial Cyber-Physical Systems はコメントを受け付けていません

Generating Robot Constitutions & Benchmarks for Semantic Safety

要約

最近まで、ロボットの安全研究は、主に衝突回避とロボットのすぐ近くの危険の減少についてでした。
大規模なビジョンモデル(VLM)の出現以来、ロボットは現在、人間との高レベルのセマンティックシーンの理解と自然言語の相互作用も可能になりました。
既知の脆弱性(例:幻覚や刑務所破壊)にもかかわらず、VLMは現実の世界と物理的に接触できるロボットの制御を手渡されています。
これは危険な行動につながる可能性があり、ロボットのセマンティックな安全性を即座に懸念します。
この論文の貢献は2倍です。まず、これらの新たなリスクに対処するために、ロボット脳として機能する基礎モデルの意味安全性を評価および改善するためのデータセットの大規模で包括的なコレクションであるAsimov Benchmarkをリリースします。
データ生成レシピは非常にスケーラブルです。テキストと画像生成のテクニックを活用することにより、実際の視覚シーンから望ましくない状況を生成し、病院からの人間の負傷報告を生成します。
第二に、実世界のデータからロボット憲法を自動的に生成して、憲法上のAIメカニズムを使用してロボットの動作を操作するフレームワークを開発します。
書面による行動ルールにニュアンスを導入できる新しい自動改めのプロセスを提案します。
これは、行動の望ましさと安全性に関する人間の好みとの整合性の増加につながる可能性があります。
さまざまな長さの多様な憲法のセットにわたる一般性と特異性の間のトレードオフを調査し、ロボットが違憲行為を効果的に拒否できることを実証します。
生成された憲法を使用して、アシモフのベンチマークで84.3%の最高位置合わせ速度を測定し、憲法なしのベースラインと人間が書いた憲法を上回ります。
データはAsimov-benchmark.github.ioで入手できます

要約(オリジナル)

Until recently, robotics safety research was predominantly about collision avoidance and hazard reduction in the immediate vicinity of a robot. Since the advent of large vision and language models (VLMs), robots are now also capable of higher-level semantic scene understanding and natural language interactions with humans. Despite their known vulnerabilities (e.g. hallucinations or jail-breaking), VLMs are being handed control of robots capable of physical contact with the real world. This can lead to dangerous behaviors, making semantic safety for robots a matter of immediate concern. Our contributions in this paper are two fold: first, to address these emerging risks, we release the ASIMOV Benchmark, a large-scale and comprehensive collection of datasets for evaluating and improving semantic safety of foundation models serving as robot brains. Our data generation recipe is highly scalable: by leveraging text and image generation techniques, we generate undesirable situations from real-world visual scenes and human injury reports from hospitals. Secondly, we develop a framework to automatically generate robot constitutions from real-world data to steer a robot’s behavior using Constitutional AI mechanisms. We propose a novel auto-amending process that is able to introduce nuances in written rules of behavior; this can lead to increased alignment with human preferences on behavior desirability and safety. We explore trade-offs between generality and specificity across a diverse set of constitutions of different lengths, and demonstrate that a robot is able to effectively reject unconstitutional actions. We measure a top alignment rate of 84.3% on the ASIMOV Benchmark using generated constitutions, outperforming no-constitution baselines and human-written constitutions. Data is available at asimov-benchmark.github.io

arxiv情報

著者 Pierre Sermanet,Anirudha Majumdar,Alex Irpan,Dmitry Kalashnikov,Vikas Sindhwani
発行日 2025-03-11 17:50:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC, cs.RO | Generating Robot Constitutions & Benchmarks for Semantic Safety はコメントを受け付けていません

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention

要約

マルチビュー拡散モデルは、一般的なオブジェクトの画像から3Dの生成でかなりの成功を示しています。
ただし、人間のデータに適用されると、既存の方法では、主にマルチビューの注意を高度な解像度にスケーリングするという課題が原因であるため、既存の方法はまだ有望な結果をもたらしていません。
このホワイトペーパーでは、メガピクセルレベルでヒトマルチビュー拡散モデルを探索し、1024×1024解像度でトレーニングを可能にするためにメッシュの注意と呼ばれるソリューションを導入します。
服を着たヒトメッシュを中央の粗い幾何表現として使用して、提案されたメッシュの注意はラスター化と投影をレバレッジして、直接クロスビュー座標対応を確立します。
このアプローチは、クロスビューの一貫性を維持しながら、マルチビューの注意の複雑さを大幅に削減します。
この基盤に基づいて、メッシュの注意ブロックを考案し、それをキーポイントコンディショニングと組み合わせて、人間固有のマルチビュー拡散モデルである肉を作成します。
さらに、データ不足の長年の問題に対処するために、拡散トレーニングにマルチビューヒューマンモーションビデオを適用することに関する貴重な洞察を提示します。
広範な実験では、肉がメガピクセルレベルで密集した一貫したマルチビューヒューマン画像を効果的に生成し、既存のマルチビュー拡散法よりも優れていることが示されています。

要約(オリジナル)

Multiview diffusion models have shown considerable success in image-to-3D generation for general objects. However, when applied to human data, existing methods have yet to deliver promising results, largely due to the challenges of scaling multiview attention to higher resolutions. In this paper, we explore human multiview diffusion models at the megapixel level and introduce a solution called mesh attention to enable training at 1024×1024 resolution. Using a clothed human mesh as a central coarse geometric representation, the proposed mesh attention leverages rasterization and projection to establish direct cross-view coordinate correspondences. This approach significantly reduces the complexity of multiview attention while maintaining cross-view consistency. Building on this foundation, we devise a mesh attention block and combine it with keypoint conditioning to create our human-specific multiview diffusion model, MEAT. In addition, we present valuable insights into applying multiview human motion videos for diffusion training, addressing the longstanding issue of data scarcity. Extensive experiments show that MEAT effectively generates dense, consistent multiview human images at the megapixel level, outperforming existing multiview diffusion methods.

arxiv情報

著者 Yuhan Wang,Fangzhou Hong,Shuai Yang,Liming Jiang,Wayne Wu,Chen Change Loy
発行日 2025-03-11 17:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention はコメントを受け付けていません