Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions

要約

健康やライフスタイルのコーチングなど、肯定的な行動の変化を促進するように設計されたインタラクティブなエージェントを評価するための合成ユーザーを生成するためのエンドツーエンドのフレームワークを提示します。
合成ユーザーは、健康コーチングエージェントとの現実的な相互作用を確保するために、この研究では、健康とライフスタイルの条件、特に睡眠と糖尿病の管理に基づいています。
合成ユーザーは2つの段階で作成されます。まず、構造化されたデータは、基本的な人口統計と行動属性に加えて、実際の健康とライフスタイルの要因に基づいて生成されます。
第二に、合成ユーザーの完全なプロファイルは、構造化されたデータに条件付けられて開発されます。
合成ユーザーとコーチングエージェント間の相互作用は、コンコルディアなどの生成エージェントベースのモデルを使用して、または言語モデルを促すことによりシミュレートされます。
睡眠と糖尿病のコーチングのために2人の独立したエージェントをケーススタディとして使用して、このフレームワークの妥当性は、合成ユーザーのニーズと課題に関するコーチングエージェントの理解を分析することにより実証されています。
最後に、人間の専門家によるユーザーコーチの相互作用の複数の盲目的な評価を通じて、健康と行動の属性を持つ合成ユーザーが、そのような属性に基づいていない一般的な合成ユーザーと比較して、同じ属性を持つ本物の人間のユーザーをより正確に描写することを実証します。
提案されたフレームワークは、広範で現実的で根拠のあるシミュレーションされた相互作用を通じて、会話エージェントの効率的な開発の基盤を築きます。

要約(オリジナル)

We present an end-to-end framework for generating synthetic users for evaluating interactive agents designed to encourage positive behavior changes, such as in health and lifestyle coaching. The synthetic users are grounded in health and lifestyle conditions, specifically sleep and diabetes management in this study, to ensure realistic interactions with the health coaching agent. Synthetic users are created in two stages: first, structured data are generated grounded in real-world health and lifestyle factors in addition to basic demographics and behavioral attributes; second, full profiles of the synthetic users are developed conditioned on the structured data. Interactions between synthetic users and the coaching agent are simulated using generative agent-based models such as Concordia, or directly by prompting a language model. Using two independently-developed agents for sleep and diabetes coaching as case studies, the validity of this framework is demonstrated by analyzing the coaching agent’s understanding of the synthetic users’ needs and challenges. Finally, through multiple blinded evaluations of user-coach interactions by human experts, we demonstrate that our synthetic users with health and behavioral attributes more accurately portray real human users with the same attributes, compared to generic synthetic users not grounded in such attributes. The proposed framework lays the foundation for efficient development of conversational agents through extensive, realistic, and grounded simulated interactions.

arxiv情報

著者 Taedong Yun,Eric Yang,Mustafa Safdari,Jong Ha Lee,Vaishnavi Vinod Kumar,S. Sara Mahdavi,Jonathan Amar,Derek Peyton,Reut Aharony,Andreas Michaelides,Logan Schneider,Isaac Galatzer-Levy,Yugang Jia,John Canny,Arthur Gretton,Maja Matarić
発行日 2025-02-18 18:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions はコメントを受け付けていません

Theorem Prover as a Judge for Synthetic Data Generation

要約

数学的推論における合成データの需要は、大規模な言語モデル(LLM)の数学的能力を高める可能性のために増加しています。
ただし、中間推論ステップの妥当性を確保することは、データの品質に影響を与える重要な課題のままです。
定理賞を介した正式な検証はLLMの推論を効果的に検証しますが、数学的証明の自動体系化はエラーが発生しやすいままです。
これに応じて、反復的なオートフォーマル化は、エラーを緩和するための定理プロバーの形式化を繰り返し改善するアプローチを導入し、それによりリーンプロバーの実行率が60%から87%に増加します。
その上に構築すると、定理を裁判官(TP-As-a-judge)として紹介します。これは、定理プーバーの正式化を採用してLLM中間推論を厳密に評価し、合成データ生成と自己形態化を効果的に統合する方法です。
最後に、人間の注釈を人間のフィードバック(RLHF)からの補強学習における定理プローバーフィードバックに置き換えるフレームワークである定理プローバーフィードバック(RLTPF)からの強化学習を提示します。
複数のLLMにわたって、TP-AS-A-A-A-JudgeとRLTPFを適用すると、3,508サンプルのみでベンチマークが向上し、Mistral-7Bで5.56%の精度増加を達成し、SVAMPでLlama-2-7Bで6.00%、Llama-on 3.55%を達成しました。
Aquaの3.1-8b。

要約(オリジナル)

The demand for synthetic data in mathematical reasoning has increased due to its potential to enhance the mathematical capabilities of large language models (LLMs). However, ensuring the validity of intermediate reasoning steps remains a significant challenge, affecting data quality. While formal verification via theorem provers effectively validates LLM reasoning, the autoformalisation of mathematical proofs remains error-prone. In response, we introduce iterative autoformalisation, an approach that iteratively refines theorem prover formalisation to mitigate errors, thereby increasing the execution rate on the Lean prover from 60% to 87%. Building upon that, we introduce Theorem Prover as a Judge (TP-as-a-Judge), a method that employs theorem prover formalisation to rigorously assess LLM intermediate reasoning, effectively integrating autoformalisation with synthetic data generation. Finally, we present Reinforcement Learning from Theorem Prover Feedback (RLTPF), a framework that replaces human annotation with theorem prover feedback in Reinforcement Learning from Human Feedback (RLHF). Across multiple LLMs, applying TP-as-a-Judge and RLTPF improves benchmarks with only 3,508 samples, achieving 5.56% accuracy gain on Mistral-7B for MultiArith, 6.00% on Llama-2-7B for SVAMP, and 3.55% on Llama-3.1-8B for AQUA.

arxiv情報

著者 Joshua Ong Jun Leang,Giwon Hong,Wenda Li,Shay B. Cohen
発行日 2025-02-18 18:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Theorem Prover as a Judge for Synthetic Data Generation はコメントを受け付けていません

AIDE: AI-Driven Exploration in the Space of Code

要約

現代の人工知能の基礎である機械学習は、世界を根本的に変えた革新を推進してきました。
しかし、進歩の背後には、労働と集中的な反復と実験を計算する必要がある複雑でしばしば退屈なプロセスがあります。
機械学習モデルを開発するエンジニアと科学者は、革新的なソリューションや研究仮説を概念化する代わりに、試行錯誤のタスクに多くの時間を費やしています。
この課題に対処するために、大規模な言語モデル(LLMS)を搭載した機械学習エンジニアリングエージェントであるAI駆動型探査(AIDE)を紹介します。
AIDEフレーム機械学習エンジニアリングは、コードの最適化問題としてエンジニアリングを行い、潜在的なソリューションの空間でツリー検索として試行錯誤を策定します。
有望なソリューションを戦略的に再利用および改良することにより、Aideは計算リソースを効果的に交換してパフォーマンスを向上させ、Kaggle評価、Openai Mle-Bench、Metrs Re-Benchなど、複数の機械学習エンジニアリングベンチマークで最先端の結果を達成します。

要約(オリジナル)

Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

arxiv情報

著者 Zhengyao Jiang,Dominik Schmidt,Dhruv Srikanth,Dixing Xu,Ian Kaplan,Deniss Jacenko,Yuxiang Wu
発行日 2025-02-18 18:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AIDE: AI-Driven Exploration in the Space of Code はコメントを受け付けていません

UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models

要約

大規模な言語モデル(LLMS)は、迅速な注入、バックドア攻撃、敵対的な攻撃などの攻撃に対して脆弱であり、プロンプトまたはモデルを操作して有害な出力を生成します。
この論文では、従来の深い学習攻撃パラダイムから逸脱して、それらの本質的な関係を探求し、それらを迅速なトリガー攻撃(PTA)と総称します。
これは重要な質問を提起します:プロンプトが良性か中毒かどうかを判断できますか?
これに対処するために、LLMSでの迅速な注入、バックドア攻撃、敵対的攻撃を検出するために設計された最初の統一防御メカニズムであるUniguardianを提案します。
さらに、検出パイプラインを最適化するための単一のフォワード戦略を導入し、単一のフォワードパス内で同時攻撃の検出とテキスト生成を可能にします。
私たちの実験では、ユニガルディアンがLLMの悪意のあるプロンプトを正確かつ効率的に識別することを確認しています。

要約(オリジナル)

Large Language Models (LLMs) are vulnerable to attacks like prompt injection, backdoor attacks, and adversarial attacks, which manipulate prompts or models to generate harmful outputs. In this paper, departing from traditional deep learning attack paradigms, we explore their intrinsic relationship and collectively term them Prompt Trigger Attacks (PTA). This raises a key question: Can we determine if a prompt is benign or poisoned? To address this, we propose UniGuardian, the first unified defense mechanism designed to detect prompt injection, backdoor attacks, and adversarial attacks in LLMs. Additionally, we introduce a single-forward strategy to optimize the detection pipeline, enabling simultaneous attack detection and text generation within a single forward pass. Our experiments confirm that UniGuardian accurately and efficiently identifies malicious prompts in LLMs.

arxiv情報

著者 Huawei Lin,Yingjie Lao,Tong Geng,Tan Yu,Weijie Zhao
発行日 2025-02-18 18:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models はコメントを受け付けていません

Pre-training Auto-regressive Robotic Models with 4D Representations

要約

大規模な非標識データセットで事前に訓練された基礎モデルは、自然言語とコンピュータービジョンに革命をもたらし、顕著な一般化能力を示し、したがって、事前トレーニングの重要性を強調しています。
しかし、ロボット工学の努力は、コストのかかるロボット注釈の必要性または物理的な世界を効果的にモデル化する表現の欠如のいずれかによって制限される同様の成功を達成するのに苦労してきました。
このホワイトペーパーでは、人間のビデオデータから学んだ低レベルの4D表現を活用して、より優れた訓練を受けたロボットモデルを生成する自動回帰ロボットモデルであるARM4Rを紹介します。
具体的には、2D表現を時間をかけて単眼の深さ推定を介して3D空間に持ち上げることで導出されたビデオからの3Dポイント追跡表現を利用することに焦点を当てています。
これらの4D表現は、ポイントとロボット状態表現の間の共有幾何学的構造を線形変換まで維持し、人間のビデオデータから低レベルのロボット制御への効率的な転送学習を可能にします。
私たちの実験は、ARM4Rが人間のビデオデータからロボット工学に効率的に転送できることを示しており、さまざまなロボット環境と構成にわたるタスクのパフォーマンスを一貫して改善します。

要約(オリジナル)

Foundation models pre-trained on massive unlabeled datasets have revolutionized natural language and computer vision, exhibiting remarkable generalization capabilities, thus highlighting the importance of pre-training. Yet, efforts in robotics have struggled to achieve similar success, limited by either the need for costly robotic annotations or the lack of representations that effectively model the physical world. In this paper, we introduce ARM4R, an Auto-regressive Robotic Model that leverages low-level 4D Representations learned from human video data to yield a better pre-trained robotic model. Specifically, we focus on utilizing 3D point tracking representations from videos derived by lifting 2D representations into 3D space via monocular depth estimation across time. These 4D representations maintain a shared geometric structure between the points and robot state representations up to a linear transformation, enabling efficient transfer learning from human video data to low-level robotic control. Our experiments show that ARM4R can transfer efficiently from human video data to robotics and consistently improves performance on tasks across various robot environments and configurations.

arxiv情報

著者 Dantong Niu,Yuvan Sharma,Haoru Xue,Giscard Biamby,Junyi Zhang,Ziteng Ji,Trevor Darrell,Roei Herzig
発行日 2025-02-18 18:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Pre-training Auto-regressive Robotic Models with 4D Representations はコメントを受け付けていません

GARAD-SLAM: 3D GAussian splatting for Real-time Anti Dynamic SLAM

要約

3Dガウススプラッティング(3DGS)ベースのSLAMシステムは、リアルタイムの高忠実度レンダリングでの優れたパフォーマンスにより、広範囲にわたる注目を集めています。
ただし、動的なオブジェクトを備えた実際の環境では、既存の3DGSベースのSLAMシステムがマッピングエラーとドリフトの問題を追跡することがよくあります。
これらの問題に対処するために、動的シーンに合わせて調整されたリアルタイム3DGSベースのSLAMシステムであるGarad-Slamを提案します。
追跡に関しては、従来の方法とは異なり、ガウスの動的セグメンテーションを直接実行し、それらをフロントエンドに戻し、ガウスピラミッドネットワークを介して動的なポイントラベルを取得し、正確な動的除去と堅牢な追跡を実現します。
マッピングのために、単純な剪定によって引き起こされる不可逆的な誤った除去を回避するために、ネットワークを通じて更新される動的にラベル付けされたガウス人にレンダリングペナルティを課します。
現実世界のデータセットでの我々の結果は、ベースラインの方法と比較して、私たちの方法が追跡に競争力があり、レンダリングのアーティファクトが少なく、より高品質の再構成を生成することを示しています。

要約(オリジナル)

The 3D Gaussian Splatting (3DGS)-based SLAM system has garnered widespread attention due to its excellent performance in real-time high-fidelity rendering. However, in real-world environments with dynamic objects, existing 3DGS-based SLAM systems often face mapping errors and tracking drift issues. To address these problems, we propose GARAD-SLAM, a real-time 3DGS-based SLAM system tailored for dynamic scenes. In terms of tracking, unlike traditional methods, we directly perform dynamic segmentation on Gaussians and map them back to the front-end to obtain dynamic point labels through a Gaussian pyramid network, achieving precise dynamic removal and robust tracking. For mapping, we impose rendering penalties on dynamically labeled Gaussians, which are updated through the network, to avoid irreversible erroneous removal caused by simple pruning. Our results on real-world datasets demonstrate that our method is competitive in tracking compared to baseline methods, generating fewer artifacts and higher-quality reconstructions in rendering.

arxiv情報

著者 Mingrui Li,Weijian Chen,Na Cheng,Jingyuan Xu,Dong Li,Hongyu Wang
発行日 2025-02-18 13:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GARAD-SLAM: 3D GAussian splatting for Real-time Anti Dynamic SLAM はコメントを受け付けていません

Leveraging Intermediate Representations for Better Out-of-Distribution Detection

要約

実際のアプリケーションでは、機械学習モデルは、危険な決定を防ぐために、分散除外(OOD)サンプルを確実に検出する必要があります。
現在のOOD検出方法は、多くの場合、ニューラルネットワークの最後から2番目の層のロジットまたは埋め込みの分析に依存しています。
ただし、中間層でエンコードされた豊富な情報の搾取に関する作業はほとんど行われていません。
これに対処するために、中間層の識別力を分析し、それらがOOD検出に積極的に使用できることを示します。
したがって、エネルギーベースのコントラスト損失で中間層を正規化し、複数の層を単一の集計応答でグループ化することを提案します。
中間層の活性化により、複数のデータセットで包括的な評価を実行することにより、OOD検出パフォーマンスが向上することを実証します。

要約(オリジナル)

In real-world applications, machine learning models must reliably detect Out-of-Distribution (OoD) samples to prevent unsafe decisions. Current OoD detection methods often rely on analyzing the logits or the embeddings of the penultimate layer of a neural network. However, little work has been conducted on the exploitation of the rich information encoded in intermediate layers. To address this, we analyze the discriminative power of intermediate layers and show that they can positively be used for OoD detection. Therefore, we propose to regularize intermediate layers with an energy-based contrastive loss, and by grouping multiple layers in a single aggregated response. We demonstrate that intermediate layer activations improves OoD detection performance by running a comprehensive evaluation across multiple datasets.

arxiv情報

著者 Gianluca Guglielmo,Marc Masana
発行日 2025-02-18 13:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4.9 | Leveraging Intermediate Representations for Better Out-of-Distribution Detection はコメントを受け付けていません

An Experimental Study of SOTA LiDAR Segmentation Models

要約

ポイントクラウドセグメンテーション(PCS)は、各ポイントをポイントクラウドで分類することです。
このタスクにより、ロボットは3Dの周囲を解析し、自律的に実行できます。
異なるポイントクラウド表現によると、既存のPCSモデルは、ポイント、ボクセル、および範囲の画像ベースのモデルに大まかに分割できます。
ただし、アプリケーションの観点から、最先端のポイント、ボクセル、および範囲の画像ベースのモデル間の包括的な比較を報告する作業は見つかりませんでした。
このホワイトペーパーでは、LIDARデータモーション補償とモデルパラメーターのメトリック、テスト中に割り当てられた最大GPUメモリ、推論のレイテンシ、1秒あたりのフレーム、交差点(IOU)および平均Iou
(miou)スコア。
実験結果は、アプリケーション用の合理的なPCSモデルを選択する際にエンジニアに利益をもたらし、PCS分野の研究者をインスピレーションにして、実際のシナリオのためのより実用的なモデルを設計します。

要約(オリジナル)

Point cloud segmentation (PCS) is to classify each point in point clouds. The task enables robots to parse their 3D surroundings and run autonomously. According to different point cloud representations, existing PCS models can be roughly divided into point-, voxel-, and range image-based models. However, no work has been found to report comprehensive comparisons among the state-of-the-art point-, voxel-, and range image-based models from an application perspective, bringing difficulty in utilizing these models for real-world scenarios. In this paper, we provide thorough comparisons among the models by considering the LiDAR data motion compensation and the metrics of model parameters, max GPU memory allocated during testing, inference latency, frames per second, intersection-over-union (IoU) and mean IoU (mIoU) scores. The experimental results benefit engineers when choosing a reasonable PCS model for an application and inspire researchers in the PCS field to design more practical models for a real-world scenario.

arxiv情報

著者 Bike Chen,Antti Tikanmäki,Juha Röning
発行日 2025-02-18 13:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Experimental Study of SOTA LiDAR Segmentation Models はコメントを受け付けていません

Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models

要約

スパース自動エンコーダー(SAE)は、機械学習の解釈可能性の強力なフレームワークとして浮上しており、モデル表現の監視されていない分解を抽象的で人間の解釈可能な概念の辞書に可能にしています。
ただし、基本的な制限を明らかにします。既存のSAEは、同様のデータセットで訓練された同一のモデルが急激に異なる辞書を生成し、解釈可能性ツールとしての信頼性を損なう可能性があるため、深刻な不安定性を示します。
この問題に対処するために、Cutler&Breiman(1994)および現在の典型的なSAE(A-SAE)によって導入された典型的な分析フレームワークからインスピレーションを引き出します。
この幾何学的な固定は、推定された辞書の安定性を大幅に向上させ、それらの軽度にリラックスしたバリアントのRA-SAEは、最新の再建能力にさらに一致します。
SAEによって学習した辞書の品質を厳密に評価するために、辞書が「真の」分類の方向を回復する場合、(i)妥当性をテストする2つの新しいベンチマークを導入し、(ii)辞書が合成概念の混合を解く場合、識別可能性を導入します。
すべての評価にわたって、RA-SAEは一貫してより構造化された表現を生成しながら、大規模なビジョンモデルにおける意味的に意味のある概念を明らかにします。

要約(オリジナル)

Sparse Autoencoders (SAEs) have emerged as a powerful framework for machine learning interpretability, enabling the unsupervised decomposition of model representations into a dictionary of abstract, human-interpretable concepts. However, we reveal a fundamental limitation: existing SAEs exhibit severe instability, as identical models trained on similar datasets can produce sharply different dictionaries, undermining their reliability as an interpretability tool. To address this issue, we draw inspiration from the Archetypal Analysis framework introduced by Cutler & Breiman (1994) and present Archetypal SAEs (A-SAE), wherein dictionary atoms are constrained to the convex hull of data. This geometric anchoring significantly enhances the stability of inferred dictionaries, and their mildly relaxed variants RA-SAEs further match state-of-the-art reconstruction abilities. To rigorously assess dictionary quality learned by SAEs, we introduce two new benchmarks that test (i) plausibility, if dictionaries recover ‘true’ classification directions and (ii) identifiability, if dictionaries disentangle synthetic concept mixtures. Across all evaluations, RA-SAEs consistently yield more structured representations while uncovering novel, semantically meaningful concepts in large-scale vision models.

arxiv情報

著者 Thomas Fel,Ekdeep Singh Lubana,Jacob S. Prince,Matthew Kowal,Victor Boutin,Isabel Papadimitriou,Binxu Wang,Martin Wattenberg,Demba Ba,Talia Konkle
発行日 2025-02-18 14:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models はコメントを受け付けていません

CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

要約

単一のRGB画像から高品質の3Dシーンを回復することは、コンピューターグラフィックスでは困難なタスクです。
現在の方法は、多くの場合、ドメイン固有の制限または低品質のオブジェクト生成と闘っています。
これらに対処するために、3Dシーンの再構築と回復のための新しい方法であるCAST(単一のRGB画像からのコンポーネントに並べられた3Dシーンの再構築)を提案します。
キャストは、オブジェクトレベルの2Dセグメンテーションと入力画像から相対的な深さ情報を抽出し、GPTベースのモデルを使用してオブジェクト間空間関係を分析することから始めます。
これにより、シーン内でオブジェクトがどのように相互に関連するかを理解し、より一貫した再構成を保証します。
次に、CASTは、Occlusion-Awareの大規模な3D生成モデルを採用して、各オブジェクトの完全なジオメトリを独立して生成し、MAEとポイントクラウドコンディショニングを使用して、オクルージョンと部分オブジェクト情報の効果を軽減し、ソース画像のジオメトリとテクスチャとの正確なアライメントを確保します。
各オブジェクトをシーンに合わせるために、アライメント生成モデルは必要な変換を計算し、生成されたメッシュを正確に配置してシーンのポイントクラウドに統合できるようにします。
最後に、CASTは、細粒の関係グラフを活用して制約グラフを生成する物理認識補正ステップを組み込んでいます。
このグラフは、オブジェクトのポーズの最適化を導き、物理的な一貫性と空間的一貫性を確保します。
署名された距離フィールド(SDF)を利用することにより、モデルは閉塞、オブジェクトの浸透、浮動オブジェクトなどの問題に効果的に対処し、生成されたシーンが実際の物理的相互作用を正確に反映するようにします。
キャストはロボット工学で活用され、効率的なリアルからシミュレーションへのワークフローを可能にし、ロボットシステムに現実的でスケーラブルなシミュレーション環境を提供できます。

要約(オリジナル)

Recovering high-quality 3D scenes from a single RGB image is a challenging task in computer graphics. Current methods often struggle with domain-specific limitations or low-quality object generation. To address these, we propose CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel method for 3D scene reconstruction and recovery. CAST starts by extracting object-level 2D segmentation and relative depth information from the input image, followed by using a GPT-based model to analyze inter-object spatial relationships. This enables the understanding of how objects relate to each other within the scene, ensuring more coherent reconstruction. CAST then employs an occlusion-aware large-scale 3D generation model to independently generate each object’s full geometry, using MAE and point cloud conditioning to mitigate the effects of occlusions and partial object information, ensuring accurate alignment with the source image’s geometry and texture. To align each object with the scene, the alignment generation model computes the necessary transformations, allowing the generated meshes to be accurately placed and integrated into the scene’s point cloud. Finally, CAST incorporates a physics-aware correction step that leverages a fine-grained relation graph to generate a constraint graph. This graph guides the optimization of object poses, ensuring physical consistency and spatial coherence. By utilizing Signed Distance Fields (SDF), the model effectively addresses issues such as occlusions, object penetration, and floating objects, ensuring that the generated scene accurately reflects real-world physical interactions. CAST can be leveraged in robotics, enabling efficient real-to-simulation workflows and providing realistic, scalable simulation environments for robotic systems.

arxiv情報

著者 Kaixin Yao,Longwen Zhang,Xinhao Yan,Yan Zeng,Qixuan Zhang,Lan Xu,Wei Yang,Jiayuan Gu,Jingyi Yu
発行日 2025-02-18 14:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image はコメントを受け付けていません