Agent S: An Open Agentic Framework that Uses Computers Like a Human

要約

Agent S は、グラフィカル ユーザー インターフェイス (GUI) を介してコンピュータとの自律的な対話を可能にするオープン エージェント フレームワークであり、複雑な複数ステップのタスクを自動化することで人間とコンピュータの対話を変革することを目的としています。
Agent S は、コンピュータ タスクの自動化における 3 つの主要な課題、つまりドメイン固有の知識の取得、長期にわたるタスク期間にわたる計画、および動的で不均一なインターフェイスの処理に対処することを目指しています。
この目的を達成するために、エージェント S は経験拡張型の階層計画を導入します。これは、外部の知識の検索と複数のレベルでの内部の経験の取得から学習し、効率的なタスク計画とサブタスクの実行を促進します。
さらに、エージェント コンピューター インターフェイス (ACI) を採用し、マルチモーダル大規模言語モデル (MLLM) に基づいた GUI エージェントの推論と制御機能をより適切に引き出します。
OSWorld ベンチマークでの評価では、Agent S が成功率でベースラインを 9.37% 上回り (83.6% の相対的改善)、新たな最先端の性能を達成していることが示されています。
包括的な分析により、個々のコンポーネントの有効性が強調され、将来の改善のための洞察が得られます。
さらに、Agent S は、新しくリリースされた WindowsAgentArena ベンチマークで、さまざまなオペレーティング システムに対する広範な汎用性を示しています。
コードは https://github.com/simular-ai/Agent-S で入手できます。

要約(オリジナル)

We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.

arxiv情報

著者 Saaket Agashe,Jiuzhou Han,Shuyu Gan,Jiachen Yang,Ang Li,Xin Eric Wang
発行日 2024-10-10 17:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Visual Scratchpads: Enabling Global Reasoning in Vision

要約

最新の視覚モデルは、局所的な特徴がターゲットに関する重要な情報を提供するベンチマークで目覚ましい成功を収めています。
現在、ローカルな特徴が重要な情報を提供しない、よりグローバルな推論を必要とするタスクを解決することへの関心が高まっています。
これらのタスクは、1969 年に Minsky と Papert によって議論された接続タスクを思い出させます。このタスクは、パーセプトロン モデルの限界を明らかにし、最初の AI の冬に貢献しました。
このペーパーでは、経路探索と迷路を含む 4 つのグローバルな視覚ベンチマークを紹介することで、そのようなタスクを再検討します。
(1) 今日の大規模視覚モデルは、初期のモデルの表現力の限界を大幅に超えていますが、依然として学習効率の面で苦労しています。
私たちはこの限界を理解するために「グローバル度」という概念を提唱しました。
(2) 次に、「視覚的スクラッチパッド」の導入によって状況が変化し、全体的な推論が可能になることを示します。
言語モデルで使用されるテキストのスクラッチパッドや思考の連鎖と同様に、ビジュアルなスクラッチパッドは、グローバルなタスクをより単純なタスクに分割するのに役立ちます。
(3) 最後に、一部のスクラッチパッドが他のスクラッチパッドよりも優れていることを示します。特に、より少ない情報に依存してステップを実行する「誘導スクラッチパッド」は、より優れた配布外一般化を可能にし、より小さいモデルサイズで成功します。

要約(オリジナル)

Modern vision models have achieved remarkable success in benchmarks where local features provide critical information about the target. There is now a growing interest in solving tasks that require more global reasoning, where local features offer no significant information. These tasks are reminiscent of the connectivity tasks discussed by Minsky and Papert in 1969, which exposed the limitations of the perceptron model and contributed to the first AI winter. In this paper, we revisit such tasks by introducing four global visual benchmarks involving path findings and mazes. We show that: (1) although today’s large vision models largely surpass the expressivity limitations of the early models, they still struggle with the learning efficiency; we put forward the ‘globality degree’ notion to understand this limitation; (2) we then demonstrate that the picture changes and global reasoning becomes feasible with the introduction of ‘visual scratchpads’; similarly to the text scratchpads and chain-of-thoughts used in language models, visual scratchpads help break down global tasks into simpler ones; (3) we finally show that some scratchpads are better than others, in particular, ‘inductive scratchpads’ that take steps relying on less information afford better out-of-distribution generalization and succeed for smaller model sizes.

arxiv情報

著者 Aryo Lotfi,Enrico Fini,Samy Bengio,Moin Nabi,Emmanuel Abbe
発行日 2024-10-10 17:44:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

要約

トレーニング中にペアの合成シーン画像を必要としない、効果的なゼロショット 3D オブジェクト合成アプローチである ZeroComp を紹介します。
私たちの方法では、ControlNet を利用して固有の画像から調整し、それを安定拡散モデルと組み合わせてシーンの事前情報を利用し、効果的なレンダリング エンジンとして動作します。
トレーニング中、ZeroComp はジオメトリ、アルベド、マスクされたシェーディングに基づいた固有のイメージを使用します。これらはすべて、複合オブジェクトのあるシーンとないシーンのペア イメージを必要としません。
トレーニングが完了すると、仮想 3D オブジェクトをシーンにシームレスに統合し、シェーディングを調整してリアルなコンポジットを作成します。
私たちは高品質の評価データセットを開発し、定量的および人間の知覚ベンチマークにおいて、明示的な照明推定と生成技術を使用する方法よりも ZeroComp が優れたパフォーマンスを発揮することを実証しました。
さらに、ZeroComp は、合成屋内データのみでトレーニングされた場合でも、実際の画像合成と屋外画像の合成に拡張され、画像合成におけるその有効性を示しています。

要約(オリジナル)

We present ZeroComp, an effective zero-shot 3D object compositing approach that does not require paired composite-scene images during training. Our method leverages ControlNet to condition from intrinsic images and combines it with a Stable Diffusion model to utilize its scene priors, together operating as an effective rendering engine. During training, ZeroComp uses intrinsic images based on geometry, albedo, and masked shading, all without the need for paired images of scenes with and without composite objects. Once trained, it seamlessly integrates virtual 3D objects into scenes, adjusting shading to create realistic composites. We developed a high-quality evaluation dataset and demonstrate that ZeroComp outperforms methods using explicit lighting estimations and generative techniques in quantitative and human perception benchmarks. Additionally, ZeroComp extends to real and outdoor image compositing, even when trained solely on synthetic indoor data, showcasing its effectiveness in image compositing.

arxiv情報

著者 Zitian Zhang,Frédéric Fortier-Chouinard,Mathieu Garon,Anand Bhattad,Jean-François Lalonde
発行日 2024-10-10 17:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

On the Evaluation of Generative Robotic Simulations

要約

広範な現実世界のデータを取得するのが難しいため、ロボット シミュレーションは並列トレーニングやシミュレーションから現実への転送に不可欠なものとなっており、スケーラブルなシミュレートされたロボット タスクの重要性が強調されています。
基礎モデルは、実行可能なロボットタスクを自律的に生成する優れた能力を実証しました。
ただし、この新しいパラダイムは、自律的に生成されたタスクを適切に評価するという課題を浮き彫りにしています。
これに対処するために、生成シミュレーションに合わせた包括的な評価フレームワークを提案します。
私たちのフレームワークは、評価を品質、多様性、一般化という 3 つの主要な側面に分割します。
単一タスクの品質については、大規模な言語モデルとビジョン言語モデルを使用して、生成されたタスクの現実性と生成された軌跡の完全性を評価します。
多様性の観点からは、タスク説明のテキストの類似性と、収集されたタスクの軌跡でトレーニングされた世界モデルの損失を通じて、タスクとデータの両方の多様性を測定します。
タスクレベルの汎化では、生成された複数のタスクでトレーニングされたポリシーの目に見えないタスクに対するゼロショット汎化能力を評価します。
3 つの代表的なタスク生成パイプラインで行われた実験は、私たちのフレームワークからの結果が人間の評価と非常に一致していることを実証し、私たちのアプローチの実現可能性と妥当性を確認しました。
この調査結果は、品質と多様性の指標は特定の方法で達成できるものの、すべての指標にわたって優れた単一のアプローチはないことを明らかにしており、これらのさまざまな指標のバランスをとることにさらに重点を置く必要があることを示唆しています。
さらに、私たちの分析は、現在の研究が直面している一般化能力の低さという共通の課題をさらに強調しています。
当社の匿名ウェブサイト: https://sites.google.com/view/evaltasks。

要約(オリジナル)

Due to the difficulty of acquiring extensive real-world data, robot simulation has become crucial for parallel training and sim-to-real transfer, highlighting the importance of scalable simulated robotic tasks. Foundation models have demonstrated impressive capacities in autonomously generating feasible robotic tasks. However, this new paradigm underscores the challenge of adequately evaluating these autonomously generated tasks. To address this, we propose a comprehensive evaluation framework tailored to generative simulations. Our framework segments evaluation into three core aspects: quality, diversity, and generalization. For single-task quality, we evaluate the realism of the generated task and the completeness of the generated trajectories using large language models and vision-language models. In terms of diversity, we measure both task and data diversity through text similarity of task descriptions and world model loss trained on collected task trajectories. For task-level generalization, we assess the zero-shot generalization ability on unseen tasks of a policy trained with multiple generated tasks. Experiments conducted on three representative task generation pipelines demonstrate that the results from our framework are highly consistent with human evaluations, confirming the feasibility and validity of our approach. The findings reveal that while metrics of quality and diversity can be achieved through certain methods, no single approach excels across all metrics, suggesting a need for greater focus on balancing these different metrics. Additionally, our analysis further highlights the common challenge of low generalization capability faced by current works. Our anonymous website: https://sites.google.com/view/evaltasks.

arxiv情報

著者 Feng Chen,Botian Xu,Pu Hua,Peiqi Duan,Yanchao Yang,Yi Ma,Huazhe Xu
発行日 2024-10-10 17:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration

要約

悪天候画像の復元は、悪天候によって引き起こされるかすみ、雨、雪などの望ましくない劣化したアーティファクトを除去することを目的としています。
既存の方法は、単一気象条件に対処する上で顕著な結果を達成しています。
ただし、現実世界のシナリオではよく起こる予測不可能な気象条件に遭遇すると、課題に直面します。
異なる気象条件は異なる劣化パターンを示しますが、劣化パターンによって引き起こされるオクルージョン、色の歪み、大気粒子の散乱によるコントラストの減衰など、高度に関連し補完し合う共通の特性を共有しています。
したがって、私たちは複数の気象条件にわたる共通の知識を活用して、統一された方法で画像を復元することに重点を置いています。
この論文では、オールインワンの悪天候画像復元に効率的かつ効果的に対処する Triplet Attendant Network (TANet) を提案します。
TANet は、3 種類のアテンション メカニズムを組み込んだトリプレット アテンション ブロック (TAB) で構成されています。1 つは、不均一な劣化パターンによって引き起こされるオクルージョンに対処するローカル ピクセルワイズ アテンション (LPA) とグローバル ストリップワイズ アテンション (GSA)、およびグローバル ディストリビューション アテンション (
GDA) は、大気現象によって引き起こされる色の歪みとコントラストの減衰に対処します。
TANet は、さまざまな気象条件間で共有される共通の知識を活用することで、統一された方法で複数の気象条件に対処することに成功しています。
実験結果は、TANet がオールインワンの悪天候画像復元において効率的かつ効果的に最先端のパフォーマンスを達成することを示しています。
ソース コードは https://github.com/xhuachris/TANet-ACCV-2024 で入手できます。

要約(オリジナル)

Adverse weather image restoration aims to remove unwanted degraded artifacts, such as haze, rain, and snow, caused by adverse weather conditions. Existing methods achieve remarkable results for addressing single-weather conditions. However, they face challenges when encountering unpredictable weather conditions, which often happen in real-world scenarios. Although different weather conditions exhibit different degradation patterns, they share common characteristics that are highly related and complementary, such as occlusions caused by degradation patterns, color distortion, and contrast attenuation due to the scattering of atmospheric particles. Therefore, we focus on leveraging common knowledge across multiple weather conditions to restore images in a unified manner. In this paper, we propose a Triplet Attention Network (TANet) to efficiently and effectively address all-in-one adverse weather image restoration. TANet consists of Triplet Attention Block (TAB) that incorporates three types of attention mechanisms: Local Pixel-wise Attention (LPA) and Global Strip-wise Attention (GSA) to address occlusions caused by non-uniform degradation patterns, and Global Distribution Attention (GDA) to address color distortion and contrast attenuation caused by atmospheric phenomena. By leveraging common knowledge shared across different weather conditions, TANet successfully addresses multiple weather conditions in a unified manner. Experimental results show that TANet efficiently and effectively achieves state-of-the-art performance in all-in-one adverse weather image restoration. The source code is available at https://github.com/xhuachris/TANet-ACCV-2024.

arxiv情報

著者 Hsing-Hua Wang,Fu-Jen Tsai,Yen-Yu Lin,Chia-Wen Lin
発行日 2024-10-10 17:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image

要約

高品質の 3D 自動車アセットの生成は、ビデオ ゲーム、自動運転、仮想現実などのさまざまなアプリケーションに不可欠です。
3D オブジェクトの表現として NeRF または 3D-GS を利用する現在の 3D 生成方法では、固定照明の下でランバーシアン オブジェクトを生成し、マテリアルとグローバル イルミネーションの分離されたモデリングが不足しています。
その結果、生成されたアセットは、さまざまな照明条件下での再照明には適さず、下流のタスクでの適用性が制限されます。
この課題に対処するために、私たちは 3D 自動車アセットの作成を自動化し、単一の入力画像から自動車の形状、テクスチャ、および材料特性を迅速かつ正確に再構築できる、新しい再照明可能な 3D オブジェクト生成フレームワークを提案します。
私たちのアプローチは、1,000 を超える高精度 3D 車両モデルで構成される大規模な合成自動車データセットを導入することから始まります。
グローバル イルミネーションと BRDF パラメータと統合された再照明可能な 3D ガウス プリミティブを使用して 3D オブジェクトを表現します。
この表現に基づいて、画像を入力として受け取り、再照明可能な 3D ガウスとグローバル イルミネーション パラメータの両方を出力するフィードフォワード モデルを導入します。
実験結果は、私たちの方法がさまざまな照明を備えた道路シーンにシームレスに統合できるフォトリアリスティックな 3D 自動車アセットを生成し、産業用途に実質的な実用上の利点を提供することを示しています。

要約(オリジナル)

The generation of high-quality 3D car assets is essential for various applications, including video games, autonomous driving, and virtual reality. Current 3D generation methods utilizing NeRF or 3D-GS as representations for 3D objects, generate a Lambertian object under fixed lighting and lack separated modelings for material and global illumination. As a result, the generated assets are unsuitable for relighting under varying lighting conditions, limiting their applicability in downstream tasks. To address this challenge, we propose a novel relightable 3D object generative framework that automates the creation of 3D car assets, enabling the swift and accurate reconstruction of a vehicle’s geometry, texture, and material properties from a single input image. Our approach begins with introducing a large-scale synthetic car dataset comprising over 1,000 high-precision 3D vehicle models. We represent 3D objects using global illumination and relightable 3D Gaussian primitives integrating with BRDF parameters. Building on this representation, we introduce a feed-forward model that takes images as input and outputs both relightable 3D Gaussians and global illumination parameters. Experimental results demonstrate that our method produces photorealistic 3D car assets that can be seamlessly integrated into road scenes with different illuminations, which offers substantial practical benefits for industrial applications.

arxiv情報

著者 Xiaoxue Chen,Jv Zheng,Hao Huang,Haoran Xu,Weihao Gu,Kangliang Chen,He xiang,Huan-ang Gao,Hao Zhao,Guyue Zhou,Yaqin Zhang
発行日 2024-10-10 17:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

要約

既存のマルチモーダル検索ベンチマークは、モデルが外部のテキスト知識を取得して質問応答に利用できるかどうかを評価することに主に焦点を当てています。
ただし、視覚的な情報を取得する方がテキスト データよりも有益である、またはアクセスしやすいシナリオもあります。
この論文では、マルチモーダル検索拡張生成ベンチマーク MRAG-Bench を紹介します。このベンチマークでは、視覚的に拡張された知識がテキストの知識よりも優れているシナリオ (たとえば、さまざまな視点からのより多くの画像) を体系的に特定して分類します。
MRAG-Bench は、9 つ​​の異なるシナリオにわたる 16,130 枚の画像と人間による注釈が付けられた 1,353 個の多肢選択式の質問で構成されています。
MRAG-Bench を使用して、10 のオープンソースと 4 つの独自の大規模ビジョン言語モデル (LVLM) の評価を実施します。
私たちの結果は、すべての LVLM がテキスト知識と比較して画像で強化された場合に大きな改善を示し、MRAG-Bench が視覚中心であることを裏付けています。
さらに、MRAG-Bench を使用して広範な分析を実施し、検索拡張 LVLM に関する貴重な洞察を提供します。
特に、最もパフォーマンスの高いモデルである GPT-4o は、取得した知識を効果的に活用するという課題に直面しており、人間の参加者で観察された 33.16% の改善とは対照的に、グラウンドトゥルース情報では 5.82% の改善しか達成できませんでした。
これらの調査結果は、取得した視覚的知識をより効果的に活用する LVLM の能力を高めるようコミュニティを奨励する上で、MRAG-Bench の重要性を強調しています。

要約(オリジナル)

Existing multimodal retrieval benchmarks primarily focus on evaluating whether models can retrieve and utilize external textual knowledge for question answering. However, there are scenarios where retrieving visual information is either more beneficial or easier to access than textual data. In this paper, we introduce a multimodal retrieval-augmented generation benchmark, MRAG-Bench, in which we systematically identify and categorize scenarios where visually augmented knowledge is better than textual knowledge, for instance, more images from varying viewpoints. MRAG-Bench consists of 16,130 images and 1,353 human-annotated multiple-choice questions across 9 distinct scenarios. With MRAG-Bench, we conduct an evaluation of 10 open-source and 4 proprietary large vision-language models (LVLMs). Our results show that all LVLMs exhibit greater improvements when augmented with images compared to textual knowledge, confirming that MRAG-Bench is vision-centric. Additionally, we conduct extensive analysis with MRAG-Bench, which offers valuable insights into retrieval-augmented LVLMs. Notably, the top-performing model, GPT-4o, faces challenges in effectively leveraging retrieved knowledge, achieving only a 5.82% improvement with ground-truth information, in contrast to a 33.16% improvement observed in human participants. These findings highlight the importance of MRAG-Bench in encouraging the community to enhance LVLMs’ ability to utilize retrieved visual knowledge more effectively.

arxiv情報

著者 Wenbo Hu,Jia-Chen Gu,Zi-Yi Dou,Mohsen Fayyaz,Pan Lu,Kai-Wei Chang,Nanyun Peng
発行日 2024-10-10 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Scaling Laws For Diffusion Transformers

要約

拡散トランス (DiT) は、画像やビデオの生成など、コンテンツの再作成において魅力的な合成およびスケーリング特性をすでに実現しています。
ただし、DiT のスケーリングの法則はあまり調査されておらず、通常、特定のコンピューティング バジェットを考慮した最適なモデル サイズとデータ要件に関する正確な予測が提供されます。
したがって、1e17 から 6e18 FLOP までの幅広いコンピューティング バジェットにわたる実験が実施され、DiT におけるスケーリング則の存在が初めて確認されました。
具体的には、事前トレーニング DiT の損失も、関連するコンピューティングとのべき乗則の関係に従います。
スケーリング則に基づいて、最適なモデル サイズと必要なデータを決定できるだけでなく、1B パラメーターと 1e21 FLOP の計算バジェットを備えたモデルを考慮して、テキストから画像への生成損失を正確に予測することもできます。
さらに、さまざまなデータセットにわたっても、トレーニング前の損失の傾向が生成パフォーマンス (FID など) と一致することも実証します。これにより、コンピューティング品質から合成品質へのマッピングが補完され、モデルのパフォーマンスとデータ品質を評価する予測可能なベンチマークが提供されます。
低コストで。

要約(オリジナル)

Diffusion transformers (DiT) have already achieved appealing synthesis and scaling properties in content recreation, e.g., image and video generation. However, scaling laws of DiT are less explored, which usually offer precise predictions regarding optimal model size and data requirements given a specific compute budget. Therefore, experiments across a broad range of compute budgets, from 1e17 to 6e18 FLOPs are conducted to confirm the existence of scaling laws in DiT for the first time. Concretely, the loss of pretraining DiT also follows a power-law relationship with the involved compute. Based on the scaling law, we can not only determine the optimal model size and required data but also accurately predict the text-to-image generation loss given a model with 1B parameters and a compute budget of 1e21 FLOPs. Additionally, we also demonstrate that the trend of pre-training loss matches the generation performances (e.g., FID), even across various datasets, which complements the mapping from compute to synthesis quality and thus provides a predictable benchmark that assesses model performance and data quality at a reduced cost.

arxiv情報

著者 Zhengyang Liang,Hao He,Ceyuan Yang,Bo Dai
発行日 2024-10-10 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DifFRelight: Diffusion-Based Facial Performance Relighting

要約

拡散ベースの画像間の変換を使用した、自由視点の顔のパフォーマンスの再照明のための新しいフレームワークを紹介します。
フラットライトや一度に 1 回のライト (OLAT) シナリオなど、さまざまな照明条件下でキャプチャされた多様な表情を含む被写体固有のデータセットを活用して、正確な照明制御のための拡散モデルをトレーニングし、忠実度の高いリライトを可能にします。
フラットライト入力からの顔画像。
私たちのフレームワークには、事前にトレーニングされた安定拡散モデルからの事前知識を活用した、グローバル制御のための統合された照明情報とともに、フラット照明キャプチャとランダム ノイズの空間的に調整された調整が含まれています。
次に、このモデルは、一貫したフラット ライト環境でキャプチャされた動的な顔のパフォーマンスに適用され、スケーラブルな動的な 3D ガウス スプラッティング手法を使用して新しいビュー合成用に再構築され、リライト結果の品質と一貫性が維持されます。
さらに、新しいエリア照明表現と指向性照明を統合することにより、統合された照明制御を導入し、光のサイズと方向を共同調整できるようにします。
また、複数の指向性ライトを使用してハイ ダイナミック レンジ イメージング (HDRI) 合成を可能にし、複雑な照明条件下でダイナミックなシーケンスを生成します。
私たちの評価では、肌の質感や髪などの詳細な特徴を維持しながら、正確な照明制御を実現し、さまざまな表情を一般化するモデルの効率性が実証されています。
このモデルは、目の反射、表面下散乱、セルフシャドウイング、半透明などの複雑な照明効果を正確に再現し、フレームワーク内でフォトリアリズムを進化させます。

要約(オリジナル)

We present a novel framework for free-viewpoint facial performance relighting using diffusion-based image-to-image translation. Leveraging a subject-specific dataset containing diverse facial expressions captured under various lighting conditions, including flat-lit and one-light-at-a-time (OLAT) scenarios, we train a diffusion model for precise lighting control, enabling high-fidelity relit facial images from flat-lit inputs. Our framework includes spatially-aligned conditioning of flat-lit captures and random noise, along with integrated lighting information for global control, utilizing prior knowledge from the pre-trained Stable Diffusion model. This model is then applied to dynamic facial performances captured in a consistent flat-lit environment and reconstructed for novel-view synthesis using a scalable dynamic 3D Gaussian Splatting method to maintain quality and consistency in the relit results. In addition, we introduce unified lighting control by integrating a novel area lighting representation with directional lighting, allowing for joint adjustments in light size and direction. We also enable high dynamic range imaging (HDRI) composition using multiple directional lights to produce dynamic sequences under complex lighting conditions. Our evaluations demonstrate the models efficiency in achieving precise lighting control and generalizing across various facial expressions while preserving detailed features such as skintexture andhair. The model accurately reproduces complex lighting effects like eye reflections, subsurface scattering, self-shadowing, and translucency, advancing photorealism within our framework.

arxiv情報

著者 Mingming He,Pascal Clausen,Ahmet Levent Taşel,Li Ma,Oliver Pilarski,Wenqi Xian,Laszlo Rikker,Xueming Yu,Ryan Burgert,Ning Yu,Paul Debevec
発行日 2024-10-10 17:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | コメントする

SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

要約

この論文では、ゼロショット オブジェクト ナビゲーションのための新しいフレームワークを提案します。
既存のゼロショット オブジェクト ナビゲーション メソッドでは、LLM に空間的に閉じたオブジェクトのテキストを要求しますが、これには詳細な推論を行うのに十分なシーン コンテキストが不足しています。
環境の情報をより適切に保存し、LLM の推論能力を最大限に活用するために、観察されたシーンを 3D シーン グラフで表現することを提案します。
シーン グラフは、LLM に適した構造でオブジェクト、グループ、部屋の間の関係をエンコードします。これに対して、LLM がノードとエッジをトラバースすることでシーン コンテキストに従ってゴールの場所を推論できるようにするための階層的思考連鎖プロンプトを設計します。
さらに、シーン グラフ表現の利点を活用して、オブジェクト ナビゲーション フレームワークに認識エラーを修正する機能を与える再認識メカニズムをさらに設計します。
当社では MP3D、HM3D、RoboTHOR 環境で広範な実験を行っており、SG-Nav は以前の最先端のゼロショット手法をすべてのベンチマークで 10% 以上 SR 上回り、意思決定プロセスは説明可能です。
私たちの知る限り、SG-Nav は、困難な MP3D ベンチマークにおいて教師ありオブジェクト ナビゲーション方法よりもさらに高いパフォーマンスを達成する最初のゼロショット方法です。

要約(オリジナル)

In this paper, we propose a new framework for zero-shot object navigation. Existing zero-shot object navigation methods prompt LLM with the text of spatially closed objects, which lacks enough scene context for in-depth reasoning. To better preserve the information of environment and fully exploit the reasoning ability of LLM, we propose to represent the observed scene with 3D scene graph. The scene graph encodes the relationships between objects, groups and rooms with a LLM-friendly structure, for which we design a hierarchical chain-of-thought prompt to help LLM reason the goal location according to scene context by traversing the nodes and edges. Moreover, benefit from the scene graph representation, we further design a re-perception mechanism to empower the object navigation framework with the ability to correct perception error. We conduct extensive experiments on MP3D, HM3D and RoboTHOR environments, where SG-Nav surpasses previous state-of-the-art zero-shot methods by more than 10% SR on all benchmarks, while the decision process is explainable. To the best of our knowledge, SG-Nav is the first zero-shot method that achieves even higher performance than supervised object navigation methods on the challenging MP3D benchmark.

arxiv情報

著者 Hang Yin,Xiuwei Xu,Zhenyu Wu,Jie Zhou,Jiwen Lu
発行日 2024-10-10 17:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする