Scene Aware Person Image Generation through Global Contextual Conditioning

要約

人のイメージ生成は、興味をそそるが挑戦的な問題です。
ただし、制約された状況では、このタスクはさらに困難になります。
この作業では、グローバルなセマンティクスを維持しながら、既存のシーンにコンテキストに関連する個人の画像を生成および挿入するための新しいパイプラインを提案します。
より具体的には、挿入される人の場所、ポーズ、および規模が現場の既存の人と融合するように、人を挿入することを目指しています。
この方法では、シーケンシャルパイプラインで3つの個別のネットワークを使用しています。
最初は、現場に存在する既存の人間の骨格にwasserstein生成敵対的なネットワーク(WGAN)を条件付けることにより、新しい人の潜在的な位置と骨格構造を予測します。
次に、予測されたスケルトンは、浅い線形ネットワークを介して洗練され、生成された画像でより高い構造精度を実現します。
最後に、ターゲット画像は、ターゲットの特定の画像に条件付けられた別の生成ネットワークを使用して、洗練されたスケルトンから生成されます。
実験では、シーンの一般的なコンテキストを維持しながら、高解像度の写真リアリスティック生成結果を達成します。
結果について、複数の定性的および定量的ベンチマークで論文を締めくくります。

要約(オリジナル)

Person image generation is an intriguing yet challenging problem. However, this task becomes even more difficult under constrained situations. In this work, we propose a novel pipeline to generate and insert contextually relevant person images into an existing scene while preserving the global semantics. More specifically, we aim to insert a person such that the location, pose, and scale of the person being inserted blends in with the existing persons in the scene. Our method uses three individual networks in a sequential pipeline. At first, we predict the potential location and the skeletal structure of the new person by conditioning a Wasserstein Generative Adversarial Network (WGAN) on the existing human skeletons present in the scene. Next, the predicted skeleton is refined through a shallow linear network to achieve higher structural accuracy in the generated image. Finally, the target image is generated from the refined skeleton using another generative network conditioned on a given image of the target person. In our experiments, we achieve high-resolution photo-realistic generation results while preserving the general context of the scene. We conclude our paper with multiple qualitative and quantitative benchmarks on the results.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Scene Aware Person Image Generation through Global Contextual Conditioning はコメントを受け付けていません

Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling

要約

この論文では、ユーザーの指示に従って画像が合成される条件付き画像生成のタスクに焦点を当てています。
このタスクを支える重要な課題は、生成された画像の忠実度と、提供された条件とのセマンティックアライメントの両方を確保することです。
この問題に取り組むために、以前の研究では、事前に訓練されたモデルから派生した監督された知覚損失、つまり報酬モデルを採用して、条件と生成された結果の間の調整を実施しています。
ただし、1つの固有の欠点が観察されます。合成画像の多様性を考慮すると、報酬モデルは通常、トレーニングプロセスを損なう可能性のある新しく生成されたデータに遭遇したときに不正確なフィードバックを提供します。
この制限に対処するために、CTRL-Uと呼ばれる不確実な報酬モデリングを提案します。これには、不確実性の推定と不確実性を意識した正規化を含み、報酬モデルからの不正確なフィードバックの悪影響を減らすように設計されています。
報酬モデル内の固有の認知的不確実性を考えると、同一の条件下で生成された画像でさえ、報酬の損失に比較的大きな矛盾をもたらすことがよくあります。
観察に触発されて、私たちはそのような予測の差異を不確実性指標として明示的に活用します。
不確実性の推定に基づいて、報酬を適応的に修正することにより、モデルトレーニングを正規化します。
特に、不確実性が低い報酬は、より高い損失の重みを受け取りますが、不確実性が高い人は、より大きな変動を可能にするために減少した重みを与えられます。
提案された不確実性の正則化は、一貫性の構築を通じて報酬の微調整を促進します。
広範な実験では、制御性と生成の品質を改善するための方法論の有効性、および多様な条件付きシナリオ全体のスケーラビリティを検証します。
コードはhttps://grenoble-zhang.github.io/ctrl-u-page/で公開されています。

要約(オリジナル)

In this paper, we focus on the task of conditional image generation, where an image is synthesized according to user instructions. The critical challenge underpinning this task is ensuring both the fidelity of the generated images and their semantic alignment with the provided conditions. To tackle this issue, previous studies have employed supervised perceptual losses derived from pre-trained models, i.e., reward models, to enforce alignment between the condition and the generated result. However, we observe one inherent shortcoming: considering the diversity of synthesized images, the reward model usually provides inaccurate feedback when encountering newly generated data, which can undermine the training process. To address this limitation, we propose an uncertainty-aware reward modeling, called Ctrl-U, including uncertainty estimation and uncertainty-aware regularization, designed to reduce the adverse effects of imprecise feedback from the reward model. Given the inherent cognitive uncertainty within reward models, even images generated under identical conditions often result in a relatively large discrepancy in reward loss. Inspired by the observation, we explicitly leverage such prediction variance as an uncertainty indicator. Based on the uncertainty estimation, we regularize the model training by adaptively rectifying the reward. In particular, rewards with lower uncertainty receive higher loss weights, while those with higher uncertainty are given reduced weights to allow for larger variability. The proposed uncertainty regularization facilitates reward fine-tuning through consistency construction. Extensive experiments validate the effectiveness of our methodology in improving the controllability and generation quality, as well as its scalability across diverse conditional scenarios. Codes are publicly available at https://grenoble-zhang.github.io/Ctrl-U-Page/.

arxiv情報

著者 Guiyu Zhang,Huan-ang Gao,Zijian Jiang,Hao Zhao,Zhedong Zheng
発行日 2025-02-18 17:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling はコメントを受け付けていません

Semantically Consistent Person Image Generation

要約

コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案します。
具体的には、合成されたインスタンスが複雑なシーンに溶け込むことができるように、個人の画像を生成しようとします。
私たちの方法では、生成された人の位置、スケール、および外観は、現場の既存の人に意味的に条件付けられています。
提案された手法は、3つの順次ステップに分割されます。
最初は、PIX2PIXHDモデルを使用して、新しい人の空間的位置、スケール、および潜在的なポーズを表す粗いセマンティックマスクを推測します。
次に、データ中心のアプローチを使用して、事前に計算されたファインセマンティックマスクのクラスターから最も近い表現を選択します。
最後に、マルチスケールの注意誘導アーキテクチャを採用して、模範的な画像から外観属性を転送します。
提案された戦略により、グローバルなコンテキストを変更せずに既存のシーンに溶け込むことができる、意味的に一貫した現実的な人を統合することができます。
関連する定性的および定量的評価で調査結果を締めくくります。

要約(オリジナル)

We propose a data-driven approach for context-aware person image generation. Specifically, we attempt to generate a person image such that the synthesized instance can blend into a complex scene. In our method, the position, scale, and appearance of the generated person are semantically conditioned on the existing persons in the scene. The proposed technique is divided into three sequential steps. At first, we employ a Pix2PixHD model to infer a coarse semantic mask that represents the new person’s spatial location, scale, and potential pose. Next, we use a data-centric approach to select the closest representation from a precomputed cluster of fine semantic masks. Finally, we adopt a multi-scale, attention-guided architecture to transfer the appearance attributes from an exemplar image. The proposed strategy enables us to synthesize semantically coherent realistic persons that can blend into an existing scene without altering the global context. We conclude our findings with relevant qualitative and quantitative evaluations.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Semantically Consistent Person Image Generation はコメントを受け付けていません

Understanding and Rectifying Safety Perception Distortion in VLMs

要約

最近の研究では、ビジョンモデル(VLM)がビジョンモダリティを統合した後、有害な要求や脱獄攻撃の影響を受けやすく、テキストのみのLLMバックボーンよりも大きな脆弱性を示していることが明らかになりました。
この現象の根本原因を明らかにするために、詳細な分析を実施し、重要な問題を特定します。マルチモーダル入力は、テキストのみのカウンターパートと比較して、モダリティ誘発性の活性化シフトを「より安全な」方向に向けて導入し、VLMを体系的に過大評価するように導きます
有害な入力の安全性。
この問題を安全性認識の歪みと呼びます。
このような歪みを緩和するために、活性化シフトの解体とキャリブレーション(ShiftDC)を提案します。これは、モダリティ誘発性の活性化シフトを分解およびキャリブレーションして、安全性へのモダリティの影響を減らすことを提案します。
ShiftDCは、安全関連コンポーネントを分離および削除することにより、VLMの視覚言語機能を維持しながら、LLMバックボーンの固有の安全アライメントを復元します。
経験的結果は、ShiftDCがモデルの有用性を損なうことなく安全ベンチマークのアライメント性能を大幅に向上させることを示しています。

要約(オリジナル)

Recent studies reveal that vision-language models (VLMs) become more susceptible to harmful requests and jailbreak attacks after integrating the vision modality, exhibiting greater vulnerability than their text-only LLM backbones. To uncover the root cause of this phenomenon, we conduct an in-depth analysis and identify a key issue: multimodal inputs introduce an modality-induced activation shift toward a ‘safer’ direction compared to their text-only counterparts, leading VLMs to systematically overestimate the safety of harmful inputs. We refer to this issue as safety perception distortion. To mitigate such distortion, we propose Activation Shift Disentanglement and Calibration (ShiftDC), a training-free method that decomposes and calibrates the modality-induced activation shift to reduce the impact of modality on safety. By isolating and removing the safety-relevant component, ShiftDC restores the inherent safety alignment of the LLM backbone while preserving the vision-language capabilities of VLMs. Empirical results demonstrate that ShiftDC significantly enhances alignment performance on safety benchmarks without impairing model utility.

arxiv情報

著者 Xiaohan Zou,Jian Kang,George Kesidis,Lu Lin
発行日 2025-02-18 18:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Understanding and Rectifying Safety Perception Distortion in VLMs はコメントを受け付けていません

WeedsGalore: A Multispectral and Multitemporal UAV-based Dataset for Crop and Weed Segmentation in Agricultural Maize Fields

要約

雑草は、収穫量の損失の主な理由の1つですが、現在の除草習慣は効率的かつ標的にされた方法で雑草を管理できません。
効果的な雑草管理は、トウモロコシなどの世界的な生産量が多い作物の作物にとって特に重要です。
ほぼセンシングとコンピュータービジョンの進歩により、雑草管理のための新しいツールの開発が可能になります。
具体的には、新しいセンシングテクノロジーと相まって、最先端のセグメンテーションモデルは、タイムリーで正確な除草および監視システムを促進できます。
ただし、学習ベースのアプローチには注釈付きデータが必要であり、さまざまな作物の航空画像への一般化の欠如を示しています。
農業トウモロコシ畑の作物と雑草のセマンティックとインスタンスのセグメンテーションのための新しいデータセットを提示します。
マルチスペクトルUAVベースのデータセットには、RGB、レッドエッジ、および近赤外帯、多数の植物インスタンス、トウモロコシの密な注釈、4つの雑草クラスを備えた画像が含まれており、多面的です。
予測の不確実性を定量化し、モデルのキャリブレーションを改善し、分散除外データへのアプローチの適用性を実証するための確率的方法を含む、両方のタスクに広範なベースライン結果を提供します。
結果は、RGBのみと比較して2つの追加バンドの有効性を示し、既存のデータセットでトレーニングされたモデルよりもターゲットドメインでのパフォーマンスが向上しています。
私たちのデータセットが、細粒の雑草識別のための方法と運用システムに関する研究を進め、UAVベースの雑草管理の堅牢性と適用性を高めることを願っています。
データセットとコードは、https://github.com/gfz/weedsgaloreで入手できます

要約(オリジナル)

Weeds are one of the major reasons for crop yield loss but current weeding practices fail to manage weeds in an efficient and targeted manner. Effective weed management is especially important for crops with high worldwide production such as maize, to maximize crop yield for meeting increasing global demands. Advances in near-sensing and computer vision enable the development of new tools for weed management. Specifically, state-of-the-art segmentation models, coupled with novel sensing technologies, can facilitate timely and accurate weeding and monitoring systems. However, learning-based approaches require annotated data and show a lack of generalization to aerial imaging for different crops. We present a novel dataset for semantic and instance segmentation of crops and weeds in agricultural maize fields. The multispectral UAV-based dataset contains images with RGB, red-edge, and near-infrared bands, a large number of plant instances, dense annotations for maize and four weed classes, and is multitemporal. We provide extensive baseline results for both tasks, including probabilistic methods to quantify prediction uncertainty, improve model calibration, and demonstrate the approach’s applicability to out-of-distribution data. The results show the effectiveness of the two additional bands compared to RGB only, and better performance in our target domain than models trained on existing datasets. We hope our dataset advances research on methods and operational systems for fine-grained weed identification, enhancing the robustness and applicability of UAV-based weed management. The dataset and code are available at https://github.com/GFZ/weedsgalore

arxiv情報

著者 Ekin Celikkan,Timo Kunzmann,Yertay Yeskaliyev,Sibylle Itzerott,Nadja Klein,Martin Herold
発行日 2025-02-18 18:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WeedsGalore: A Multispectral and Multitemporal UAV-based Dataset for Crop and Weed Segmentation in Agricultural Maize Fields はコメントを受け付けていません

STAR: Scale-wise Text-conditioned AutoRegressive image generation

要約

スケールごとの自動回帰パラダイムを使用するテキストから画像モデルであるStarを紹介します。
最大256 $ \ Times $ 256の画像のクラス条件付き合成に制約されているVARとは異なり、スターは、3つの重要なデザインで1024 $ \ Times $ 1024までのテキスト駆動型の画像生成を有効にします。
まず、事前に訓練されたテキストエンコーダーを導入して、テキストの制約のために表現を抽出および採用し、詳細と一般化を強化します。
第二に、異なるスケールにわたって固有の構造相関を考えると、2Dロータリー位置エンコード(ロープ)を活用して正規化されたバージョンに調整し、トークンマップ全体の相対位置の一貫した解釈を確保し、トレーニングプロセスを安定させます。
第三に、単一のスケール内のすべてのトークンを同時にサンプリングすると、特に高解像度の世代では、構造的不安定性につながる可能性があることがわかります。
これに対処するために、因果関係をサンプリングプロセスに組み込んだ新しい安定したサンプリング方法を提案し、豊富な詳細と安定した構造の両方を確保します。
以前の拡散モデルや自動回帰モデルと比較して、星は忠実度、テキストイメージの一貫性、美的品質の既存のベンチマークを上回り、A100で1024 $ \ Times $ 1024画像でわずか2.21秒を必要とします。
これは、高品質の画像合成における自己回帰方法の可能性を強調し、テキストから画像の生成のための新しい方向を提供します。

要約(オリジナル)

We introduce STAR, a text-to-image model that employs a scale-wise auto-regressive paradigm. Unlike VAR, which is constrained to class-conditioned synthesis for images up to 256$\times$256, STAR enables text-driven image generation up to 1024$\times$1024 through three key designs. First, we introduce a pre-trained text encoder to extract and adopt representations for textual constraints, enhancing details and generalizability. Second, given the inherent structural correlation across different scales, we leverage 2D Rotary Positional Encoding (RoPE) and tweak it into a normalized version, ensuring consistent interpretation of relative positions across token maps and stabilizing the training process. Third, we observe that simultaneously sampling all tokens within a single scale can disrupt inter-token relationships, leading to structural instability, particularly in high-resolution generation. To address this, we propose a novel stable sampling method that incorporates causal relationships into the sampling process, ensuring both rich details and stable structures. Compared to previous diffusion models and auto-regressive models, STAR surpasses existing benchmarks in fidelity, text-image consistency, and aesthetic quality, requiring just 2.21s for 1024$\times$1024 images on A100. This highlights the potential of auto-regressive methods in high-quality image synthesis, offering new directions for the text-to-image generation.

arxiv情報

著者 Xiaoxiao Ma,Mohan Zhou,Tao Liang,Yalong Bai,Tiejun Zhao,Biye Li,Huaian Chen,Yi Jin
発行日 2025-02-18 18:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAR: Scale-wise Text-conditioned AutoRegressive image generation はコメントを受け付けていません

Is Noise Conditioning Necessary for Denoising Generative Models?

要約

ノイズコンディショニングは、拡散モデルを除去するには不可欠であると広く信じられています。
この仕事はこの信念に挑戦します。
盲目のイメージ除去に関する研究に動機付けられ、ノイズコンディショニングがない場合に、さまざまな除去ベースの生成モデルを調査します。
驚いたことに、ほとんどのモデルは優雅な劣化を示し、場合によっては、ノイズコンディショニングなしでさらにパフォーマンスを発揮します。
ノイズコンディショニングを削除することによって引き起こされるエラーの理論的分析を提供し、分析が経験的観察と一致することを示します。
さらに、CIFAR-10で2.23の競争力のあるFIDを達成するノイズ非条件モデルを導入し、主要なノイズコンディショナルモデルへのギャップを大幅に絞り込みます。
私たちの調査結果が、生成モデルの除去の基礎と定式化を再訪するようコミュニティに刺激を与えることを願っています。

要約(オリジナル)

It is widely believed that noise conditioning is indispensable for denoising diffusion models to work successfully. This work challenges this belief. Motivated by research on blind image denoising, we investigate a variety of denoising-based generative models in the absence of noise conditioning. To our surprise, most models exhibit graceful degradation, and in some cases, they even perform better without noise conditioning. We provide a theoretical analysis of the error caused by removing noise conditioning and demonstrate that our analysis aligns with empirical observations. We further introduce a noise-unconditional model that achieves a competitive FID of 2.23 on CIFAR-10, significantly narrowing the gap to leading noise-conditional models. We hope our findings will inspire the community to revisit the foundations and formulations of denoising generative models.

arxiv情報

著者 Qiao Sun,Zhicheng Jiang,Hanhong Zhao,Kaiming He
発行日 2025-02-18 18:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Is Noise Conditioning Necessary for Denoising Generative Models? はコメントを受け付けていません

Magma: A Foundation Model for Multimodal AI Agents

要約

マグマは、デジタルワールドと物理世界の両方でマルチモーダルAIエージェントタスクを提供する基礎モデルです。
マグマは、後者のVL理解能力(言語知能)を保持するだけでなく、視覚空間の世界で計画し行動する能力も装備されているという点で、ビジョン言語(VL)モデルの重要な拡張です(空間)
-porlal Intelligence)およびUIナビゲーションからロボット操作に至るまでの完全なエージェントタスク。
エージェント機能に授与するために、マグマは画像、ビデオからロボット工学データにまたがる大量の不均一なデータセットで事前に処理されます。ここでは、画像の実用的な視覚オブジェクト(たとえば、GUIのクリック可能なボタン)にセットマーク(SOM)がラベル付けされています。
動画のアクションの接地とオブジェクトの動き(たとえば、人間の手やロボットアームの痕跡など)の場合、Trace-of-Mark(TOM)がラベル付けされています。
アクションプランニング。
広範な実験では、SOMとTOMが大きな相乗効果に到達し、図1に示すように広範囲のタスクの基本であるMAGMAモデルの空間的知能の獲得を促進することが示されています。
特に、Magmaは、これらのタスクに合わせて特別に調整された以前のモデルを上回るUIナビゲーションおよびロボット操作タスクに新しい最先端の結果を作成します。
画像関連のマルチモーダルタスクでは、マグマは、はるかに大きなデータセットでトレーニングされている一般的な大規模なマルチモーダルモデルとも好ましいものです。
https://microsoft.github.io/magmaで再現性のためにモデルとコードを公開します。

要約(オリジナル)

We present Magma, a foundation model that serves multimodal AI agentic tasks in both the digital and physical worlds. Magma is a significant extension of vision-language (VL) models in that it not only retains the VL understanding ability (verbal intelligence) of the latter, but is also equipped with the ability to plan and act in the visual-spatial world (spatial-temporal intelligence) and complete agentic tasks ranging from UI navigation to robot manipulation. To endow the agentic capabilities, Magma is pretrained on large amounts of heterogeneous datasets spanning from images, videos to robotics data, where the actionable visual objects (e.g., clickable buttons in GUI) in images are labeled by Set-of-Mark (SoM) for action grounding, and the object movements (e.g., the trace of human hands or robotic arms) in videos are labeled by Trace-of-Mark (ToM) for action planning. Extensive experiments show that SoM and ToM reach great synergy and facilitate the acquisition of spatial-temporal intelligence for our Magma model, which is fundamental to a wide range of tasks as shown in Fig.1. In particular, Magma creates new state-of-the-art results on UI navigation and robotic manipulation tasks, outperforming previous models that are specifically tailored to these tasks. On image and video-related multimodal tasks, Magma also compares favorably to popular large multimodal models that are trained on much larger datasets. We make our model and code public for reproducibility at https://microsoft.github.io/Magma.

arxiv情報

著者 Jianwei Yang,Reuben Tan,Qianhui Wu,Ruijie Zheng,Baolin Peng,Yongyuan Liang,Yu Gu,Mu Cai,Seonghyeon Ye,Joel Jang,Yuquan Deng,Lars Liden,Jianfeng Gao
発行日 2025-02-18 18:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO | Magma: A Foundation Model for Multimodal AI Agents はコメントを受け付けていません

AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

要約

テキスト入力のみが与えられた写真と現実的な4Dトーキングアバターをアニメーション化するオーディオビジュアル生成モデルであるAV-Flowを紹介します。
既存の音声信号を想定している以前の作業とは対照的に、音声とビジョンを共同で合成します。
人間のような音声統合、同期された唇の動き、活気のある表情、ヘッドポーズを示します。
すべてテキスト文字から生成されます。
私たちのアプローチの核となる前提は、2つの並列拡散変圧器のアーキテクチャにあります。
中間高速道路接続により、オーディオと視覚のモダリティとの間の通信が保証され、したがって、同期した音声イントネーションと顔のダイナミクス(眉の動きなど)が同期されます。
私たちのモデルは、フローマッチングでトレーニングされており、表現結果と迅速な推論につながります。
ダイアディックな会話の場合、AV-Flowは、ユーザーの視聴覚入力を積極的に聴き、反応する常にオンになっているアバターを生成します。
広範な実験を通じて、私たちの方法は、自然に見える4D話のアバターを統合して、以前の作業よりも優れていることを示しています。
プロジェクトページ:https://aggelinacha.github.io/av-flow/

要約(オリジナル)

We introduce AV-Flow, an audio-visual generative model that animates photo-realistic 4D talking avatars given only text input. In contrast to prior work that assumes an existing speech signal, we synthesize speech and vision jointly. We demonstrate human-like speech synthesis, synchronized lip motion, lively facial expressions and head pose; all generated from just text characters. The core premise of our approach lies in the architecture of our two parallel diffusion transformers. Intermediate highway connections ensure communication between the audio and visual modalities, and thus, synchronized speech intonation and facial dynamics (e.g., eyebrow motion). Our model is trained with flow matching, leading to expressive results and fast inference. In case of dyadic conversations, AV-Flow produces an always-on avatar, that actively listens and reacts to the audio-visual input of a user. Through extensive experiments, we show that our method outperforms prior work, synthesizing natural-looking 4D talking avatars. Project page: https://aggelinacha.github.io/AV-Flow/

arxiv情報

著者 Aggelina Chatziagapi,Louis-Philippe Morency,Hongyu Gong,Michael Zollhoefer,Dimitris Samaras,Alexander Richard
発行日 2025-02-18 18:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AV-Flow: Transforming Text to Audio-Visual Human-like Interactions はコメントを受け付けていません

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

要約

空間インテリジェンスは、具体化されたAIの重要なコンポーネントであり、ロボットが環境を理解し、相互作用するよう促進します。
最近の進歩により、VLMがオブジェクトの位置と位置関係を知覚する能力が向上しましたが、オブジェクトの方向を正確に理解する能力はまだ不足しています。
この制限に対処するには、幾何学的な推論だけでなく、オリエンテーションを表現する表現力豊かで直感的な方法も必要です。
これに関連して、自然言語は標準的なフレームよりも柔軟な表現スペースを提供し、指導に従うロボットシステムに特に適していることを提案します。
この論文では、セマンティックオリエンテーションの概念を紹介します。これは、自然言語を使用してリファレンスフレームフリーの方法でオブジェクトの向きを定義します(例えば、USBまたは「ハンドル」方向の「「プラグイン」の方向」
ナイフの)。
これをサポートするために、Orientext300Kを構築します。これは、幾何学的理解を機能的なセマンティクスにリンクするセマンティックオリエンテーションが注釈された3Dモデルの大規模なデータセットです。
セマンティックオリエンテーションをVLMシステムに統合することにより、ロボットが位置的制約と方向的な制約の両方で操作アクションを生成できるようにします。
シミュレーションと現実の世界での広範な実験は、このアプローチがロボット操作機能、たとえばOpen6Dorの48.7%の精度、74.9%の精度をよりシンプルで大幅に向上させることを示しています。

要約(オリジナル)

Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ”plug-in” direction of a USB or the ”handle” direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

arxiv情報

著者 Zekun Qi,Wenyao Zhang,Yufei Ding,Runpei Dong,Xinqiang Yu,Jingwen Li,Lingyun Xu,Baoyu Li,Xialin He,Guofan Fan,Jiazhao Zhang,Jiawei He,Jiayuan Gu,Xin Jin,Kaisheng Ma,Zhizheng Zhang,He Wang,Li Yi
発行日 2025-02-18 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation はコメントを受け付けていません