DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness

要約

ほとんどの3Dオブジェクトジェネレーターは、美的品質に焦点を当てており、アプリケーションで必要な物理的制約を無視することがよくあります。
そのような制約の1つは、3Dオブジェクトが自立している必要があることです。つまり、重力の下でバランスを保つことです。
安定した3Dオブジェクトを生成するための以前のアプローチは、微分可能な物理シミュレータを使用して、テスト時にジオメトリを最適化しました。
生成モデルを外部フィードバックに合わせることに関する文献に触発されて、(非差性的な)シミュレーターからのフィードバックを使用するフレームワークである直接シミュレーション最適化(DSO)を提案し、3Dジェネレーターが安定した3Dオブジェクトを直接出力する可能性を高めます。
物理シミュレーターから得られた安定性スコアでラベル付けされた3Dオブジェクトのデータセットを作成します。
その後、導入された拡張モデルである直接選好最適化(DPO)または直接報酬最適化(DRO)を使用して、アライメントメトリックとして安定性スコアを使用して3Dジェネレーターを微調整できます。
私たちの実験は、DPOまたはDRO対物レンズのいずれかを使用した微調整されたフィードフォワードジェネレーターが、テスト時間の最適化よりもはるかに高速で安定したオブジェクトを生成する可能性が高いことを示しています。
特に、DSOフレームワークは、トレーニング用のグラウンドトゥルース3Dオブジェクトがなくても機能し、3Dジェネレーターが独自の出力に関するシミュレーションフィードバックを自動的に収集することで自己改善できるようになります。

要約(オリジナル)

Most 3D object generators focus on aesthetic quality, often neglecting physical constraints necessary in applications. One such constraint is that the 3D object should be self-supporting, i.e., remains balanced under gravity. Prior approaches to generating stable 3D objects used differentiable physics simulators to optimize geometry at test-time, which is slow, unstable, and prone to local optima. Inspired by the literature on aligning generative models to external feedback, we propose Direct Simulation Optimization (DSO), a framework to use the feedback from a (non-differentiable) simulator to increase the likelihood that the 3D generator outputs stable 3D objects directly. We construct a dataset of 3D objects labeled with a stability score obtained from the physics simulator. We can then fine-tune the 3D generator using the stability score as the alignment metric, via direct preference optimization (DPO) or direct reward optimization (DRO), a novel objective, which we introduce, to align diffusion models without requiring pairwise preferences. Our experiments show that the fine-tuned feed-forward generator, using either DPO or DRO objective, is much faster and more likely to produce stable objects than test-time optimization. Notably, the DSO framework works even without any ground-truth 3D objects for training, allowing the 3D generator to self-improve by automatically collecting simulation feedback on its own outputs.

arxiv情報

著者 Ruining Li,Chuanxia Zheng,Christian Rupprecht,Andrea Vedaldi
発行日 2025-03-28 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness はコメントを受け付けていません

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning

要約

画像品質評価(IQA)は、画像の知覚的な視覚品質に焦点を当て、画像の再構築、圧縮、生成などの下流タスクで重要な役割を果たします。
マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、IQAの範囲を大幅に広げ、コンテンツ分析、分解知覚、および数値スコアリングを超えた比較の推論を組み込んだ包括的な画像品質理解に向かって移動しています。
以前のMLLMベースの方法は、通常、解釈可能性を欠く数値スコアを生成するか、大規模な注釈付きデータセットを使用して監視付き微調整(SFT)に大きく依存して記述的評価を提供し、柔軟性と適用性を制限します。
この論文では、グループ相対ポリシー最適化(GRPO)に基づいて構築された強化学習ベースのモデルであるQインサイトを提案します。これは、限られた量の評価スコアと劣化ラベルのみを必要としながら、画質理解のための強力な視覚的推論能力を示しています。
慎重に設計された報酬機能を備えたスコア回帰と分解の知覚タスクを共同で最適化することにより、私たちのアプローチは、パフォーマンスの向上のために相互利益を効果的に活用します。
広範な実験は、Qインサイトが、スコア回帰と分解の知覚タスクの両方で既存の最先端の方法を大幅に上回ることを示していることを示していますが、比較推論タスクに印象的なゼロショット一般化を示します。
コードはhttps://github.com/lwq20020127/q-insightで入手できます。

要約(オリジナル)

Image quality assessment (IQA) focuses on the perceptual visual quality of images, playing a crucial role in downstream tasks such as image reconstruction, compression, and generation. The rapid advancement of multi-modal large language models (MLLMs) has significantly broadened the scope of IQA, moving toward comprehensive image quality understanding that incorporates content analysis, degradation perception, and comparison reasoning beyond mere numerical scoring. Previous MLLM-based methods typically either generate numerical scores lacking interpretability or heavily rely on supervised fine-tuning (SFT) using large-scale annotated datasets to provide descriptive assessments, limiting their flexibility and applicability. In this paper, we propose Q-Insight, a reinforcement learning-based model built upon group relative policy optimization (GRPO), which demonstrates strong visual reasoning capability for image quality understanding while requiring only a limited amount of rating scores and degradation labels. By jointly optimizing score regression and degradation perception tasks with carefully designed reward functions, our approach effectively exploits their mutual benefits for enhanced performance. Extensive experiments demonstrate that Q-Insight substantially outperforms existing state-of-the-art methods in both score regression and degradation perception tasks, while exhibiting impressive zero-shot generalization to comparison reasoning tasks. Code will be available at https://github.com/lwq20020127/Q-Insight.

arxiv情報

著者 Weiqi Li,Xuanyu Zhang,Shijie Zhao,Yabin Zhang,Junlin Li,Li Zhang,Jian Zhang
発行日 2025-03-28 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Q-Insight: Understanding Image Quality via Visual Reinforcement Learning はコメントを受け付けていません

Outlier dimensions favor frequent tokens in language models

要約

最後の層の外れ値の寸法、つまり、大部分の入力に対して極端な活性化を示す寸法を研究します。
多くの異なる現代言語モデルで外れ値の寸法が生じることを示し、その機能を頻繁に予測するというヒューリスティックに戻ります。
さらに、残りの寸法に相殺された重量質量を割り当てることにより、モデルが文脈的に適切でないときにこのヒューリスティックをブロックする方法を示し、どのモデルパラメーターが外れ値の寸法を高めるか、トレーニング中に発生するかを調査します。
外れ値の寸法は、有用なトークン予測ヒューリスティックを実装するために、多くの異なるモデルによって発見された特殊なメカニズムであると結論付けています。

要約(オリジナル)

We study last-layer outlier dimensions, i.e. dimensions that display extreme activations for the majority of inputs. We show that outlier dimensions arise in many different modern language models, and trace their function back to the heuristic of constantly predicting frequent words. We further show how a model can block this heuristic when it is not contextually appropriate, by assigning a counterbalancing weight mass to the remaining dimensions, and we investigate which model parameters boost outlier dimensions and when they arise during training. We conclude that outlier dimensions are a specialized mechanism discovered by many distinct models to implement a useful token prediction heuristic.

arxiv情報

著者 Iuri Macocco,Nora Graichen,Gemma Boleda,Marco Baroni
発行日 2025-03-28 14:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Outlier dimensions favor frequent tokens in language models はコメントを受け付けていません

OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs

要約

特に音声を含むマルチモーダル認知状態タスクでは、OMNI-LLMS(入力としてモダリティを受け入れる大規模な言語モデル)の使用は研究されていません。
ゼロショット感情認識タスクに関する4つのオムニルスの最初の系統的評価であるOmnivoxを提示します。
広く使用されている2つのマルチモーダル感情ベンチマークで評価され、IEMOCAPとMELDを使用して、ゼロショットOMNI-LLMのアウトパフォームを見つけるか、微調整されたオーディオモデルと競合します。
オーディオのみの評価に加えて、テキストのみとテキストとオーディオのOMNI-LLMを評価します。
音響機能分析、会話のコンテキスト分析、段階的な推論に焦点を当てたOMNI-LLMSのオーディオ固有のプロンプト戦略であるアコースティックプロンプトを提示します。
音響プロンプトを最小限のプロンプトと完全なチェーンプロンプトテクニックと比較します。
IEMOCAPとMELDのコンテキストウィンドウ分析を実行し、特にIEMOCAPでコンテキストを使用するのに役立つことがわかります。
OMNI-LLMSからの生成された音響推論出力に関するエラー分析で結論を出します。

要約(オリジナル)

The use of omni-LLMs (large language models that accept any modality as input), particularly for multimodal cognitive state tasks involving speech, is understudied. We present OmniVox, the first systematic evaluation of four omni-LLMs on the zero-shot emotion recognition task. We evaluate on two widely used multimodal emotion benchmarks: IEMOCAP and MELD, and find zero-shot omni-LLMs outperform or are competitive with fine-tuned audio models. Alongside our audio-only evaluation, we also evaluate omni-LLMs on text only and text and audio. We present acoustic prompting, an audio-specific prompting strategy for omni-LLMs which focuses on acoustic feature analysis, conversation context analysis, and step-by-step reasoning. We compare our acoustic prompting to minimal prompting and full chain-of-thought prompting techniques. We perform a context window analysis on IEMOCAP and MELD, and find that using context helps, especially on IEMOCAP. We conclude with an error analysis on the generated acoustic reasoning outputs from the omni-LLMs.

arxiv情報

著者 John Murzaku,Owen Rambow
発行日 2025-03-28 12:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs はコメントを受け付けていません

LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

要約

テキスト誘導画像編集は、一般的な構造と背景の忠実度を維持しながら、自然言語の指示に従って画像の特定の領域を変更することを目的としています。
既存の方法は、拡散モデルから生成された交差アテンションマップから派生したマスクを利用して、修正のためのターゲット領域を識別します。
ただし、クロスアテンションメカニズムはセマンティック関連性に焦点を当てているため、イメージの完全性を維持するのに苦労しています。
その結果、これらの方法はしばしば空間的な一貫性を欠いており、アーティファクトと歪みの編集につながります。
この作業では、これらの制限に対処し、導入します。これにより、自己攻撃由来のパッチ関係を利用してグラフベースのアプローチを介してクロスアテナンスマップを強化して、画像領域全体で滑らかでコヒーレントな注意を維持し、周囲の構造を保持しながら変更されたアイテムに制限されるようにします。
Pie-Benchの既存のベースラインを一貫して実質的に優れた状態にしており、さまざまな編集タスクで最先端のパフォーマンスと有効性を示しています。
コードはhttps://github.com/locatedit/locatedit/にあります

要約(オリジナル)

Text-guided image editing aims to modify specific regions of an image according to natural language instructions while maintaining the general structure and the background fidelity. Existing methods utilize masks derived from cross-attention maps generated from diffusion models to identify the target regions for modification. However, since cross-attention mechanisms focus on semantic relevance, they struggle to maintain the image integrity. As a result, these methods often lack spatial consistency, leading to editing artifacts and distortions. In this work, we address these limitations and introduce LOCATEdit, which enhances cross-attention maps through a graph-based approach utilizing self-attention-derived patch relationships to maintain smooth, coherent attention across image regions, ensuring that alterations are limited to the designated items while retaining the surrounding structure. LOCATEdit consistently and substantially outperforms existing baselines on PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on various editing tasks. Code can be found on https://github.com/LOCATEdit/LOCATEdit/

arxiv情報

著者 Achint Soni,Meet Soni,Sirisha Rambhatla
発行日 2025-03-28 12:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing はコメントを受け付けていません

LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning

要約

Deep Renection Learning(DRL)は、ロボット制御において強力なパフォーマンスを実証していますが、分散排出(OOD)状態の影響を受けやすく、しばしば信頼できないアクションとタスクの障害をもたらします。
以前の方法では、OODの発生の最小化または防止に焦点を当てていますが、エージェントがそのような状態に遭遇すると、回復をほとんど無視しています。
最新の研究では、エージェントが分配内の状態に戻ることでこれに対処しようとしましたが、不確実性の推定への依存は、複雑な環境でのスケーラビリティを妨げます。
この制限を克服するために、不確実性の推定に依存することなく回復学習を可能にする、分散除外回復(Lamour)の言語モデルを導入します。
Lamourは、エージェントを元のタスクを正常に実行できる状態に戻す密な報酬コードを生成し、画像の説明、論理的推論、およびコード生成でLVLMSの機能を活用します。
実験結果は、Lamourが多様な移動タスク全体の回復効率を大幅に向上させ、既存の方法が苦労しているヒューマノイド移動やモバイル操作など、複雑な環境に効果的に一般化することさえあることを示しています。
コードと補足資料は、https://lamour-rl.github.io/で入手できます。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has demonstrated strong performance in robotic control but remains susceptible to out-of-distribution (OOD) states, often resulting in unreliable actions and task failure. While previous methods have focused on minimizing or preventing OOD occurrences, they largely neglect recovery once an agent encounters such states. Although the latest research has attempted to address this by guiding agents back to in-distribution states, their reliance on uncertainty estimation hinders scalability in complex environments. To overcome this limitation, we introduce Language Models for Out-of-Distribution Recovery (LaMOuR), which enables recovery learning without relying on uncertainty estimation. LaMOuR generates dense reward codes that guide the agent back to a state where it can successfully perform its original task, leveraging the capabilities of LVLMs in image description, logical reasoning, and code generation. Experimental results show that LaMOuR substantially enhances recovery efficiency across diverse locomotion tasks and even generalizes effectively to complex environments, including humanoid locomotion and mobile manipulation, where existing methods struggle. The code and supplementary materials are available at https://lamour-rl.github.io/.

arxiv情報

著者 Chan Kim,Seung-Woo Seo,Seong-Woo Kim
発行日 2025-03-28 06:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning はコメントを受け付けていません

AcL: Action Learner for Fault-Tolerant Quadruped Locomotion Control

要約

四葉型ロボットは多目的な移動スキルを学ぶことができますが、1つ以上のジョイントが電力を失った場合、脆弱なままです。
対照的に、犬と猫は、負傷時に足を引きずる歩行を採用することができ、身体的状態に適応する驚くべき能力を示しています。
このような適応性に触発されたこのペーパーでは、四足動物が複数の関節断層の下で安定した歩行のために歩行を自律的に適応させることを可能にする、新しい教師と学生の強化学習フレームワークであるアクション学習者(ACL)を紹介します。
厳格な模倣を強制する従来の教師と学生のアプローチとは異なり、ACLは教師ポリシーを活用してスタイルの報酬を生成し、正確な複製を必要とせずに生徒のポリシーを導きます。
それぞれが異なる障害状態に対応する複数の教師ポリシーをトレーニングし、その後、それらをエンコーダーデコダーアーキテクチャを使用して単一の学生ポリシーに蒸留します。
以前の作業は主に単一の障害に対処していますが、ACLは、断層が発生したときに異なるリッピング歩行を自律的に切り替える、1つまたは2つの脚に沿って最大4つの故障したジョイントを使用して四足動物を歩くことができます。
単一関節および二重ジョイント断層の下で、実際のGO2四分足節のロボットでACLを検証し、断層耐性の安定した歩行、通常の歩行と子羊の歩行の間の滑らかな歩行遷移、および外乱に対する堅牢性を示します。

要約(オリジナル)

Quadrupedal robots can learn versatile locomotion skills but remain vulnerable when one or more joints lose power. In contrast, dogs and cats can adopt limping gaits when injured, demonstrating their remarkable ability to adapt to physical conditions. Inspired by such adaptability, this paper presents Action Learner (AcL), a novel teacher-student reinforcement learning framework that enables quadrupeds to autonomously adapt their gait for stable walking under multiple joint faults. Unlike conventional teacher-student approaches that enforce strict imitation, AcL leverages teacher policies to generate style rewards, guiding the student policy without requiring precise replication. We train multiple teacher policies, each corresponding to a different fault condition, and subsequently distill them into a single student policy with an encoder-decoder architecture. While prior works primarily address single-joint faults, AcL enables quadrupeds to walk with up to four faulty joints across one or two legs, autonomously switching between different limping gaits when faults occur. We validate AcL on a real Go2 quadruped robot under single- and double-joint faults, demonstrating fault-tolerant, stable walking, smooth gait transitions between normal and lamb gaits, and robustness against external disturbances.

arxiv情報

著者 Tianyu Xu,Yaoyu Cheng,Pinxi Shen,Lin Zhao
発行日 2025-03-28 06:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | AcL: Action Learner for Fault-Tolerant Quadruped Locomotion Control はコメントを受け付けていません

Generalizable Prompt Learning of CLIP: A Brief Overview

要約

クリップなどの既存のビジョン言語モデル(VLM)は、さまざまな下流タスクにわたってよく一般化する印象的な機能を示しています。
これらのモデルは、視覚情報とテキスト情報の相乗効果を活用して、画像やテキストに存在するコンテンツを統一された方法で理解し、推論できるようにします。
この記事では、実験データやいくつかの方法の技術的特性を含む、少数のショットの迅速な学習に基づいたクリップの簡単な概要を説明します。
このレビューの目的は、15のデータセットにわたって分類のための少数のショットトレーニングを通じて、一般化可能なクリップの調査を開始したばかりの研究者に参照を提供し、他の下流タスクの研究者によるこの分野の統合を促進することです。

要約(オリジナル)

Existing vision-language models (VLMs) such as CLIP have showcased an impressive capability to generalize well across various downstream tasks. These models leverage the synergy between visual and textual information, enabling them to understand and reason about the content present in images and text in a unified manner. This article provides a brief overview of CLIP based on few-shot prompt learning, including experimental data and technical characteristics of some methods. The purpose of this review is to provide a reference for researchers who have just started their research in generalizable prompting of CLIP through few-shot training for classification across 15 datasets and also to facilitate the integration of this field by researchers in other downstream tasks.

arxiv情報

著者 Fangming Cui,Yonggang Zhang,Xuan Wang,Xule Wang,Liang Xiao
発行日 2025-03-28 02:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Generalizable Prompt Learning of CLIP: A Brief Overview はコメントを受け付けていません

Unified Multimodal Discrete Diffusion

要約

複数のモダリティにわたって理解して生成できるマルチモーダル生成モデルは、左から右、または上から下までトークンを処理する自己回帰(AR)アプローチによって支配されます。
これらのモデルは、画像キャプション、質問応答、画像生成などのさまざまなタスクの画像、テキスト、ビデオ、およびオーディオを共同で処理します。
この作業では、テキスト生成における最近の成功に基づいて、共同テキストと画像ドメインの統一生成定式化として離散拡散モデルを調査します。
離散拡散モデルは、生成されたサンプルの多様性と多様性の多様性、ジョイントマルチモーダルのインペインティング(テキストドメインと画像ドメインの両方で)を実行する能力、およびガイダンスによる生成のより大きな制御性など、ARモデルよりもいくつかの利点を提供します。
これらの利点を活用して、さまざまな下流タスクのテキストと画像を共同で理解し、生成できる最初の統一されたマルチモーダル離散拡散(UNIDISC)モデルを提示します。
UnidiscをマルチモーダルARモデルと比較し、スケーリング分析を実行し、UNIDISCがパフォーマンスと推論時間計算、制御性の向上、編集可能性、インポインティング、および推論時間と世代の品質の間の柔軟なトレードオフの両方でそれらを上回ることを実証します。
コードと追加の視覚化は、https://unidisc.github.ioで入手できます。

要約(オリジナル)

Multimodal generative models that can understand and generate across multiple modalities are dominated by autoregressive (AR) approaches, which process tokens sequentially from left to right, or top to bottom. These models jointly handle images, text, video, and audio for various tasks such as image captioning, question answering, and image generation. In this work, we explore discrete diffusion models as a unified generative formulation in the joint text and image domain, building upon their recent success in text generation. Discrete diffusion models offer several advantages over AR models, including improved control over quality versus diversity of generated samples, the ability to perform joint multimodal inpainting (across both text and image domains), and greater controllability in generation through guidance. Leveraging these benefits, we present the first Unified Multimodal Discrete Diffusion (UniDisc) model which is capable of jointly understanding and generating text and images for a variety of downstream tasks. We compare UniDisc to multimodal AR models, performing a scaling analysis and demonstrating that UniDisc outperforms them in terms of both performance and inference-time compute, enhanced controllability, editability, inpainting, and flexible trade-off between inference time and generation quality. Code and additional visualizations are available at https://unidisc.github.io.

arxiv情報

著者 Alexander Swerdlow,Mihir Prabhudesai,Siddharth Gandhi,Deepak Pathak,Katerina Fragkiadaki
発行日 2025-03-26 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Unified Multimodal Discrete Diffusion はコメントを受け付けていません

A Study of Perceived Safety for Soft Robotics in Caregiving Tasks

要約

このプロジェクトでは、皮膚に力をかける必要があるため、身体的接触が避けられない適切なタスク実行に必要である入浴などの介護シナリオにおける人間とロボットの相互作用に焦点を当てています。
有限要素分析を使用して、安全でありながら準拠した取り扱いのために正と負の圧力を組み合わせた3Dプリントグリッパーを設計しました。
予備的なテストでは、標準の剛性グリッパーよりも低く、より均一な圧力プロファイルが発揮されたことが示されました。
ユーザー調査では、ロボットに対する参加者の信頼は、ソフトグリッパーを装備したロボットアームによって実行された短い入浴デモを経験した後、大幅に増加しました。
これらの結果は、ソフトロボット工学が、親密な介護シナリオで知覚される安全性と受け入れを高めることができることを示唆しています。

要約(オリジナル)

In this project, we focus on human-robot interaction in caregiving scenarios like bathing, where physical contact is inevitable and necessary for proper task execution because force must be applied to the skin. Using finite element analysis, we designed a 3D-printed gripper combining positive and negative pressure for secure yet compliant handling. Preliminary tests showed it exerted a lower, more uniform pressure profile than a standard rigid gripper. In a user study, participants’ trust in robots significantly increased after they experienced a brief bathing demonstration performed by a robotic arm equipped with the soft gripper. These results suggest that soft robotics can enhance perceived safety and acceptance in intimate caregiving scenarios.

arxiv情報

著者 Cosima du Pasquier,Jennifer Grannen,Chuer Pan,Serin L. Huber,Aliyah Smith,Monroe Kennedy,Shuran Song,Dorsa Sadigh,Allison M. Okamura
発行日 2025-03-26 18:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | A Study of Perceived Safety for Soft Robotics in Caregiving Tasks はコメントを受け付けていません