Disentangling Reasoning and Knowledge in Medical Large Language Models

要約

大規模な言語モデル(LLMS)の医学的推論は、臨床医の診断思考をエミュレートすることを目的としていますが、MEDQA-USMLE、MEDMCQA、PUBMEDQAなどの現在のベンチマークは、多くの場合、事実のリコールと推論を混合します。
これに対処し、11の生物医学QAベンチマークを、人間のパフォーマンスに匹敵する81%の精度に達するPubMedbert分類器を使用して、推論および知識に焦点を当てたサブセットに分離します。
私たちの分析は、質問の32.8%だけが複雑な推論が必要であることを示しています。
生物医学モデル(Huatuogpt-O1、MedReason、M1)および一般的なドメインモデル(DeepSeek-R1、O4-Mini、QWEN3)を評価し、知識と推論パフォーマンスの間に一貫したギャップを見つけます。
たとえば、M1は知識で60.5を獲得しましたが、推論では47.1のみです。
モデルが誤った初期推論と誤解されている敵対的なテストでは、生物医学モデルが大幅に低下し、より大きいまたはRLトレーニングされた一般的なモデルはより堅牢性を示します。
これに対処するために、推論が多い例で微調整および強化学習を使用して生物型R1を訓練します。
同様のサイズのモデルで最も強力なパフォーマンスを実現します。
臨床症例報告と敵対的およびバックトラッキングシナリオを備えたトレーニングを組み込むことから、さらなる利益が得られる可能性があります。

要約(オリジナル)

Medical reasoning in large language models (LLMs) aims to emulate clinicians’ diagnostic thinking, but current benchmarks such as MedQA-USMLE, MedMCQA, and PubMedQA often mix reasoning with factual recall. We address this by separating 11 biomedical QA benchmarks into reasoning- and knowledge-focused subsets using a PubMedBERT classifier that reaches 81 percent accuracy, comparable to human performance. Our analysis shows that only 32.8 percent of questions require complex reasoning. We evaluate biomedical models (HuatuoGPT-o1, MedReason, m1) and general-domain models (DeepSeek-R1, o4-mini, Qwen3), finding consistent gaps between knowledge and reasoning performance. For example, m1 scores 60.5 on knowledge but only 47.1 on reasoning. In adversarial tests where models are misled with incorrect initial reasoning, biomedical models degrade sharply, while larger or RL-trained general models show more robustness. To address this, we train BioMed-R1 using fine-tuning and reinforcement learning on reasoning-heavy examples. It achieves the strongest performance among similarly sized models. Further gains may come from incorporating clinical case reports and training with adversarial and backtracking scenarios.

arxiv情報

著者 Rahul Thapa,Qingyang Wu,Kevin Wu,Harrison Zhang,Angela Zhang,Eric Wu,Haotian Ye,Suhana Bedi,Nevin Aresh,Joseph Boen,Shriya Reddy,Ben Athiwaratkun,Shuaiwen Leon Song,James Zou
発行日 2025-05-16 17:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Disentangling Reasoning and Knowledge in Medical Large Language Models はコメントを受け付けていません

Exploratory Diffusion Model for Unsupervised Reinforcement Learning

要約

監視されていない強化学習(URL)は、報酬のない環境で多様な状態またはスキルを探索し、下流のタスクへの効率的な適応を促進することにより、訓練前のエージェントを目指しています。
エージェントは、監視されていない探索中に外因性の報酬にアクセスできないため、既存の方法は、探索されたデータをモデル化し、さらなる調査を促進するために本質的な報酬を設計します。
ただし、探索されたデータは常に不均一であり、本質的な報酬モデルと事前に訓練されたポリシーの両方の強力な表現能力の要件を提起しています。
この作業では、探索されたデータに適合する拡散モデルの強力な表現力を活用し、同時に探索を強化し、下流タスクの効率的な初期化を提供する探索的拡散モデル(EXDM)を提案します。
具体的には、EXDMは、拡散モデルを使用したリプレイバッファー内の収集されたデータの分布を正確に推定し、スコアベースの本質的な報酬を導入し、エージェントが訪問の少ない状態を探索するよう奨励します。
事前に訓練されたポリシーを取得した後、EXDMはダウンストリームタスクへの迅速な適応を可能にします。
詳細には、微調整拡散ポリシーの理論分析と実用的なアルゴリズムを提供し、トレーニングの不安定性やマルチステップサンプリングによって引き起こされる計算の複雑さなどの重要な課題に対処します。
広範な実験は、EXDMが、特に構造的に複雑な環境で、効率的な監視されていない探索と速い微調整下流タスクで既存のSOTAベースラインを上回ることを示しています。

要約(オリジナル)

Unsupervised reinforcement learning (URL) aims to pre-train agents by exploring diverse states or skills in reward-free environments, facilitating efficient adaptation to downstream tasks. As the agent cannot access extrinsic rewards during unsupervised exploration, existing methods design intrinsic rewards to model the explored data and encourage further exploration. However, the explored data are always heterogeneous, posing the requirements of powerful representation abilities for both intrinsic reward models and pre-trained policies. In this work, we propose the Exploratory Diffusion Model (ExDM), which leverages the strong expressive ability of diffusion models to fit the explored data, simultaneously boosting exploration and providing an efficient initialization for downstream tasks. Specifically, ExDM can accurately estimate the distribution of collected data in the replay buffer with the diffusion model and introduces the score-based intrinsic reward, encouraging the agent to explore less-visited states. After obtaining the pre-trained policies, ExDM enables rapid adaptation to downstream tasks. In detail, we provide theoretical analyses and practical algorithms for fine-tuning diffusion policies, addressing key challenges such as training instability and computational complexity caused by multi-step sampling. Extensive experiments demonstrate that ExDM outperforms existing SOTA baselines in efficient unsupervised exploration and fast fine-tuning downstream tasks, especially in structurally complicated environments.

arxiv情報

著者 Chengyang Ying,Huayu Chen,Xinning Zhou,Zhongkai Hao,Hang Su,Jun Zhu
発行日 2025-05-16 17:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Exploratory Diffusion Model for Unsupervised Reinforcement Learning はコメントを受け付けていません

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

要約

優先データセットは、人間のフィードバック(RLHF)からの強化学習を備えた一般的なドメイン、指導に従う言語モデルのトレーニングに不可欠です。
その後の各データリリースは、将来のデータ収集に対する期待を高めます。つまり、公然と利用可能な選好データの品質と多様性を前進させる必要があります。
このニーズに対処するために、40,000を超えるサンプルで構成される高品質で人間が注目した選好データセットであるHelpSteer3-Preference(CC-by-4.0)、高品質の人間が注目した選好データセットを紹介します。
これらのサンプルは、STEM、コーディング、多言語シナリオに関連するタスクを含む、大規模な言語モデル(LLM)の多様な現実世界のアプリケーションに及びます。
helpSteer3-preferenceを使用して、RMベンチ(82.4%)とJudgeBench(73.7%)でトップパフォーマンスを達成する報酬モデル(RMS)をトレーニングします。
これは、既存のRMSから以前に最も報告されていた結果に対する大幅な改善(〜10%の絶対)を表しています。
また、HelpSteer3-Preferenceを適用して、生成RMSを訓練するために適用でき、RMSを使用してRLHFとポリシーモデルをどのように整合させるかを示します。
データセット(CC-BY-4.0):https://huggingface.co/datasets/nvidia/helpsteer3#preference

要約(オリジナル)

Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

arxiv情報

著者 Zhilin Wang,Jiaqi Zeng,Olivier Delalleau,Hoo-Chang Shin,Felipe Soares,Alexander Bukharin,Ellie Evans,Yi Dong,Oleksii Kuchaiev
発行日 2025-05-16 17:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages はコメントを受け付けていません

Automatic Reward Shaping from Confounded Offline Data

要約

人工知能の重要なタスクは、不明な環境でエージェントを制御するための効果的なポリシーを学習して、パフォーマンス測定を最適化することです。
Qラーニングなどのポリシー外学習方法により、学習者は過去の経験に基づいて最適な決定を下すことができます。
このホワイトペーパーでは、複雑なドメインおよび高次元のドメインの偏ったデータから学習を研究しています。
よく知られている深いQネットワーク(DQN)に基づいて、観察されたデータの交絡バイアスに対して堅牢に堅牢になる新しいディープ強化学習アルゴリズムを提案します。
具体的には、私たちのアルゴリズムは、観測と互換性のある最悪の環境の安全なポリシーを見つけようとします。
私たちは、12の混乱したAtariゲームに方法を適用し、行動とターゲットのポリシーへの観察された入力が不一致と観察されていない交絡因子が存在するすべてのゲームで標準のDQNを一貫して支配することがわかります。

要約(オリジナル)

A key task in Artificial Intelligence is learning effective policies for controlling agents in unknown environments to optimize performance measures. Off-policy learning methods, like Q-learning, allow learners to make optimal decisions based on past experiences. This paper studies off-policy learning from biased data in complex and high-dimensional domains where \emph{unobserved confounding} cannot be ruled out a priori. Building on the well-celebrated Deep Q-Network (DQN), we propose a novel deep reinforcement learning algorithm robust to confounding biases in observed data. Specifically, our algorithm attempts to find a safe policy for the worst-case environment compatible with the observations. We apply our method to twelve confounded Atari games, and find that it consistently dominates the standard DQN in all games where the observed input to the behavioral and target policies mismatch and unobserved confounders exist.

arxiv情報

著者 Mingxuan Li,Junzhe Zhang,Elias Bareinboim
発行日 2025-05-16 17:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Automatic Reward Shaping from Confounded Offline Data はコメントを受け付けていません

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

要約

大規模な言語モデル(LLMS)は、幅広いプログラミングタスクで強力なパフォーマンスを実証していますが、コードの最適化の可能性は未定です。
この作業では、LLMSがアセンブリコードのパフォーマンスを最適化できるかどうかを調査します。これにより、実行に対する細かい制御により、高レベルの言語で表現するのが困難な改善が可能になります。
産業標準のコンパイラGCC -O3と比較して、テストケースを通じて検証され、実行パフォーマンスの両方を検討する報酬関数に導かれ、近位ポリシー最適化(PPO)を使用してLLMを訓練する強化学習フレームワークを提示します。
この研究をサポートするために、8,072の実世界プログラムのベンチマークを紹介します。
私たちのモデルであるQWEN2.5-CODER-7B-PPOは、96.0%のテスト合格率とGCC -O3ベースラインで1.47倍の平均スピードアップを達成し、Claude-3.7-Sonnetを含む20の他の20のモデルすべてを上回ります。
これらの結果は、補強学習がLLMの可能性を解き放ち、アセンブリコードのパフォーマンスに効果的な最適化装置として機能することを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong performance across a wide range of programming tasks, yet their potential for code optimization remains underexplored. This work investigates whether LLMs can optimize the performance of assembly code, where fine-grained control over execution enables improvements that are difficult to express in high-level languages. We present a reinforcement learning framework that trains LLMs using Proximal Policy Optimization (PPO), guided by a reward function that considers both functional correctness, validated through test cases, and execution performance relative to the industry-standard compiler gcc -O3. To support this study, we introduce a benchmark of 8,072 real-world programs. Our model, Qwen2.5-Coder-7B-PPO, achieves 96.0% test pass rates and an average speedup of 1.47x over the gcc -O3 baseline, outperforming all 20 other models evaluated, including Claude-3.7-sonnet. These results indicate that reinforcement learning can unlock the potential of LLMs to serve as effective optimizers for assembly code performance.

arxiv情報

著者 Anjiang Wei,Tarun Suresh,Huanmi Tan,Yinglun Xu,Gagandeep Singh,Ke Wang,Alex Aiken
発行日 2025-05-16 17:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PF, cs.PL, cs.SE | Improving Assembly Code Performance with Large Language Models via Reinforcement Learning はコメントを受け付けていません

MOSAAIC: Managing Optimization towards Shared Autonomy, Authority, and Initiative in Co-creation

要約

人間と共同創造的AIの間の適切なバランスを打つことは、計算の創造性に関するオープンな研究の質問です。
共同創造性は、人間とAIの両方が積極的に行動を起こすハイブリッドインテリジェンスの一形態であり、共有された創造的なアーティファクトとアイデアにつながるプロセスです。
共同創造性のバランスのとれた動的なものを達成するには、人間とAIの間でコントロールを分配するための制御と特定の戦略を特徴付ける必要があります。
コントロールを、共創のプロセスを決定、開始、指示する力として定義します。
172のフルレングスペーパーの体系的な文献レビューに基づいて、MOSAAIC(共創における共有された自律性、権威、イニシアチブに対する最適化の管理)を紹介します。
Mosaaicは、自律性、イニシアチブ、および権限という3つの重要な管理の3つの重要な側面を特定します。
共創における制御最適化戦略でフレームワークを補完します。
Mosaaicの適用性を実証するために、6つの既存の共同作成AIケーススタディの制御の分布を分析し、このフレームワークを使用することの意味を提示します。

要約(オリジナル)

Striking the appropriate balance between humans and co-creative AI is an open research question in computational creativity. Co-creativity, a form of hybrid intelligence where both humans and AI take action proactively, is a process that leads to shared creative artifacts and ideas. Achieving a balanced dynamic in co-creativity requires characterizing control and identifying strategies to distribute control between humans and AI. We define control as the power to determine, initiate, and direct the process of co-creation. Informed by a systematic literature review of 172 full-length papers, we introduce MOSAAIC (Managing Optimization towards Shared Autonomy, Authority, and Initiative in Co-creation), a novel framework for characterizing and balancing control in co-creation. MOSAAIC identifies three key dimensions of control: autonomy, initiative, and authority. We supplement our framework with control optimization strategies in co-creation. To demonstrate MOSAAIC’s applicability, we analyze the distribution of control in six existing co-creative AI case studies and present the implications of using this framework.

arxiv情報

著者 Alayt Issak,Jeba Rezwana,Casper Harteveld
発行日 2025-05-16 17:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MOSAAIC: Managing Optimization towards Shared Autonomy, Authority, and Initiative in Co-creation はコメントを受け付けていません

Modeling cognitive processes of natural reading with transformer-based Language Models

要約

自然言語処理(NLP)の最近の進歩により、テキスト生成のために非常に洗練された言語モデルが開発されました。
並行して、神経科学はこれらのモデルをますます採用して、言語理解に関与する認知プロセスを探求しています。
以前の研究では、N-GramsやLSTMネットワークなどのモデルが、読書中の眼球運動の挙動、特に視線の持続時間を説明する際の予測可能性効果を部分的に説明できることが示されています。
この研究では、トランスベースのモデル(GPT2、LLAMA-7B、およびLLAMA2-7B)を評価して、この関係をさらに調査することにより、これらの調査結果を拡張します。
我々の結果は、これらのアーキテクチャが、リオプランティンセのスペイン語読者から記録された視線持続時間の分散を説明する際に初期のモデルを上回ることを示しています。
ただし、以前の研究と同様に、これらのモデルは、人間の予測可能性によってキャプチャされた分散全体を考慮していません。
これらの調査結果は、その進歩にもかかわらず、最先端の言語モデルが人間の読者とは異なる方法で言語を予測し続けていることを示唆しています。

要約(オリジナル)

Recent advances in Natural Language Processing (NLP) have led to the development of highly sophisticated language models for text generation. In parallel, neuroscience has increasingly employed these models to explore cognitive processes involved in language comprehension. Previous research has shown that models such as N-grams and LSTM networks can partially account for predictability effects in explaining eye movement behaviors, specifically Gaze Duration, during reading. In this study, we extend these findings by evaluating transformer-based models (GPT2, LLaMA-7B, and LLaMA2-7B) to further investigate this relationship. Our results indicate that these architectures outperform earlier models in explaining the variance in Gaze Durations recorded from Rioplantense Spanish readers. However, similar to previous studies, these models still fail to account for the entirety of the variance captured by human predictability. These findings suggest that, despite their advancements, state-of-the-art language models continue to predict language in ways that differ from human readers.

arxiv情報

著者 Bruno Bianchi,Fermín Travi,Juan E. Kamienkowski
発行日 2025-05-16 17:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Modeling cognitive processes of natural reading with transformer-based Language Models はコメントを受け付けていません

GeoMM: On Geodesic Perspective for Multi-modal Learning

要約

測地線距離は、非線形空間で距離を測定する信頼できる手段として機能し、そのような非線形マニホールドは現在のマルチモーダル学習で一般的です。
これらのシナリオでは、いくつかのサンプルは高い類似性を示す可能性がありますが、それらは異なるセマンティクスを伝え、従来の距離メトリックを正と負のサンプルを区別するのに不十分になります。
このペーパーでは、マルチモーダル学習の新しい距離メトリックとしての測地線距離を初めて紹介し、サンプル間の相関関係を採掘し、共通の距離メトリックの制限に対処することを目指しています。
私たちのアプローチには、現在のマルチモーダル学習に測地線距離を適応させるための包括的な一連の戦略が組み込まれています。
具体的には、サンプル間の隣接関係を表すためのグラフ構造を構築し、それらの間のしきい値距離によってサンプル間の隣接関係を表し、このグラフ内の測地線距離を取得するために最短パスアルゴリズムを適用します。
効率的な計算を容易にするために、クラスタリングを通じて階層グラフ構造をさらに提案し、動的ステータスの更新のための増分更新戦略と組み合わせます。
さまざまなダウンストリームタスクにわたる広範な実験は、提案された方法の有効性を検証し、サンプル間の複雑な関係をキャプチャし、マルチモーダル学習モデルのパフォーマンスを向上させる能力を実証します。

要約(オリジナル)

Geodesic distance serves as a reliable means of measuring distance in nonlinear spaces, and such nonlinear manifolds are prevalent in the current multimodal learning. In these scenarios, some samples may exhibit high similarity, yet they convey different semantics, making traditional distance metrics inadequate for distinguishing between positive and negative samples. This paper introduces geodesic distance as a novel distance metric in multi-modal learning for the first time, to mine correlations between samples, aiming to address the limitations of common distance metric. Our approach incorporates a comprehensive series of strategies to adapt geodesic distance for the current multimodal learning. Specifically, we construct a graph structure to represent the adjacency relationships among samples by thresholding distances between them and then apply the shortest-path algorithm to obtain geodesic distance within this graph. To facilitate efficient computation, we further propose a hierarchical graph structure through clustering and combined with incremental update strategies for dynamic status updates. Extensive experiments across various downstream tasks validate the effectiveness of our proposed method, demonstrating its capability to capture complex relationships between samples and improve the performance of multimodal learning models.

arxiv情報

著者 Shibin Mei,Hang Wang,Bingbing Ni
発行日 2025-05-16 13:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GeoMM: On Geodesic Perspective for Multi-modal Learning はコメントを受け付けていません

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

要約

犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してください。
このような感覚的競合は、テスト認識をテストしますが、人間は誤解を招くビジュアルよりも音を優先することにより、それらを確実に解決します。
マルチモーダルAIの統合ビジョンとオーディオの進歩にもかかわらず、これらのシステムがクロスモーダルの競合をどのように処理するか、または1つのモダリティを支持するかどうかについてはほとんど知られていません。
この研究では、AIサウンドローカリゼーションにおけるモダリティバイアスと紛争解決を体系的に調べます。
主要なマルチモーダルモデルを評価し、合同、対立、不在のキューを含む6つの視聴覚条件にわたる精神物理学実験における人間のパフォーマンスに対してそれらをベンチマークします。
人間は一貫してAIを上回り、聴覚情報に依存することにより、矛盾する視覚または欠落している視覚を紛争または欠落していることに対して優れた回復力を示しています。
対照的に、AIモデルは、多くの場合、視覚入力をデフォルトでデフォルトで、パフォーマンスをほぼ偶然のレベルに分解します。
これに対処するために、3Dシミュレーションを介して生成されたステレオオーディオイメージデータセットを使用して、最先端のモデルをFintuneします。
トレーニングデータが限られていても、洗練されたモデルは既存のベンチマークを上回ります。
特に、人間の耳の配置を反映したステレオオーディオ構造のために、左右の精度と左右の精度 – を支持する人間のような水平局在バイアスも反映しています。
これらの調査結果は、感覚入力の品質とシステムアーキテクチャがマルチモーダル表現の精度をどのように形成するかを強調しています。

要約(オリジナル)

Imagine hearing a dog bark and turning toward the sound only to see a parked car, while the real, silent dog sits elsewhere. Such sensory conflicts test perception, yet humans reliably resolve them by prioritizing sound over misleading visuals. Despite advances in multimodal AI integrating vision and audio, little is known about how these systems handle cross-modal conflicts or whether they favor one modality. In this study, we systematically examine modality bias and conflict resolution in AI sound localization. We assess leading multimodal models and benchmark them against human performance in psychophysics experiments across six audiovisual conditions, including congruent, conflicting, and absent cues. Humans consistently outperform AI, demonstrating superior resilience to conflicting or missing visuals by relying on auditory information. In contrast, AI models often default to visual input, degrading performance to near chance levels. To address this, we finetune a state-of-the-art model using a stereo audio-image dataset generated via 3D simulations. Even with limited training data, the refined model surpasses existing benchmarks. Notably, it also mirrors human-like horizontal localization bias favoring left-right precision-likely due to the stereo audio structure reflecting human ear placement. These findings underscore how sensory input quality and system architecture shape multimodal representation accuracy.

arxiv情報

著者 Yanhao Jia,Ji Xie,S Jivaganesh,Hao Li,Xu Wu,Mengmi Zhang
発行日 2025-05-16 13:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization はコメントを受け付けていません

RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects

要約

現代の3D再構築と新しいビュー合成アプローチは、不透明なランベルトオブジェクトを使用したシーンで強力なパフォーマンスを実証しています。
ただし、ほとんどはまっすぐな光経路を想定しているため、屈折して反射材料を適切に処理できません。
さらに、これらの効果に特化したデータセットは、パフォーマンスを評価し、適切な技術を開発するための制限されたint然とした努力です。
この作業では、屈折率と反射オブジェクトを使用してシーンを再構築するための合成Refrefデータセットとベンチマークを紹介します。
私たちのデータセットには、単一材料の凸形状から多材料の非凸形状まで、さまざまな複雑さの50のオブジェクトがあり、それぞれが3つの異なる背景タイプに配置され、150シーンになります。
また、オブジェクトのジオメトリと屈折指数を考慮して、神経レンダリングの正確な光パスと、これらの仮定を回避するアプローチを計算するOracleメソッドを提案します。
これらをいくつかの最先端の方法に対してベンチマークし、すべての方法がOracleの背後に大幅に遅れることを示し、タスクとデータセットの課題を強調しています。

要約(オリジナル)

Modern 3D reconstruction and novel view synthesis approaches have demonstrated strong performance on scenes with opaque Lambertian objects. However, most assume straight light paths and therefore cannot properly handle refractive and reflective materials. Moreover, datasets specialized for these effects are limited, stymieing efforts to evaluate performance and develop suitable techniques. In this work, we introduce a synthetic RefRef dataset and benchmark for reconstructing scenes with refractive and reflective objects from posed images. Our dataset has 50 such objects of varying complexity, from single-material convex shapes to multi-material non-convex shapes, each placed in three different background types, resulting in 150 scenes. We also propose an oracle method that, given the object geometry and refractive indices, calculates accurate light paths for neural rendering, and an approach based on this that avoids these assumptions. We benchmark these against several state-of-the-art methods and show that all methods lag significantly behind the oracle, highlighting the challenges of the task and dataset.

arxiv情報

著者 Yue Yin,Enze Tao,Weijian Deng,Dylan Campbell
発行日 2025-05-16 13:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects はコメントを受け付けていません