Representation Retrieval Learning for Heterogeneous Data Integration

要約

ビッグデータの時代では、大規模でマルチモーダルデータセットがますます遍在しており、予測モデリングと科学的発見の前例のない機会を提供しています。
ただし、これらのデータセットは、既存の予測アルゴリズムの精度を妨げる可能性のある、共変量シフト、事後ドリフト、モダリティの欠落など、複雑な不均一性を示すことがよくあります。
これらの課題に対処するために、表現学習モジュール(代表者)をスパース誘発機械学習モデル(学習者)と統合する新しい表現検索($ r^2 $)フレームワークを提案します。
さらに、学習代表者に使用される効果的なデータソースを特徴とする代表者の「統合性」の概念を紹介し、プロパティを明示的に改善するための選択的統合ペナルティ(SIP)を提案します。
理論的には、$ r^2 $フレームワークがマルチタスク学習における従来のフルシェアリングの仮定を緩和し、部分的に共有された構造を可能にし、SIPが過剰なリスクバウンドの収束率を改善できることを実証します。
広範なシミュレーション研究は、フレームワークの経験的パフォーマンスを検証し、2つの実際のデータセットへのアプリケーションが既存のアプローチに対する優位性をさらに確認します。

要約(オリジナル)

In the era of big data, large-scale, multi-modal datasets are increasingly ubiquitous, offering unprecedented opportunities for predictive modeling and scientific discovery. However, these datasets often exhibit complex heterogeneity, such as covariate shift, posterior drift, and missing modalities, that can hinder the accuracy of existing prediction algorithms. To address these challenges, we propose a novel Representation Retrieval ($R^2$) framework, which integrates a representation learning module (the representer) with a sparsity-induced machine learning model (the learner). Moreover, we introduce the notion of ‘integrativeness’ for representers, characterized by the effective data sources used in learning representers, and propose a Selective Integration Penalty (SIP) to explicitly improve the property. Theoretically, we demonstrate that the $R^2$ framework relaxes the conventional full-sharing assumption in multi-task learning, allowing for partially shared structures, and that SIP can improve the convergence rate of the excess risk bound. Extensive simulation studies validate the empirical performance of our framework, and applications to two real-world datasets further confirm its superiority over existing approaches.

arxiv情報

著者 Qi Xu,Annie Qu
発行日 2025-03-13 16:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Representation Retrieval Learning for Heterogeneous Data Integration はコメントを受け付けていません

MastermindEval: A Simple But Scalable Reasoning Benchmark

要約

大規模な言語モデル(LLM)の最近の進歩により、幅広い言語の理解と数学的タスクにわたって顕著なパフォーマンスが発生しました。
その結果、LLMSの真の推論能力の評価に注意が高まっています。
ただし、OpenaiのO1やDeepseekのR1などの推論に焦点を当てたモデルの急速な進歩により、進行中のモデル開発に対応できる推論ベンチマークに対する需要が高まっています。
この論文では、ボードゲームの首謀者に触発されたシンプルでスケーラブルで解釈可能な演ductiveな推論ベンチマークであるMasterMindevalを紹介します。
私たちのベンチマークは、モデルが自律的にゲームを再生するエージェント評価、および(2)推測する可能性のある有効なコードのみを備えた事前にプレイされたゲーム状態を与えられる演ductive的な推論評価の2つの評価パラダイムをサポートしています。
実験結果では、(1)簡単な首謀者インスタンスでさえ現在のモデルにとって困難であることを発見し、(2)ベンチマークが将来的により高度なモデルにとってスケーラブルであることを示しています。さらに、モデルが最終的なソリューションを推定できない理由を調査し、現在のモデルが情報を組み合わせる声明の数として隠されたコードを推定する際に現在のモデルが制限されていることを発見します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have led to remarkable performance across a wide range of language understanding and mathematical tasks. As a result, increasing attention has been given to assessing the true reasoning capabilities of LLMs, driving research into commonsense, numerical, logical, and qualitative reasoning. However, with the rapid progress of reasoning-focused models such as OpenAI’s o1 and DeepSeek’s R1, there has been a growing demand for reasoning benchmarks that can keep pace with ongoing model developments. In this paper, we introduce MastermindEval, a simple, scalable, and interpretable deductive reasoning benchmark inspired by the board game Mastermind. Our benchmark supports two evaluation paradigms: (1) agentic evaluation, in which the model autonomously plays the game, and (2) deductive reasoning evaluation, in which the model is given a pre-played game state with only one possible valid code to infer. In our experimental results we (1) find that even easy Mastermind instances are difficult for current models and (2) demonstrate that the benchmark is scalable to possibly more advanced models in the future Furthermore, we investigate possible reasons why models cannot deduce the final solution and find that current models are limited in deducing the concealed code as the number of statement to combine information from is increasing.

arxiv情報

著者 Jonas Golde,Patrick Haller,Fabio Barth,Alan Akbik
発行日 2025-03-13 14:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MastermindEval: A Simple But Scalable Reasoning Benchmark はコメントを受け付けていません

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

要約

長いビデオのビデオ質問応答(VQA)は、関連する情報を抽出し、多くの冗長フレームから長距離依存関係をモデリングするという重要な課題を提起します。
自己関節メカニズムは、シーケンスモデリングの一般的なソリューションを提供しますが、長いビデオで膨大な数の空間的トークンに適用すると、法外なコストがあります。
ほとんどの先行方法は、スパースフレームサンプリングを介して入力長を削減したり、時空プーリングを介して大規模な言語モデル(LLM)に渡された出力シーケンスを圧縮したりするなど、計算コストを削減するための圧縮戦略に依存しています。
ただし、これらの素朴なアプローチは、冗長な情報を過剰に表現し、顕著なイベントや急速に発生する時空パターンを見逃します。
この作業では、長型のビデオを処理するための効率的な状態空間モデルであるBimbaを紹介します。
私たちのモデルは、選択的スキャンアルゴリズムを活用して、高次元ビデオから重要な情報を効果的に選択し、効率的なLLM処理のために縮小トークンシーケンスに変換することを学習します。
広範な実験は、BimbaがPerception、Next-QA、Egoschema、Vnbench、Longvideobench、Video-Mmeなど、複数の長型VQAベンチマークで最先端の精度を達成することを示しています。
コードとモデルは、https://sites.google.com/view/bimba-mllmで公開されています。

要約(オリジナル)

Video Question Answering (VQA) in long videos poses the key challenge of extracting relevant information and modeling long-range dependencies from many redundant frames. The self-attention mechanism provides a general solution for sequence modeling, but it has a prohibitive cost when applied to a massive number of spatiotemporal tokens in long videos. Most prior methods rely on compression strategies to lower the computational cost, such as reducing the input length via sparse frame sampling or compressing the output sequence passed to the large language model (LLM) via space-time pooling. However, these naive approaches over-represent redundant information and often miss salient events or fast-occurring space-time patterns. In this work, we introduce BIMBA, an efficient state-space model to handle long-form videos. Our model leverages the selective scan algorithm to learn to effectively select critical information from high-dimensional video and transform it into a reduced token sequence for efficient LLM processing. Extensive experiments demonstrate that BIMBA achieves state-of-the-art accuracy on multiple long-form VQA benchmarks, including PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench, and Video-MME. Code, and models are publicly available at https://sites.google.com/view/bimba-mllm.

arxiv情報

著者 Md Mohaiminul Islam,Tushar Nagarajan,Huiyu Wang,Gedas Bertasius,Lorenzo Torresani
発行日 2025-03-13 17:14:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BIMBA: Selective-Scan Compression for Long-Range Video Question Answering はコメントを受け付けていません

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

要約

スコア蒸留サンプリング(SDS)は、テキストから3Dの世代などのタスクに2D拡散前のプレアを活用するための効果的な手法として浮上しています。
強力ですが、SDSはユーザーの意図に微調整されたアライメントを達成することに苦労しています。
これを克服するために、報酬モデルからのアライメントスコアに基づいてノイズサンプルを重み付けし、加重SDS損失を生成する新しいアプローチであるRewardsdsを導入します。
この損失は、高報酬の出力を整列させるノイズサンプルからの勾配を優先します。
私たちのアプローチは広く適用可能であり、SDSベースの方法を拡張できます。
特に、rewardVSDを導入することにより、変分スコア蒸留(VSD)への適用性を示します。
テキストからイメージ、2D編集、およびテキストから3Dの世代タスクに関する報酬とrewardVSDを評価します。SDSおよびVSDの大幅な改善は、生成品質と希望の報酬モデルを測定する多様なメトリックのセットを示し、最先端のパフォーマンスを可能にします。
プロジェクトページは、https://itaychachy.github.io/reward-sds/で入手できます。

要約(オリジナル)

Score Distillation Sampling (SDS) has emerged as an effective technique for leveraging 2D diffusion priors for tasks such as text-to-3D generation. While powerful, SDS struggles with achieving fine-grained alignment to user intent. To overcome this, we introduce RewardSDS, a novel approach that weights noise samples based on alignment scores from a reward model, producing a weighted SDS loss. This loss prioritizes gradients from noise samples that yield aligned high-reward output. Our approach is broadly applicable and can extend SDS-based methods. In particular, we demonstrate its applicability to Variational Score Distillation (VSD) by introducing RewardVSD. We evaluate RewardSDS and RewardVSD on text-to-image, 2D editing, and text-to-3D generation tasks, showing significant improvements over SDS and VSD on a diverse set of metrics measuring generation quality and alignment to desired reward models, enabling state-of-the-art performance. Project page is available at https://itaychachy.github.io/reward-sds/.

arxiv情報

著者 Itay Chachy,Guy Yariv,Sagie Benaim
発行日 2025-03-13 13:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling はコメントを受け付けていません

2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos

要約

オブジェクトと相互作用する場合、人間は、意図したアクション、つまりオブジェクトのアフォーダンス領域に対してどのオブジェクトの領域が実行可能であるかについて事実上、効果的に推論します。
また、実行されるタスクに基づいて、オブジェクト領域の微妙な違いや、1つまたは2つの手を使用する必要があるかどうかを説明することもできます。
ただし、現在の視力ベースのアフォーダンス予測方法は、多くの場合、問題を素朴なオブジェクトパーツセグメンテーションに減らします。
この作業では、人間の活動ビデオデータセットからアフォーダンスデータを抽出するためのフレームワークを提案します。
抽出された2handsデータセットには、実行されるアクティビティのナレーションとして、正確なオブジェクトアフォーダンス領域セグメンテーションとアフォーダンスクラスラベルが含まれています。
データはまた、両手の行動、つまり、1つ以上のオブジェクトを調整し、相互作用する両手を説明します。
VLMベースのアフォーダンス予測モデルである2Handedafforderを提示し、データセットで訓練され、さまざまなアクティビティのアフォーダンス地域セグメンテーションのベースラインよりも優れたパフォーマンスを示します。
最後に、予測されたアフォーダンス領域が実行可能であることを示しています。つまり、ロボット操作シナリオのデモンストレーションを通じて、タスクを実行するエージェントが使用できることを示します。

要約(オリジナル)

When interacting with objects, humans effectively reason about which regions of objects are viable for an intended action, i.e., the affordance regions of the object. They can also account for subtle differences in object regions based on the task to be performed and whether one or two hands need to be used. However, current vision-based affordance prediction methods often reduce the problem to naive object part segmentation. In this work, we propose a framework for extracting affordance data from human activity video datasets. Our extracted 2HANDS dataset contains precise object affordance region segmentations and affordance class-labels as narrations of the activity performed. The data also accounts for bimanual actions, i.e., two hands co-ordinating and interacting with one or more objects. We present a VLM-based affordance prediction model, 2HandedAfforder, trained on the dataset and demonstrate superior performance over baselines in affordance region segmentation for various activities. Finally, we show that our predicted affordance regions are actionable, i.e., can be used by an agent performing a task, through demonstration in robotic manipulation scenarios.

arxiv情報

著者 Marvin Heidinger,Snehal Jauhri,Vignesh Prasad,Georgia Chalvatzaki
発行日 2025-03-13 06:35:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | 2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos はコメントを受け付けていません

PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator

要約

特にシミュレーション環境では、自律運転剤のテストに関する最近の研究が大幅に増加しています。
カーラシミュレーターは多くの場合、好ましい選択であり、カーラリーダーボードチャレンジの自律エージェントは、この環境内で最高のパフォーマンスのエージェントと見なされています。
ただし、これらのエージェントをゼロからトレーニングするのではなく、これらのエージェントをテストする研究者は、カスタマイズされたテスト環境やシナリオ内でそれらを利用する際に課題に直面することがよくあります。
これらの課題に対処するために、リーダーボードの課題からの9つの高性能の事前訓練を受けた自律エージェントを含むオープンソースPythonテストフレームワークであるPCLA(前処理されたカーラリーダーボードエージェント)を紹介します。
PCLAは、任意のカーラ環境/シナリオでさまざまな自律エージェントをテストするために特別に設計された最初のインフラストラクチャです。
PCLAは、リーダーボードコードベースに頼らずにリーダーボードエージェントを車両に展開する簡単な方法を提供します。これにより、研究者はカーラバージョンやプログラミング環境の変更を必要とせずにエージェントを簡単に切り替えることができます。
PCLAはhttps://github.com/masoudjtehrani/pclaで公開されています。

要約(オリジナル)

Recent research on testing autonomous driving agents has grown significantly, especially in simulation environments. The CARLA simulator is often the preferred choice, and the autonomous agents from the CARLA Leaderboard challenge are regarded as the best-performing agents within this environment. However, researchers who test these agents, rather than training their own ones from scratch, often face challenges in utilizing them within customized test environments and scenarios. To address these challenges, we introduce PCLA (Pretrained CARLA Leaderboard Agents), an open-source Python testing framework that includes nine high-performing pre-trained autonomous agents from the Leaderboard challenges. PCLA is the first infrastructure specifically designed for testing various autonomous agents in arbitrary CARLA environments/scenarios. PCLA provides a simple way to deploy Leaderboard agents onto a vehicle without relying on the Leaderboard codebase, it allows researchers to easily switch between agents without requiring modifications to CARLA versions or programming environments, and it is fully compatible with the latest version of CARLA while remaining independent of the Leaderboard’s specific CARLA version. PCLA is publicly accessible at https://github.com/MasoudJTehrani/PCLA.

arxiv情報

著者 Masoud Jamshidiyan Tehrani,Jinhan Kim,Paolo Tonella
発行日 2025-03-13 09:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE, cs.SY, eess.SY | PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator はコメントを受け付けていません

Large Language Models for Multi-Facility Location Mechanism Design

要約

エージェントの好みに基づいてソーシャルコストを最適化する多目的位置のための戦略的なメカニズムの設計は、必要な広範なドメイン知識と最悪のケースの保証が低いために困難でした。
最近、ディープラーニングモデルが代替案として提案されています。
ただし、これらのモデルには、ドメインの知識と広範なハイパーパラメーターの調整、および解釈可能性が不足している必要があります。これは、学習メカニズムの透明性が必須である場合に実際に重要です。
この論文では、LLMMECHという名前の新しいアプローチを紹介します。これは、大規模な言語モデル(LLM)を、解釈可能なハイパーパラメーターフリー、経験的に戦略的、ほぼ最適なメカニズムを生成するための進化的フレームワークに組み込むことにより、これらの制限に対処します。
私たちの実験結果は、社会的コストがエージェント全体で任意に重み付けされ、エージェントの好みが均一に分布していないさまざまな問題設定で評価され、LLM生成メカニズムが一般に既存の手作りのベースラインと深い学習モデルを上回ることを示しています。
さらに、このメカニズムは、分散剤の好みと、より多くのエージェントを持つより大きなインスタンスに印象的な一般化可能性を示します。

要約(オリジナル)

Designing strategyproof mechanisms for multi-facility location that optimize social costs based on agent preferences had been challenging due to the extensive domain knowledge required and poor worst-case guarantees. Recently, deep learning models have been proposed as alternatives. However, these models require some domain knowledge and extensive hyperparameter tuning as well as lacking interpretability, which is crucial in practice when transparency of the learned mechanisms is mandatory. In this paper, we introduce a novel approach, named LLMMech, that addresses these limitations by incorporating large language models (LLMs) into an evolutionary framework for generating interpretable, hyperparameter-free, empirically strategyproof, and nearly optimal mechanisms. Our experimental results, evaluated on various problem settings where the social cost is arbitrarily weighted across agents and the agent preferences may not be uniformly distributed, demonstrate that the LLM-generated mechanisms generally outperform existing handcrafted baselines and deep learning models. Furthermore, the mechanisms exhibit impressive generalizability to out-of-distribution agent preferences and to larger instances with more agents.

arxiv情報

著者 Nguyen Thach,Fei Liu,Houyu Zhou,Hau Chan
発行日 2025-03-13 05:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Large Language Models for Multi-Facility Location Mechanism Design はコメントを受け付けていません

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

要約

Openai-O1やDeepseek-R1などの大規模な言語モデル(RLLM)を使用した推論の最近の進歩は、数学やコーディングなどの複雑なドメインで印象的な能力を実証しています。
彼らの成功の中心的な要因は、推論能力を高め、複雑な問題の解決を可能にする長い考え方(長いCOT)特性の適用にあります。
ただし、これらの開発にもかかわらず、長いCOTに関する包括的な調査はまだ不足しており、従来の短いチェーン(短いCOT)との区別についての理解を制限し、「考え直し」や「テストタイムスケーリング」などの問題に関する継続的な議論を複雑にしています。
この調査では、長いCOTに関する統一された視点を提供することにより、このギャップを埋めようとしています。
(1)最初に長いベッドベッドと短いCOTを区別し、現在の推論パラダイムを分類するための新しい分類法を導入します。
(2)次に、長いCOTの重要な特性を調査します。深い推論、広範な探求、および実現可能な反射を調査します。これにより、モデルはより複雑なタスクを処理し、より浅い短いCOTと比較してより効率的でコヒーレントな結果を生成できます。
(3)次に、長いCOTの出現などの重要な現象を調査し、考え直しやテスト時間スケーリングを含むこれらの特性を備えており、これらのプロセスが実際にどのように現れるかについての洞察を提供します。
(4)最後に、重要な研究ギャップを特定し、マルチモーダル推論の統合、効率の改善、強化された知識フレームワークなど、有望な将来の方向性を強調します。
構造化された概要を提供することにより、この調査は、将来の研究を促し、人工知能における論理的推論の開発を促進することを目的としています。

要約(オリジナル)

Recent advancements in reasoning with large language models (RLLMs), such as OpenAI-O1 and DeepSeek-R1, have demonstrated their impressive capabilities in complex domains like mathematics and coding. A central factor in their success lies in the application of long chain-of-thought (Long CoT) characteristics, which enhance reasoning abilities and enable the solution of intricate problems. However, despite these developments, a comprehensive survey on Long CoT is still lacking, limiting our understanding of its distinctions from traditional short chain-of-thought (Short CoT) and complicating ongoing debates on issues like ‘overthinking’ and ‘test-time scaling.’ This survey seeks to fill this gap by offering a unified perspective on Long CoT. (1) We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms. (2) Next, we explore the key characteristics of Long CoT: deep reasoning, extensive exploration, and feasible reflection, which enable models to handle more complex tasks and produce more efficient, coherent outcomes compared to the shallower Short CoT. (3) We then investigate key phenomena such as the emergence of Long CoT with these characteristics, including overthinking, and test-time scaling, offering insights into how these processes manifest in practice. (4) Finally, we identify significant research gaps and highlight promising future directions, including the integration of multi-modal reasoning, efficiency improvements, and enhanced knowledge frameworks. By providing a structured overview, this survey aims to inspire future research and further the development of logical reasoning in artificial intelligence.

arxiv情報

著者 Qiguang Chen,Libo Qin,Jinhao Liu,Dengyun Peng,Jiannan Guan,Peng Wang,Mengkang Hu,Yuhang Zhou,Te Gao,Wanxiang Che
発行日 2025-03-13 04:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models はコメントを受け付けていません

The R2D2 Deep Neural Network Series for Scalable Non-Cartesian Magnetic Resonance Imaging

要約

磁気共鳴イメージング(MRI)における高度に加速した非カテーシア語Kスペース取得から高速かつスケーラブルな画像再構築のために、R2D2ディープニューラルネットワーク(DNN)シリーズパラダイムを導入します。
展開されているDNNアーキテクチャは、データコンシンジェンシー層を介して堅牢な画像形成アプローチを提供しますが、DNNに不均一な高速フーリエ変換演算子を埋め込むことは、大規模なコイルを使用して2D MRIで、または高次元の想像力を備えた大規模でトレーニングするのに非実用的になります。
測定設定に盲目的に学んだ除去者をデータコンシンジェンシーステップで交互にするプラグアンドプレイアプローチは、この制限の影響を受けませんが、それらの非常に反復的な性質はゆっくりとした再構成を意味します。
このスケーラビリティチャレンジに対処するために、最近導入されたR2D2パラダイムを活用して、電波天文学の大規模なフーリエイメージングの超高速再構成を可能にします。
R2D2の再構成は、以前の反復データを入力として残留するDNNモジュールの出力として繰り返し推定される一連の残留画像として形成されます。
この方法は、一致する追求アルゴリズムの学習バージョンとして解釈できます。
一連のR2D2 DNNモジュールは、FastMRIデータセットで監視された方法で連続的にトレーニングされ、シミュレーションおよび実際のデータで2DマルチコイルMRIについて検証され、高度にサンプリングされていないラジアルKスペースサンプリングをターゲットにしました。
結果は、DNNSが少ないシリーズが、その展開された化身R2D2-NET(トレーニングもはるかにスケーラブルではない)よりも優れた再構成の品質を達成し、最先端の拡散ベースの「分解された拡散サンプラー」アプローチ(より遅い再構成プロセスを特徴とする)よりも達成することを示唆しています。

要約(オリジナル)

We introduce the R2D2 Deep Neural Network (DNN) series paradigm for fast and scalable image reconstruction from highly-accelerated non-Cartesian k-space acquisitions in Magnetic Resonance Imaging (MRI). While unrolled DNN architectures provide a robust image formation approach via data-consistency layers, embedding non-uniform fast Fourier transform operators in a DNN can become impractical to train at large scale, e.g in 2D MRI with a large number of coils, or for higher-dimensional imaging. Plug-and-play approaches that alternate a learned denoiser blind to the measurement setting with a data-consistency step are not affected by this limitation but their highly iterative nature implies slow reconstruction. To address this scalability challenge, we leverage the R2D2 paradigm that was recently introduced to enable ultra-fast reconstruction for large-scale Fourier imaging in radio astronomy. R2D2’s reconstruction is formed as a series of residual images iteratively estimated as outputs of DNN modules taking the previous iteration’s data residual as input. The method can be interpreted as a learned version of the Matching Pursuit algorithm. A series of R2D2 DNN modules were sequentially trained in a supervised manner on the fastMRI dataset and validated for 2D multi-coil MRI in simulation and on real data, targeting highly under-sampled radial k-space sampling. Results suggest that a series with only few DNNs achieves superior reconstruction quality over its unrolled incarnation R2D2-Net (whose training is also much less scalable), and over the state-of-the-art diffusion-based ‘Decomposed Diffusion Sampler’ approach (also characterised by a slower reconstruction process).

arxiv情報

著者 Yiwei Chen,Amir Aghabiglou,Shijie Chen,Motahare Torki,Chao Tang,Ruud B. van Heeswijk,Yves Wiaux
発行日 2025-03-13 09:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, eess.SP | The R2D2 Deep Neural Network Series for Scalable Non-Cartesian Magnetic Resonance Imaging はコメントを受け付けていません

HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots

要約

ヒューマノイドロボットの知覚システム設計は、深刻な自己閉塞と限られた視野(FOV)を引き起こす固有の構造的制約のために、独特の課題をもたらします。
これらの限界を克服するためにパノラマビジョンとライダーセンシングを相乗的に統合する新しいハイブリッドクロスモーダル知覚フレームワークであるヒューマノイドパノを提示します。
単眼カメラや標準的なマルチセンサー構成に依存する従来のロボット認識システムとは異なり、この方法は、球面視覚変圧器を介して幾何学的に認識されたモダリティアライメントを確立し、Lidarの正確な深さ測定と360の視覚的コンテキストのシームレスな融合を可能にします。
第一に、球状の幾何学的制約(SGC)パノラマカメラレイプロパティを活用して、幾何学的アライメントのための歪み正規化サンプリングオフセットを導きます。
第二に、空間変形可能な注意(SDA)は、球形のオフセットを介して階層3D機能を集約し、幾何学的に完全なオブジェクト表現と効率的な360 {\ deg}からfusionを有効にします。
第三に、パノラマの増強(AUG)は、データ増強中のBEVパノラマの特徴の一貫性を強化するために、クロスビュー変換とセマンティックアライメントを組み合わせています。
広範な評価は、360Bev-Matterportベンチマークで最先端のパフォーマンスを示しています。
ヒューマノイドプラットフォームでの実際の展開は、システムの機能を検証して、複雑な環境でのダウンストリームナビゲーションタスクを直接有効にするパノラマライダーの共同認知を通じて、正確なBEVセグメンテーションマップを生成します。
私たちの仕事は、ヒューマノイドロボット工学における具体化された知覚のための新しいパラダイムを確立します。

要約(オリジナル)

The perceptual system design for humanoid robots poses unique challenges due to inherent structural constraints that cause severe self-occlusion and limited field-of-view (FOV). We present HumanoidPano, a novel hybrid cross-modal perception framework that synergistically integrates panoramic vision and LiDAR sensing to overcome these limitations. Unlike conventional robot perception systems that rely on monocular cameras or standard multi-sensor configurations, our method establishes geometrically-aware modality alignment through a spherical vision transformer, enabling seamless fusion of 360 visual context with LiDAR’s precise depth measurements. First, Spherical Geometry-aware Constraints (SGC) leverage panoramic camera ray properties to guide distortion-regularized sampling offsets for geometric alignment. Second, Spatial Deformable Attention (SDA) aggregates hierarchical 3D features via spherical offsets, enabling efficient 360{\deg}-to-BEV fusion with geometrically complete object representations. Third, Panoramic Augmentation (AUG) combines cross-view transformations and semantic alignment to enhance BEV-panoramic feature consistency during data augmentation. Extensive evaluations demonstrate state-of-the-art performance on the 360BEV-Matterport benchmark. Real-world deployment on humanoid platforms validates the system’s capability to generate accurate BEV segmentation maps through panoramic-LiDAR co-perception, directly enabling downstream navigation tasks in complex environments. Our work establishes a new paradigm for embodied perception in humanoid robotics.

arxiv情報

著者 Qiang Zhang,Zhang Zhang,Wei Cui,Jingkai Sun,Jiahang Cao,Yijie Guo,Gang Han,Wen Zhao,Jiaxu Wang,Chenghao Sun,Lingfeng Zhang,Hao Cheng,Yujie Chen,Lin Wang,Jian Tang,Renjing Xu
発行日 2025-03-13 03:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots はコメントを受け付けていません