Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs

要約

多肢選択式の質問(MCQ)の難しさは、教育評価の重要な要素です。
MCQの難易度を予測することは、正しいオプションに到達する複雑さとディストラクタの妥当性、つまり誤ったオプションの両方を理解する必要があるため、困難です。
この論文では、MCQの難しさを予測するための新しい2段階の方法を提案します。
まず、各MCQの複雑さをより適切に推定するために、大規模な言語モデル(LLM)を使用して、各オプションに到達するために必要な推論手順を強化します。
MCQ自体だけでなく、これらの推論ステップも入力として使用して、難易度を予測します。
第二に、ディストラクタの妥当性をキャプチャするために、MCQに応答する学生間の変動を説明するために、分布から知識レベルをサンプリングします。
アイテム応答理論(IRT)に触発されたこのセットアップにより、学生がそれぞれ(正確で正しくない)オプションを選択する可能性を推定できるようになります。
これらの予測は、Kullback-Leibler(KL)Divergenceベースの正規化目標を使用して、地上の真理値に合わせ、推定尤度を使用してMCQの難易度を予測します。
IRTを使用して推定されたグラウンドトゥルース難易度値を持つ2つの実世界のemph {math} MCQと応答データセットでの方法を評価します。
実験結果は、私たちの方法がすべてのベースラインよりも優れていることを示しています。平均二乗誤差の最大28.3%の減少と、測定係数の34.6 \%の改善です。
また、MCQの難易度を予測する際に、新しい方法がどのようにより高い精度をもたらすかを定性的に説明します。

要約(オリジナル)

The difficulty of multiple-choice questions (MCQs) is a crucial factor for educational assessments. Predicting MCQ difficulty is challenging since it requires understanding both the complexity of reaching the correct option and the plausibility of distractors, i.e., incorrect options. In this paper, we propose a novel, two-stage method to predict the difficulty of MCQs. First, to better estimate the complexity of each MCQ, we use large language models (LLMs) to augment the reasoning steps required to reach each option. We use not just the MCQ itself but also these reasoning steps as input to predict the difficulty. Second, to capture the plausibility of distractors, we sample knowledge levels from a distribution to account for variation among students responding to the MCQ. This setup, inspired by item response theory (IRT), enable us to estimate the likelihood of students selecting each (both correct and incorrect) option. We align these predictions with their ground truth values, using a Kullback-Leibler (KL) divergence-based regularization objective, and use estimated likelihoods to predict MCQ difficulty. We evaluate our method on two real-world \emph{math} MCQ and response datasets with ground truth difficulty values estimated using IRT. Experimental results show that our method outperforms all baselines, up to a 28.3\% reduction in mean squared error and a 34.6\% improvement in the coefficient of determination. We also qualitatively discuss how our novel method results in higher accuracy in predicting MCQ difficulty.

arxiv情報

著者 Wanyong Feng,Peter Tran,Stephen Sireci,Andrew Lan
発行日 2025-03-11 15:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs はコメントを受け付けていません

Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies

要約

近年、模倣学習や生成モデリングの進歩、拡散やフローベースのアプローチなど、印象的なロボット操作システムが駆動されています。
ロボットポリシーのパフォーマンスが向上するにつれて、達成可能なタスクの複雑さと時間の範囲も増加し、先験的に予測するのが難しい予期しない多様な障害モードを誘導します。
安全性が批判的な人間の環境で信頼できるポリシーの展開を可能にするために、ポリシーの推論中に信頼できるランタイム障害検出が重要になります。
ただし、ほとんどの既存の故障検出アプローチは、障害モードの事前知識に依存しており、トレーニング中に障害データが必要であり、実用性とスケーラビリティに大きな課題を課します。
これらの制限に応じて、模倣学習ベースのロボット操作における故障検出のためのモジュール式2段階のアプローチであるFail-detectを提示します。
成功したトレーニングデータのみから障害を正確に識別するために、問題を連続的な分散分布(OOD)検出としてフレーム化します。
最初に、ポリシーの障害と相関するスカラー信号にポリシーの入力と出力を蒸留し、認識論的不確実性をキャプチャします。
その後、Fail-retectは、統計的保証を使用した不確実性の定量化のための多用途のフレームワークとして、コンフォーマル予測(CP)を採用します。
経験的には、多様なロボット操作タスクに関する学習および事後スカラー信号候補の両方を徹底的に調査します。
私たちの実験は、特に私たちの新規の流れベースの密度推定器を使用する場合、学んだ信号がほとんど一貫して効果的であることを示しています。
さらに、当社の方法は、最先端の(SOTA)障害検出ベースラインよりも障害をより正確かつ高速に検出します。
これらの結果は、模倣学習ベースのロボットシステムの安全性と信頼性を実世界の展開に向けて進歩させる可能性を強調しています。

要約(オリジナル)

Recent years have witnessed impressive robotic manipulation systems driven by advances in imitation learning and generative modeling, such as diffusion- and flow-based approaches. As robot policy performance increases, so does the complexity and time horizon of achievable tasks, inducing unexpected and diverse failure modes that are difficult to predict a priori. To enable trustworthy policy deployment in safety-critical human environments, reliable runtime failure detection becomes important during policy inference. However, most existing failure detection approaches rely on prior knowledge of failure modes and require failure data during training, which imposes a significant challenge in practicality and scalability. In response to these limitations, we present FAIL-Detect, a modular two-stage approach for failure detection in imitation learning-based robotic manipulation. To accurately identify failures from successful training data alone, we frame the problem as sequential out-of-distribution (OOD) detection. We first distill policy inputs and outputs into scalar signals that correlate with policy failures and capture epistemic uncertainty. FAIL-Detect then employs conformal prediction (CP) as a versatile framework for uncertainty quantification with statistical guarantees. Empirically, we thoroughly investigate both learned and post-hoc scalar signal candidates on diverse robotic manipulation tasks. Our experiments show learned signals to be mostly consistently effective, particularly when using our novel flow-based density estimator. Furthermore, our method detects failures more accurately and faster than state-of-the-art (SOTA) failure detection baselines. These results highlight the potential of FAIL-Detect to enhance the safety and reliability of imitation learning-based robotic systems as they progress toward real-world deployment.

arxiv情報

著者 Chen Xu,Tony Khuong Nguyen,Emma Dixon,Christopher Rodriguez,Patrick Miller,Robert Lee,Paarth Shah,Rares Ambrus,Haruki Nishimura,Masha Itkina
発行日 2025-03-11 15:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies はコメントを受け付けていません

MoE-Loco: Mixture of Experts for Multitask Locomotion

要約

脚のロボットのマルチタスク移動のための専門家(MOE)フレームワークの混合物であるMoe-Locoを提示します。
私たちの方法により、1つのポリシーが、四葉植と二足歩行の歩行をサポートしながら、バー、ピット、階段、斜面、バッフルなどの多様な地形を処理できます。
MOEを使用して、マルチタスク補強学習で通常発生する勾配競合を緩和し、トレーニングの効率とパフォーマンスの両方を改善します。
私たちの実験は、さまざまな専門家が自然に異なる移動行動を専門とすることを示しており、タスクの移行とスキル構成に活用できることを示しています。
さらに、シミュレーションと現実世界の展開の両方でアプローチを検証し、その堅牢性と適応性を紹介します。

要約(オリジナル)

We present MoE-Loco, a Mixture of Experts (MoE) framework for multitask locomotion for legged robots. Our method enables a single policy to handle diverse terrains, including bars, pits, stairs, slopes, and baffles, while supporting quadrupedal and bipedal gaits. Using MoE, we mitigate the gradient conflicts that typically arise in multitask reinforcement learning, improving both training efficiency and performance. Our experiments demonstrate that different experts naturally specialize in distinct locomotion behaviors, which can be leveraged for task migration and skill composition. We further validate our approach in both simulation and real-world deployment, showcasing its robustness and adaptability.

arxiv情報

著者 Runhan Huang,Shaoting Zhu,Yilun Du,Hang Zhao
発行日 2025-03-11 15:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MoE-Loco: Mixture of Experts for Multitask Locomotion はコメントを受け付けていません

When Discourse Stalls: Moving Past Five Semantic Stopsigns about Generative AI in Design Research

要約

このエッセイは、生成的AI(genai)が設計の実践を急速に変換し、談話が意味のある研究と実際的な進歩を妨げる過剰な物語にしばしば該当する方法を調べます。
5つの一般的な「セマンティックストップサイン」を特定して解体します。これは、より深い調査を停止し、生産的なエンゲージメントを制限するデザインにおけるgenaiに関する還元的フレーミングです。
ACM会議での2つの専門家ワークショップと、デザイン実務家との半構造化されたインタビューを振り返って、これらの停止が研究と実践にどのように現れるかを分析します。
私たちの分析は、理論的な談話と実用的な実施を橋渡しする中間レベルの知識を開発し、デザイナーと研究者が自分の文脈においてGenaiに関する一般的な仮定を尋問するのに役立ちます。
これらの停留所をより微妙なフレームワークにリキャストすることにより、デザインリサーチコミュニティに、これらの新しいテクノロジーを考え、協力するための実用的なアプローチを提供します。

要約(オリジナル)

This essay examines how Generative AI (GenAI) is rapidly transforming design practices and how discourse often falls into over-simplified narratives that impede meaningful research and practical progress. We identify and deconstruct five prevalent ‘semantic stopsigns’ — reductive framings about GenAI in design that halt deeper inquiry and limit productive engagement. Reflecting upon two expert workshops at ACM conferences and semi-structured interviews with design practitioners, we analyze how these stopsigns manifest in research and practice. Our analysis develops mid-level knowledge that bridges theoretical discourse and practical implementation, helping designers and researchers interrogate common assumptions about GenAI in their own contexts. By recasting these stopsigns into more nuanced frameworks, we provide the design research community with practical approaches for thinking about and working with these emerging technologies.

arxiv情報

著者 Willem van der Maden,Vera van der Burg,Brett A. Halperin,Petra Jääskeläinen,Joseph Lindley,Derek Lomas,Timothy Merritt
発行日 2025-03-11 15:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | When Discourse Stalls: Moving Past Five Semantic Stopsigns about Generative AI in Design Research はコメントを受け付けていません

AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI

要約

「ごみのゴミ」は、人工知能(AI)を含むさまざまなドメインのコンピューター科学者による普遍的に合意された引用です。
データはAIの燃料であるため、低品質の偏ったデータでトレーニングされたモデルはしばしば効果がありません。
AIを使用するコンピューター科学者は、AIのデータを準備するためにかなりの時間と労力を費やします。
ただし、AIのデータの「準備」を評価するための標準的な方法やフレームワークはありません。
AIプロセスのデータの準備の定量化可能な評価を提供するために、AIデータの準備のパラメーターを定義し、AIDRIN(AI Data Readiness Inspector)を紹介します。
Aidrinは、定量的および定性的にデータの準備を評価するのに役立つ文献で利用可能な幅広い準備の次元をカバーするフレームワークです。
Aidrinは、データ評価のために完全性、外れ値、複製などの従来のデータ品質評価でメトリックを使用しています。
さらに、AIDRINは、機能の重要性、機能の相関、クラスの不均衡、プライバシー、公正(ファインド可能性、アクセシビリティ、相互運用性、再利用可能性)の原則コンプライアンスなど、AIのデータを評価するために固有のメトリックを使用しています。
Aidrinは、データの準備をさらに調査するのを支援する視覚化とレポートを提供します。
Aidrinフレームワークは、機械学習パイプラインの効率を高め、AIアプリケーションのデータ準備に関する情報に基づいた決定を下します。

要約(オリジナル)

‘Garbage In Garbage Out’ is a universally agreed quote by computer scientists from various domains, including Artificial Intelligence (AI). As data is the fuel for AI, models trained on low-quality, biased data are often ineffective. Computer scientists who use AI invest a considerable amount of time and effort in preparing the data for AI. However, there are no standard methods or frameworks for assessing the ‘readiness’ of data for AI. To provide a quantifiable assessment of the readiness of data for AI processes, we define parameters of AI data readiness and introduce AIDRIN (AI Data Readiness Inspector). AIDRIN is a framework covering a broad range of readiness dimensions available in the literature that aid in evaluating the readiness of data quantitatively and qualitatively. AIDRIN uses metrics in traditional data quality assessment such as completeness, outliers, and duplicates for data evaluation. Furthermore, AIDRIN uses metrics specific to assess data for AI, such as feature importance, feature correlations, class imbalance, fairness, privacy, and FAIR (Findability, Accessibility, Interoperability, and Reusability) principle compliance. AIDRIN provides visualizations and reports to assist data scientists in further investigating the readiness of data. The AIDRIN framework enhances the efficiency of the machine learning pipeline to make informed decisions on data readiness for AI applications.

arxiv情報

著者 Kaveen Hiniduma,Suren Byna,Jean Luca Bez,Ravi Madduri
発行日 2025-03-11 15:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI はコメントを受け付けていません

Training-Free Message Passing for Learning on Hypergraphs

要約

ハイパーグラフは、実際のデータの高次相互作用をモデル化するために重要です。
Hypergraph Neural Networks(HNNS)は、メッセージの通過によりこれらの構造を効果的に利用して、ノード分類などのさまざまな下流タスクの有益なノード機能を生成します。
ただし、既存のHNNのメッセージを渡すメッセージには通常、計算集中トレーニングプロセスが必要であり、実用的な使用が制限されます。
この課題に取り組むために、モデル学習段階からのハイパーグラフ構造情報の使用を切り離すことにより、代替アプローチを提案します。
これにより、TF-MPモジュールという名前の新しいトレーニングなしのメッセージパスモジュールにつながります。これは、データの前処理段階で事前に計算できるため、計算負担が軽減されます。
TF-MPモジュールを装備したハイパーグラフニューラルネットワークをTF-HNNと呼びます。
次のことを示すことにより、TF-HNNの効率と有効性を理論的にサポートしています。1)既存のHNNと比較してトレーニング効率が高い。
2)ノード機能生成に既存のHNNと同じように多くの情報を利用します。
3)長距離相互作用を使用しながら、滑走の過剰問題に対して堅牢です。
ノード分類とハイパーリンク予測の7つの現実世界のハイパーグラフベンチマークに基づく実験は、最先端のHNNと比較して、TF-HNNが競争力のあるパフォーマンスと優れたトレーニング効率の両方を示すことを示しています。
具体的には、大規模なベンチマークでは、Trivago、TF-HNNは、ベースラインのトレーニング時間のわずか1%で、最高のベースラインのノード分類精度を10%上回ります。

要約(オリジナル)

Hypergraphs are crucial for modelling higher-order interactions in real-world data. Hypergraph neural networks (HNNs) effectively utilise these structures by message passing to generate informative node features for various downstream tasks like node classification. However, the message passing module in existing HNNs typically requires a computationally intensive training process, which limits their practical use. To tackle this challenge, we propose an alternative approach by decoupling the usage of hypergraph structural information from the model learning stage. This leads to a novel training-free message passing module, named TF-MP-Module, which can be precomputed in the data preprocessing stage, thereby reducing the computational burden. We refer to the hypergraph neural network equipped with our TF-MP-Module as TF-HNN. We theoretically support the efficiency and effectiveness of TF-HNN by showing that: 1) It is more training-efficient compared to existing HNNs; 2) It utilises as much information as existing HNNs for node feature generation; and 3) It is robust against the oversmoothing issue while using long-range interactions. Experiments based on seven real-world hypergraph benchmarks in node classification and hyperlink prediction show that, compared to state-of-the-art HNNs, TF-HNN exhibits both competitive performance and superior training efficiency. Specifically, on the large-scale benchmark, Trivago, TF-HNN outperforms the node classification accuracy of the best baseline by 10% with just 1% of the training time of that baseline.

arxiv情報

著者 Bohan Tang,Zexi Liu,Keyue Jiang,Siheng Chen,Xiaowen Dong
発行日 2025-03-11 16:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP, stat.ML | Training-Free Message Passing for Learning on Hypergraphs はコメントを受け付けていません

Hypergraph Structure Inference From Data Under Smoothness Prior

要約

ハイパーグラフは、2つ以上のエンティティを含む高次関係を持つデータを処理するために重要です。
明示的なハイパーグラフが容易に入手できないシナリオでは、データ内の内在性関係をキャプチャするために、ノード機能から意味のあるハイパーグラフ構造を推測することが望ましいです。
ただし、既存の方法は、潜在的なハイパーグラフ構造の分布を正確にキャプチャできない単純な事前定義ルールを採用するか、ハイパーグラフ構造とノード機能の間のマッピングを学習しますが、トレーニング用のハイパーグラフ構造の既存のラベル付きデータが必要です。
どちらも実際のシナリオでアプリケーションを制限します。
このギャップを埋めるために、監督としてラベル付けされたデータなしで各潜在的なハイパーエッジの確率を推測する方法を設計できるようにする、新しい滑らかさを提案します。
提案されている事前は、ハイパーエッジのノードの特徴が、それらを含むハイパーエッジの特徴によって高度に相関していることを示しています。
これを使用して、ハイパーグラフ構造とノード機能との関係を確率モデリングを介して導き出します。
これにより、分析解決策を備えた最適化問題を解決することにより、各潜在的なハイパーエッジの確率を推定するために、監視されていない推論方法を開発することができます。
合成データと現実世界の両方のデータの実験は、我々の方法が既存のハイパーグラフ構造推論方法よりも効率的にデータから意味のあるハイパーグラフ構造を学習できることを示しています。

要約(オリジナル)

Hypergraphs are important for processing data with higher-order relationships involving more than two entities. In scenarios where explicit hypergraphs are not readily available, it is desirable to infer a meaningful hypergraph structure from the node features to capture the intrinsic relations within the data. However, existing methods either adopt simple pre-defined rules that fail to precisely capture the distribution of the potential hypergraph structure, or learn a mapping between hypergraph structures and node features but require a large amount of labelled data, i.e., pre-existing hypergraph structures, for training. Both restrict their applications in practical scenarios. To fill this gap, we propose a novel smoothness prior that enables us to design a method to infer the probability for each potential hyperedge without labelled data as supervision. The proposed prior indicates features of nodes in a hyperedge are highly correlated by the features of the hyperedge containing them. We use this prior to derive the relation between the hypergraph structure and the node features via probabilistic modelling. This allows us to develop an unsupervised inference method to estimate the probability for each potential hyperedge via solving an optimisation problem that has an analytical solution. Experiments on both synthetic and real-world data demonstrate that our method can learn meaningful hypergraph structures from data more efficiently than existing hypergraph structure inference methods.

arxiv情報

著者 Bohan Tang,Siheng Chen,Xiaowen Dong
発行日 2025-03-11 16:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI, eess.SP, stat.ML | Hypergraph Structure Inference From Data Under Smoothness Prior はコメントを受け付けていません

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

要約

以前の研究では、言語モデルがステレオタイプ化されたバイアスを示すことが確立されています。
反事実的なデータ、表現の投影を備えたモデルを再訓練するなどの既存の債務戦略、およびプロンプトは、バイアスを効率的に排除したり、モデルのバイアスな内部表現を直接変更したりすることができないことがよくあります。
これらの問題に対処するために、パラメーターの更新を生成するために編集者として機能する軽量ネットワークを介して、言語モデルからステレオタイプのバイアスを削除する効率的なモデル編集方法であるBiasedITを提案します。
Biaseditは、委員会の編集能力を編集中に保持損失を介して編集能力を維持しながら、委員会モデルの部分的なパラメーターについてローカルな編集を実施するために、委員会のガイドガイドエディターネットワークを採用しています。
ステレオーセットとカラスのペアの実験は、タンジン型の衰弱ベースラインと比較してバイアスを排除する際の偏見の有効性、効率、および堅牢性を示しており、言語モデルの一般的な能力への影響はほとんどありません。
さらに、さまざまなモジュールでバイアスをプローブするためのバイアストレースを実施し、言語モデルのさまざまなコンポーネントへのバイアスの編集への影響を調査します。

要約(オリジナル)

Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models’ biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models’ general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.

arxiv情報

著者 Xin Xu,Wei Xu,Ningyu Zhang,Julian McAuley
発行日 2025-03-11 16:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | BiasEdit: Debiasing Stereotyped Language Models via Model Editing はコメントを受け付けていません

EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments

要約

自然言語によって制御される自律型ホームロボットの開発は、長い間人間の追求でした。
大規模な言語モデル(LLMS)と具体化されたインテリジェンスの進歩により、この目標が近づいていますが、いくつかの課題は持続します。より複雑なロボットタスクの統一ベンチマークの欠如、限られた評価方法とメトリック、LLMSとモバイル操作の軌跡間のデータの互換性。
これらの問題に対処するために、オープン環境で具体化されたモバイル操作(EMMOE)を導入します。これにより、エージェントはユーザーの命令を解釈し、連続空間で毎日のタスクを実行する必要があります。
Emmoeは、より多様な評価のための3つの新しいメトリックとともに、高レベルと低レベルの具体化されたタスクを統合フレームワークにシームレスに統合します。
さらに、さまざまなタスク属性、詳細なプロセスアノテーション、障害後の再プラン、およびLLMトレーニングの2つのサブデータセットを特徴とするEMMOE-100を収集します。
さらに、洗練されたエージェントシステムであるHomieBotを設計し、直接優先最適化(DPO)、軽量のナビゲーションおよび操作モデル、および複数のエラー検出メカニズムを備えたLLMで構成されています。
最後に、Homiebotのパフォーマンスとさまざまなモデルとポリシーの評価を実証します。

要約(オリジナル)

Developing autonomous home robots controlled by natural language has long been a pursuit of human. While advancements in large language models (LLMs) and embodied intelligence make this goal closer, several challenges persist: the lack of a unified benchmark for more complex robot tasks, limited evaluation methods and metrics, data incompatibility between LLMs and mobile manipulation trajectories. To address these issues, we introduce Embodied Mobile Manipulation in Open Environments (EMMOE), which requires agents to interpret user instructions and execute long-horizon everyday tasks in continuous space. EMMOE seamlessly integrates high-level and low-level embodied tasks into a unified framework, along with three new metrics for more diverse assessment. Additionally, we collect EMMOE-100, which features in various task attributes, detailed process annotations, re-plans after failures, and two sub-datasets for LLM training. Furthermore, we design HomieBot, a sophisticated agent system consists of LLM with Direct Preference Optimization (DPO), light weighted navigation and manipulation models, and multiple error detection mechanisms. Finally, we demonstrate HomieBot’s performance and the evaluation of different models and policies.

arxiv情報

著者 Dongping Li,Tielong Cai,Tianci Tang,Wenhao Chai,Katherine Rose Driggs-Campbell,Gaoang Wang
発行日 2025-03-11 16:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments はコメントを受け付けていません

A Grid Cell-Inspired Structured Vector Algebra for Cognitive Maps

要約

閉塞性産卵型層は、哺乳類の脳の航海システムであり、グリッドセルを介して物理的および抽象的な空間の両方をコードしています。
このシステムは神経科学によく研究されており、その効率と汎用性により、ロボット工学と機械学習のアプリケーションにとって魅力的です。
連続アトラクタネットワーク(缶)は、物理的空間をエンコードするために根茎グリッドセルを正常にモデル化しますが、連続空間的および抽象的な空間計算の両方を統合されたフレームワークに統合することは依然として困難です。
ここでは、缶とベクターのシンボリックアーキテクチャ(VSA)に触発された眼型卵胞形成における汎用性のある情報処理の機械的モデルを提案することにより、このギャップを橋渡ししようとします。
新規グリッドセルVSA(GC-VSA)モデルは、3Dニューロンモジュールを使用して空間的に構造化されたエンコードスキームを採用しており、グリッドセルモジュールの離散スケールと方向を模倣し、特徴的な六角形受容フィールドを再現しています。
実験では、モデルは空間的および抽象的なタスクの汎用性を示しています。(1)追跡位置の正確なパス統合、(2)オブジェクトの位置と時間的関係を照会するための空間的表現、および(3)家系の構造的なテストケースとして家系を使用した象徴的推論。

要約(オリジナル)

The entorhinal-hippocampal formation is the mammalian brain’s navigation system, encoding both physical and abstract spaces via grid cells. This system is well-studied in neuroscience, and its efficiency and versatility make it attractive for applications in robotics and machine learning. While continuous attractor networks (CANs) successfully model entorhinal grid cells for encoding physical space, integrating both continuous spatial and abstract spatial computations into a unified framework remains challenging. Here, we attempt to bridge this gap by proposing a mechanistic model for versatile information processing in the entorhinal-hippocampal formation inspired by CANs and Vector Symbolic Architectures (VSAs), a neuro-symbolic computing framework. The novel grid-cell VSA (GC-VSA) model employs a spatially structured encoding scheme with 3D neuronal modules mimicking the discrete scales and orientations of grid cell modules, reproducing their characteristic hexagonal receptive fields. In experiments, the model demonstrates versatility in spatial and abstract tasks: (1) accurate path integration for tracking locations, (2) spatio-temporal representation for querying object locations and temporal relations, and (3) symbolic reasoning using family trees as a structured test case for hierarchical relationships.

arxiv情報

著者 Sven Krausse,Emre Neftci,Friedrich T. Sommer,Alpha Renner
発行日 2025-03-11 16:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, q-bio.NC | A Grid Cell-Inspired Structured Vector Algebra for Cognitive Maps はコメントを受け付けていません