Expertise Is What We Want

要約

臨床的意思決定は、標準化された証拠に基づいたガイドラインによって導かれる専門家の推論に依存します。
ただし、これらのガイドラインを自動化された臨床意思決定支援システムに変換すると、不正確さと重要なことには、ニュアンスの喪失が危険にさらされます。
大規模な言語モデル(LLM)の柔軟性とパワーを、専門家システムの解釈可能性、説明可能性、信頼性を組み合わせたアプリケーションアーキテクチャである大規模な言語エキスパート(LLE)を共有します。
LLMSは、知識の統合や成文化など、専門家システムの重要な課題に対処するのに役立ちます。
逆に、専門家のシステムのようなアプローチは、幻覚、原子的および安価な更新、テスト可能性など、LLMの課題を克服するのに役立ちます。
大規模な言語専門家(LLE)システムの力を強調するために、癌と新たに診断された患者の精密検査を支援するためにLLEを構築しました。
癌治療のタイムリーな開始は、最適な患者の転帰にとって重要です。
しかし、診断の推奨事項の複雑さを高めることで、プライマリケアの医師が腫瘍医との最初の訪問の前に患者が必要な精密検査を完了するようにすることが困難になりました。
多くの現実世界の臨床タスクと同様に、これらの精密検査では、構造化されていない健康記録の分析と微妙な臨床決定ロジックの適用が必要です。
この研究では、正しい診断の精密検査を迅速に特定し、提案するように構築されたLLEシステムの設計と評価について説明します。
このシステムは、高度な臨床レベルの精度(> 95%)を実証し、大きな学術センターの乳がん患者と結腸癌患者の実際のデータで特定されたギャップに効果的に対処しました。

要約(オリジナル)

Clinical decision-making depends on expert reasoning, which is guided by standardized, evidence-based guidelines. However, translating these guidelines into automated clinical decision support systems risks inaccuracy and importantly, loss of nuance. We share an application architecture, the Large Language Expert (LLE), that combines the flexibility and power of Large Language Models (LLMs) with the interpretability, explainability, and reliability of Expert Systems. LLMs help address key challenges of Expert Systems, such as integrating and codifying knowledge, and data normalization. Conversely, an Expert System-like approach helps overcome challenges with LLMs, including hallucinations, atomic and inexpensive updates, and testability. To highlight the power of the Large Language Expert (LLE) system, we built an LLE to assist with the workup of patients newly diagnosed with cancer. Timely initiation of cancer treatment is critical for optimal patient outcomes. However, increasing complexity in diagnostic recommendations has made it difficult for primary care physicians to ensure their patients have completed the necessary workup before their first visit with an oncologist. As with many real-world clinical tasks, these workups require the analysis of unstructured health records and the application of nuanced clinical decision logic. In this study, we describe the design & evaluation of an LLE system built to rapidly identify and suggest the correct diagnostic workup. The system demonstrated a high degree of clinical-level accuracy (>95%) and effectively addressed gaps identified in real-world data from breast and colon cancer patients at a large academic center.

arxiv情報

著者 Alan Ashworth,Munir Al-Dajani,Keegan Duchicela,Kiril Kafadarov,Allison Kurian,Othman Laraki,Amina Lazrak,Divneet Mandair,Wendy McKennon,Rebecca Miksad,Jayodita Sanghvi,Travis Zack
発行日 2025-02-27 18:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Expertise Is What We Want はコメントを受け付けていません

Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners

要約

最近の進歩により、テスト時に計算リソースをスケーリングすることにより、大規模な言語モデル(LLMS)のパフォーマンスが大幅に向上できることが実証されています。
一般的な戦略には、複数の考え方(COT)の軌跡を生成し、さまざまな選択メカニズムを介して出力を集約することが含まれます。
これは基本的な疑問を提起します。複雑さが低いモデルは、優れた生成スループットを活用して、固定計算予算のために同様にサイズの変圧器を上回ることができますか?
この質問に対処し、強力なサブクアドラティックな推論者の欠如を克服するために、純粋なマンバモデルとハイブリッドマンバモデルを前処理された変圧器から蒸留します。
わずか80億トークンでトレーニングされた当社の蒸留モデルは、大きなバッチと長いシーケンスの推論ではるかに高速であると同時に、数学的推論データセットの強力なパフォーマンスとスケーリングを示しています。
蒸留によるゼロショットのパフォーマンスヒットにもかかわらず、純粋なMAMBAモデルとハイブリッドMAMBAモデルの両方が、固定時間予算の下で変圧器の教師モデルを通過してカバレッジと精度のパフォーマンスを拡大し、スケーリング推論のための新しい方向性を開きます。

要約(オリジナル)

Recent advancements have demonstrated that the performance of large language models (LLMs) can be significantly enhanced by scaling computational resources at test time. A common strategy involves generating multiple Chain-of-Thought (CoT) trajectories and aggregating their outputs through various selection mechanisms. This raises a fundamental question: can models with lower complexity leverage their superior generation throughput to outperform similarly sized Transformers for a fixed computational budget? To address this question and overcome the lack of strong subquadratic reasoners, we distill pure and hybrid Mamba models from pretrained Transformers. Trained on only 8 billion tokens, our distilled models show strong performance and scaling on mathematical reasoning datasets while being much faster at inference for large batches and long sequences. Despite the zero-shot performance hit due to distillation, both pure and hybrid Mamba models can scale their coverage and accuracy performance past their Transformer teacher models under fixed time budgets, opening a new direction for scaling inference compute.

arxiv情報

著者 Daniele Paliotta,Junxiong Wang,Matteo Pagliardini,Kevin Y. Li,Aviv Bick,J. Zico Kolter,Albert Gu,François Fleuret,Tri Dao
発行日 2025-02-27 18:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners はコメントを受け付けていません

Naturalistic Computational Cognitive Science: Towards generalizable models and theories that capture the full range of natural behavior

要約

人工知能は、ますます現実的なドメイン内で多くのタスクを実行する大規模で複雑なモデルをますます追求しています。
もしあれば、AIのこれらの発展は認知科学にどのように影響するべきでしょうか?
AIの進歩は、ますます自然主義的な刺激、タスク、および行動を伴う実験を受け入れるための認知科学にタイムリーな機会を提供すると主張します。
これらの変更に対応できる計算モデル。
最初に、神経科学、認知科学、およびAIにまたがる増加している研究団体をレビューします。これは、より広範な自然主義的実験パラダイム(およびそれらに対応するモデル)を組み込むことが、自然知能のいくつかの側面を解決し、理論が一般化することを保証するために必要になる可能性があることを示唆しています。
次に、AIと認知科学の最近の進歩を統合することで、実験的制御や理論的に根拠のある理解の追求を放棄することなく、より自然主義的な現象に関与することができることをお勧めします。
方法論的実践が自然主義的な計算認知科学の累積的な進歩にどのように貢献できるかについての実用的なガイダンスを提供し、自然認知の実際の問題を解決する計算モデルを構築するための道を示しています。

要約(オリジナル)

Artificial Intelligence increasingly pursues large, complex models that perform many tasks within increasingly realistic domains. How, if at all, should these developments in AI influence cognitive science? We argue that progress in AI offers timely opportunities for cognitive science to embrace experiments with increasingly naturalistic stimuli, tasks, and behaviors; and computational models that can accommodate these changes. We first review a growing body of research spanning neuroscience, cognitive science, and AI that suggests that incorporating a broader range of naturalistic experimental paradigms (and models that accommodate them) may be necessary to resolve some aspects of natural intelligence and ensure that our theories generalize. We then suggest that integrating recent progress in AI and cognitive science will enable us to engage with more naturalistic phenomena without giving up experimental control or the pursuit of theoretically grounded understanding. We offer practical guidance on how methodological practices can contribute to cumulative progress in naturalistic computational cognitive science, and illustrate a path towards building computational models that solve the real problems of natural cognition – together with a reductive understanding of the processes and principles by which they do so.

arxiv情報

著者 Wilka Carvalho,Andrew Lampinen
発行日 2025-02-27 18:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC | Naturalistic Computational Cognitive Science: Towards generalizable models and theories that capture the full range of natural behavior はコメントを受け付けていません

Towards Responsible AI in Education: Hybrid Recommendation System for K-12 Students Case Study

要約

教育技術(EDTECH)の成長により、各学生のニーズに合わせた人工知能(AI)ベースの推奨システムを通じて、高度にパーソナライズされた学習体験が可能になりました。
ただし、これらのシステムは意図せずにバイアスを導入し、学習リソースへの公正なアクセスを制限する可能性があります。
この研究では、グラフベースのモデリングとマトリックス因数分解を組み合わせて、課外活動、学習リソース、ボランティア活動の機会にパーソナライズされた提案を提供するK-12の学生向けの推奨システムを提示します。
公平性の懸念に対処するために、システムには、保護された学生グループ全体のフィードバックを分析することにより、バイアスを検出および削減するフレームワークが含まれています。
この作業は、すべての学生にとって公平で透明性があり、効果的な学習機会をサポートするための教育的推奨システムで継続的な監視の必要性を強調しています。

要約(オリジナル)

The growth of Educational Technology (EdTech) has enabled highly personalized learning experiences through Artificial Intelligence (AI)-based recommendation systems tailored to each student needs. However, these systems can unintentionally introduce biases, potentially limiting fair access to learning resources. This study presents a recommendation system for K-12 students, combining graph-based modeling and matrix factorization to provide personalized suggestions for extracurricular activities, learning resources, and volunteering opportunities. To address fairness concerns, the system includes a framework to detect and reduce biases by analyzing feedback across protected student groups. This work highlights the need for continuous monitoring in educational recommendation systems to support equitable, transparent, and effective learning opportunities for all students.

arxiv情報

著者 Nazarii Drushchak,Vladyslava Tyshchenko,Nataliya Polyakovska
発行日 2025-02-27 18:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Responsible AI in Education: Hybrid Recommendation System for K-12 Students Case Study はコメントを受け付けていません

Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs

要約

Hessel et al。
(2023)のニューヨーカー漫画キャプションコンテスト(NYCCC)に関する影響力のある作品。
彼らの研究は、ユーモアの理解においてLLMと人間の間に大きなギャップをもたらし、創造的なコンテンツを理解し、評価することがAI開発における重要な課題であることを確立しました。
ユーモアの理解を3つのコンポーネントに分解し、それぞれを体系的に改善することにより、この課題を再検討します。注釈の改善、LLM生成のユーモアの推論と説明を利用し、人間の好みデータとのターゲットアライメントを実装することで視覚的理解を強化します。
洗練されたアプローチは、キャ​​プションランキングの82.4%の精度を達成し、以前の67%のベンチマークを独力で改善し、このドメインの世界的に有名な人間の専門家のパフォーマンスを一致させます。
特に、さまざまなペルソナプロンプトを介してサブグループの好みを模倣しようとする試みは最小限の影響を示しましたが、群​​衆の好みを備えたモデルの微調整は非常に効果的であることが判明しました。
これらの調査結果は、創造的な判断におけるLLMの制限は、特定のサブグループと個人への集中的な整合を通じて効果的に対処できることを明らかにしています。
最後に、人工的な一般情報を達成するには、創造的なドメイン全体で人間の好みデータの体系的な収集が必要であるという立場を提案します。
私たちは、人間の創造性が個人的および文化的な好みに深く影響されているように、多様な人間の好みデータでLLMを訓練することが真の創造的理解を開発するために不可欠かもしれないと主張しています。

要約(オリジナル)

Large Language Models (LLMs) have shown significant limitations in understanding creative content, as demonstrated by Hessel et al. (2023)’s influential work on the New Yorker Cartoon Caption Contest (NYCCC). Their study exposed a substantial gap between LLMs and humans in humor comprehension, establishing that understanding and evaluating creative content is key challenge in AI development. We revisit this challenge by decomposing humor understanding into three components and systematically improve each: enhancing visual understanding through improved annotation, utilizing LLM-generated humor reasoning and explanations, and implementing targeted alignment with human preference data. Our refined approach achieves 82.4% accuracy in caption ranking, singificantly improving upon the previous 67% benchmark and matching the performance of world-renowned human experts in this domain. Notably, while attempts to mimic subgroup preferences through various persona prompts showed minimal impact, model finetuning with crowd preferences proved remarkably effective. These findings reveal that LLM limitations in creative judgment can be effectively addressed through focused alignment to specific subgroups and individuals. Lastly, we propose the position that achieving artificial general intelligence necessitates systematic collection of human preference data across creative domains. We advocate that just as human creativity is deeply influenced by individual and cultural preferences, training LLMs with diverse human preference data may be essential for developing true creative understanding.

arxiv情報

著者 Kuan Lok Zhou,Jiayi Chen,Siddharth Suresh,Reuben Narad,Timothy T. Rogers,Lalit K Jain,Robert D Nowak,Bob Mankoff,Jifan Zhang
発行日 2025-02-27 18:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs はコメントを受け付けていません

Bridging Legal Knowledge and AI: Retrieval-Augmented Generation with Vector Stores, Knowledge Graphs, and Hierarchical Non-negative Matrix Factorization

要約

検索された生成(RAG)、ナレッジグラフ(KGS)、およびベクターストア(VSS)を備えた大規模な言語モデル(LLMS)を搭載したエージェント生成AIは、法的システム、研究、推奨システム、サイバーセキュリティ、グローバルセキュリティなどの専門ドメインに適用される変換技術を表します。
この技術は、広大な非構造化または半構造化データセット内の関係を推測することに優れています。
ここでの法的領域は、複雑な関係を備えた広範な、相互に関連し、半構造化された知識システムを特徴とする複雑なデータで構成されています。
憲法、法令、規制、判例法で構成されています。
洞察を抽出し、法的文書とその関係の複雑なネットワークをナビゲートすることは、効果的な法的研究のために重要です。
ここでは、法的情報の検索とAIの推論を強化し、幻覚を最小化するために、非陰性マトリックス因数分解(NMF)を介して構築されたRAG、VS、およびKGを統合する生成AIシステムを導入します。
法制度では、これらのテクノロジーは、AIエージェントがケース、法令、法的先例間の複雑なつながりを特定して分析し、隠された関係を明らかにし、正義を確保し、運用効率を改善するために不可欠な法的傾向に挑戦するタスクを予測できるようにします。
当社のシステムは、Webスクレイピングテクニックを採用して、Justiaなどの公開可能なプラットフォームから、法令、憲法規定、判例法などの法的テキストを体系的に収集します。
高度なセマンティック表現、階層的な関係、潜在的なトピックの発見を活用することにより、従来のキーワードベースの検索とコンテキストの理解との間のギャップを埋めます。
このフレームワークは、計算法とAIを進めながら、半構造化データのスケーラブルで解釈可能かつ正確な検索のために、法的文書のクラスタリング、要約、および相互参照をサポートします。

要約(オリジナル)

Agentic Generative AI, powered by Large Language Models (LLMs) with Retrieval-Augmented Generation (RAG), Knowledge Graphs (KGs), and Vector Stores (VSs), represents a transformative technology applicable to specialized domains such as legal systems, research, recommender systems, cybersecurity, and global security, including proliferation research. This technology excels at inferring relationships within vast unstructured or semi-structured datasets. The legal domain here comprises complex data characterized by extensive, interrelated, and semi-structured knowledge systems with complex relations. It comprises constitutions, statutes, regulations, and case law. Extracting insights and navigating the intricate networks of legal documents and their relations is crucial for effective legal research. Here, we introduce a generative AI system that integrates RAG, VS, and KG, constructed via Non-Negative Matrix Factorization (NMF), to enhance legal information retrieval and AI reasoning and minimize hallucinations. In the legal system, these technologies empower AI agents to identify and analyze complex connections among cases, statutes, and legal precedents, uncovering hidden relationships and predicting legal trends-challenging tasks that are essential for ensuring justice and improving operational efficiency. Our system employs web scraping techniques to systematically collect legal texts, such as statutes, constitutional provisions, and case law, from publicly accessible platforms like Justia. It bridges the gap between traditional keyword-based searches and contextual understanding by leveraging advanced semantic representations, hierarchical relationships, and latent topic discovery. This framework supports legal document clustering, summarization, and cross-referencing, for scalable, interpretable, and accurate retrieval for semi-structured data while advancing computational law and AI.

arxiv情報

著者 Ryan C. Barron,Maksim E. Eren,Olga M. Serafimova,Cynthia Matuszek,Boian S. Alexandrov
発行日 2025-02-27 18:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Bridging Legal Knowledge and AI: Retrieval-Augmented Generation with Vector Stores, Knowledge Graphs, and Hierarchical Non-negative Matrix Factorization はコメントを受け付けていません

PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

要約

大規模な言語モデル(LLM)の推論と検索機能を評価するためには、高品質のベンチマークが不可欠です。
ただし、この目的のためにデータセットをキュレーションすることは、データの漏れやパフォーマンスの結果が膨らむ傾向があるため、永続的な解決策ではありません。
これらの課題に対処するために、Phantomwikiを提案します。パイプラインでは、多様な質問回答ペアを持つユニークで事実上一貫した文書コーパスを生成します。
以前の作業とは異なり、Phantomwikiは固定データセットではなく、既存のデータに基づいていません。
代わりに、各評価に対して新しいPhantomwikiインスタンスがオンデマンドで生成されます。
問題の難易度とコーパスのサイズは、それぞれ推論と検索機能をそれぞれ解きほぐすことで変化させます。Phantomwikiデータセットは、フロンティアLLMSにとって驚くほど困難であることがわかります。
したがって、推論、検索、およびツール使用能力を解き放つ評価のためのスケーラブルおよびデータリーク耐性フレームワークを提供します。
私たちのコードは、https://github.com/kilian-group/phantom-wikiで入手できます。

要約(オリジナル)

High-quality benchmarks are essential for evaluating reasoning and retrieval capabilities of large language models (LLMs). However, curating datasets for this purpose is not a permanent solution as they are prone to data leakage and inflated performance results. To address these challenges, we propose PhantomWiki: a pipeline to generate unique, factually consistent document corpora with diverse question-answer pairs. Unlike prior work, PhantomWiki is neither a fixed dataset, nor is it based on any existing data. Instead, a new PhantomWiki instance is generated on demand for each evaluation. We vary the question difficulty and corpus size to disentangle reasoning and retrieval capabilities respectively, and find that PhantomWiki datasets are surprisingly challenging for frontier LLMs. Thus, we contribute a scalable and data leakage-resistant framework for disentangled evaluation of reasoning, retrieval, and tool-use abilities. Our code is available at https://github.com/kilian-group/phantom-wiki.

arxiv情報

著者 Albert Gong,Kamilė Stankevičiūtė,Chao Wan,Anmol Kabra,Raphael Thesmar,Johann Lee,Julius Klenke,Carla P. Gomes,Kilian Q. Weinberger
発行日 2025-02-27 18:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation はコメントを受け付けていません

Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers

要約

テスト時により多くの計算リソースを利用することにより、追加のトレーニングなしで大規模な言語モデル(LLMS)が改善できます。
1つの一般的な戦略では、検証剤を使用して候補の出力を評価します。
この作業では、テスト時間計算の新しいスケーリングディメンション:検証剤の数をスケーリングすることを提案します。
マルチエージェント検証(MAV)を、複数の検証剤を組み合わせてパフォーマンスを向上させるテスト時間計算パラダイムとして紹介します。
Aspect Verifiers(AVS)を使用して、既製のLLMSを使用して、MAVシステムの検証剤の可能な選択肢の1つとして、出力のさまざまな側面を検証するように求められます。
AVSは、追加のトレーニングなしで簡単に組み合わせることができるため、MAVにとって便利なビルディングブロックです。
さらに、Bon-Mavは、Best-of-nサンプリングと複数の検証剤を組み合わせた単純なマルチエージェント検証アルゴリズムを紹介します。
Bon-Mavは、自己整合性と報酬モデルの検証よりも強力なスケーリングパターンを示し、弱い検証剤を組み合わせることでさらに強いLLMを改善する弱いから強い一般化の両方を示します。
私たちの結果は、テスト時に言語モデルのパフォーマンスを改善するための有望な新しい次元として検証剤の数をスケーリングすることを確立します。

要約(オリジナル)

By utilizing more computational resources at test-time, large language models (LLMs) can improve without additional training. One common strategy uses verifiers to evaluate candidate outputs. In this work, we propose a novel scaling dimension for test-time compute: scaling the number of verifiers. We introduce Multi-Agent Verification (MAV) as a test-time compute paradigm that combines multiple verifiers to improve performance. We propose using Aspect Verifiers (AVs), off-the-shelf LLMs prompted to verify different aspects of outputs, as one possible choice for the verifiers in a MAV system. AVs are a convenient building block for MAV since they can be easily combined without additional training. Moreover, we introduce BoN-MAV, a simple multi-agent verification algorithm that combines best-of-n sampling with multiple verifiers. BoN-MAV demonstrates stronger scaling patterns than self-consistency and reward model verification, and we demonstrate both weak-to-strong generalization, where combining weak verifiers improves even stronger LLMs, and self-improvement, where the same base model is used to both generate and verify outputs. Our results establish scaling the number of verifiers as a promising new dimension for improving language model performance at test-time.

arxiv情報

著者 Shalev Lifshitz,Sheila A. McIlraith,Yilun Du
発行日 2025-02-27 18:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers はコメントを受け付けていません

Multi-Turn Code Generation Through Single-Step Rewards

要約

マルチターン実行フィードバックからのコード生成の問題に対処します。
既存の方法は、フィードバックなしでコードを生成するか、複雑で階層的な強化学習を使用して、マルチターン報酬を最適化します。
シンプルでありながらスケーラブルなアプローチ、$ \ MU $コードを提案します。これは、単一ステップの報酬のみを使用してマルチターンコード生成を解決します。
私たちの重要な洞察は、コード生成はワンステップ回復可能なMDPであり、1回のターンで任意の中間コード状態から正しいコードを回復できるということです。
$ \ MU $コードは、マルチターン実行フィードバックを条件付けたコードソリューションと、新しく生成されたコードを採点する検証器を提供するジェネレーターの両方を繰り返しトレーニングします。
実験的評価は、私たちのアプローチが最先端のベースラインよりも大幅な改善を達成することを示しています。
報酬モデルとポリシーの設計選択の分析を提供し、実行フィードバックを利用して$ \ mu $コードの有効性を示します。
私たちのコードは、https://github.com/portal-cornell/mucodeで入手できます。

要約(オリジナル)

We address the problem of code generation from multi-turn execution feedback. Existing methods either generate code without feedback or use complex, hierarchical reinforcement learning to optimize multi-turn rewards. We propose a simple yet scalable approach, $\mu$Code, that solves multi-turn code generation using only single-step rewards. Our key insight is that code generation is a one-step recoverable MDP, where the correct code can be recovered from any intermediate code state in a single turn. $\mu$Code iteratively trains both a generator to provide code solutions conditioned on multi-turn execution feedback and a verifier to score the newly generated code. Experimental evaluations show that our approach achieves significant improvements over the state-of-the-art baselines. We provide analysis of the design choices of the reward models and policy, and show the efficacy of $\mu$Code at utilizing the execution feedback. Our code is available at https://github.com/portal-cornell/muCode.

arxiv情報

著者 Arnav Kumar Jain,Gonzalo Gonzalez-Pumariega,Wayne Chen,Alexander M Rush,Wenting Zhao,Sanjiban Choudhury
発行日 2025-02-27 18:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Multi-Turn Code Generation Through Single-Step Rewards はコメントを受け付けていません

Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization

要約

物理学ベースのシミュレーション、人間のデモンストレーション、およびモデルベースの計画を統合する低コストのデータ生成パイプラインを提示し、接触豊富なロボット操作タスクのための大規模で高品質のデータセットを効率的に生成します。
仮想現実シミュレーション環境で収集された少数の具体化された柔軟性のないヒトデモンストレーションから始めて、パイプラインは、さまざまなロボットの実施形態と物理的パラメーターに適応するために、最適化ベースの運動学的リターゲティングと軌跡の最適化を使用してこれらのデモンストレーションを改良します。
このプロセスは、交差体拡大データ転送を可能にする多様で物理的に一貫したデータセットを生成し、さまざまなハードウェア構成または物理パラメーターで収集されたレガシーデータセットを再利用する可能性を提供します。
生成されたデータセットから拡散ポリシーをトレーニングすることにより、パイプラインの有効性を検証し、フローティングアレグロハンドや両マニュアルロボットアームを含む複数のロボットの実施形態にわたる接触豊富な操作タスクに挑戦します。
訓練されたポリシーは、二近IIWAアームのハードウェアにゼロショットを展開し、人間の入力を最小限に抑えて高い成功率を達成します。
プロジェクトWebサイト:https://lujieyang.github.io/physicsgen/。

要約(オリジナル)

We present a low-cost data generation pipeline that integrates physics-based simulation, human demonstrations, and model-based planning to efficiently generate large-scale, high-quality datasets for contact-rich robotic manipulation tasks. Starting with a small number of embodiment-flexible human demonstrations collected in a virtual reality simulation environment, the pipeline refines these demonstrations using optimization-based kinematic retargeting and trajectory optimization to adapt them across various robot embodiments and physical parameters. This process yields a diverse, physically consistent dataset that enables cross-embodiment data transfer, and offers the potential to reuse legacy datasets collected under different hardware configurations or physical parameters. We validate the pipeline’s effectiveness by training diffusion policies from the generated datasets for challenging contact-rich manipulation tasks across multiple robot embodiments, including a floating Allegro hand and bimanual robot arms. The trained policies are deployed zero-shot on hardware for bimanual iiwa arms, achieving high success rates with minimal human input. Project website: https://lujieyang.github.io/physicsgen/.

arxiv情報

著者 Lujie Yang,H. J. Terry Suh,Tong Zhao,Bernhard Paus Graesdal,Tarik Kelestemur,Jiuguang Wang,Tao Pang,Russ Tedrake
発行日 2025-02-27 18:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization はコメントを受け付けていません