BigO(Bench) — Can LLMs Generate Code with Controlled Time and Space Complexity?

要約

指定された時間と空間の複雑さを伴うコードの理解と生成において、生成言語モデルの機能を評価するために設計された新しいコーディングベンチマークであるBigo(Bench)を紹介します。
このベンチマークは、モデルが計算の複雑さによって制約されたコードを理解および生成する能力をしばしば見落とす現在の評価のギャップに対処します。
BIGO(ベンチ)には、ヒトまたはLLM生成ソリューションを含むプロファイリング測定からのPython関数のアルゴリズムの複雑さを推測するためのツールが含まれています。
BIGO(Bench)には、3,105のコーディング問題のセットと、複雑さフレームワークから推測された(合成)時間と空間の複雑さが注釈が付けられたコードコンテストからの1,190,250のソリューション、および多数の入力サイズのセットの対応するランタイムとメモリフットプリント値も含まれています。
このベンチマークで複数の最先端の言語モデルを評価し、複雑さの要件を処理する際の長所と短所を強調した結果を示します。
特に、トークン空間推論モデルはコード生成では比類のないが、複雑さの理解ではないため、トレーニング時に報酬が与えられなかったタスクによく一般化できない可能性があることを示唆しています。

要約(オリジナル)

We introduce BigO(Bench), a novel coding benchmark designed to evaluate the capabilities of generative language models in understanding and generating code with specified time and space complexities. This benchmark addresses the gap in current evaluations that often overlook the ability of models to comprehend and produce code constrained by computational complexity. BigO(Bench) includes tooling to infer the algorithmic complexity of any Python function from profiling measurements, including human- or LLM-generated solutions. BigO(Bench) also includes of set of 3,105 coding problems and 1,190,250 solutions from Code Contests annotated with inferred (synthetic) time and space complexity labels from the complexity framework, as well as corresponding runtime and memory footprint values for a large set of input sizes. We present results from evaluating multiple state-of-the-art language models on this benchmark, highlighting their strengths and weaknesses in handling complexity requirements. In particular, token-space reasoning models are unrivaled in code generation but not in complexity understanding, hinting that they may not generalize well to tasks for which no reward was given at training time.

arxiv情報

著者 Pierre Chambon,Baptiste Roziere,Benoit Sagot,Gabriel Synnaeve
発行日 2025-03-20 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL | BigO(Bench) — Can LLMs Generate Code with Controlled Time and Space Complexity? はコメントを受け付けていません

Entity-aware Cross-lingual Claim Detection for Automated Fact-checking

要約

検証を必要とするクレームを特定することは、特にソーシャルメディアプラットフォームでの誤った情報の拡散を考えると、自動化された事実確認における重要なタスクです。
タスクの大幅な進歩にもかかわらず、オンライン談話で一般的な多言語データやマルチモーダルデータを扱うなど、開かれた課題が残っています。
多言語の課題に対処するために、最近の努力は、事前に訓練された多言語モデルの微調整に焦点を当てています。
これらのモデルは複数の言語を処理できますが、ソーシャルメディアに広がるクレームを検出するために、言語間知識を効果的に転送する能力は依然として推奨されていません。
この論文では、あらゆる言語で書かれたクレームを処理するためによく一般化するエンティティを意識しているクロスリングルクレーム検出モデルであるEx-Claimを紹介します。
このモデルは、指定されたエンティティ認識とエンティティから派生したエンティティ情報を活用し、テクニックをリンクして、トレーニング中に見られた言語と目に見えない両方の言語の言語レベルのパフォーマンスを改善します。
さまざまなソーシャルメディアプラットフォームの3つのデータセットで実施された広範な実験は、提案されたモデルが27の言語でベースラインを大幅に上回り、トレーニングデータが限られていても、最高の知識転送を達成することを示しています。

要約(オリジナル)

Identifying claims requiring verification is a critical task in automated fact-checking, especially given the proliferation of misinformation on social media platforms. Despite significant progress in the task, there remain open challenges such as dealing with multilingual and multimodal data prevalent in online discourse. Addressing the multilingual challenge, recent efforts have focused on fine-tuning pre-trained multilingual language models. While these models can handle multiple languages, their ability to effectively transfer cross-lingual knowledge for detecting claims spreading on social media remains under-explored. In this paper, we introduce EX-Claim, an entity-aware cross-lingual claim detection model that generalizes well to handle claims written in any language. The model leverages entity information derived from named entity recognition and entity linking techniques to improve the language-level performance of both seen and unseen languages during training. Extensive experiments conducted on three datasets from different social media platforms demonstrate that our proposed model significantly outperforms the baselines, across 27 languages, and achieves the highest rate of knowledge transfer, even with limited training data.

arxiv情報

著者 Rrubaa Panchendrarajan,Arkaitz Zubiaga
発行日 2025-03-20 11:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Entity-aware Cross-lingual Claim Detection for Automated Fact-checking はコメントを受け付けていません

Sample Efficient Preference Alignment in LLMs via Active Exploration

要約

嗜好ベースのフィードバックは、報酬機能の評価が実行不可能な機械学習における多くのアプリケーションにとって重要です。
注目すべき最近の例は、人間のフィードバック(RLHF)からの補強学習や直接選好最適化(DPO)を含む、大規模な言語モデルの優先アライメントで発生します。
優先アライメントの多くのアプリケーションでは、人間のフィードバックを取得するコストは相当な場合があります。
この作業では、多くの場合、人間のフィードバックを得るためのコンテキストを選択して、最も効率的に優れたポリシーを特定し、設定をアクティブなコンテキストの決闘の盗賊問題として形式化できるという事実を利用します。
データを効率的に選択し、多項式最悪のケース後悔があるという理論的証明を提供するためのアクティブな探索アルゴリズムを提案します。
大規模な言語モデルの好みのアラインメントにおいて、実践のための設定と方法論を拡張します。
オンラインとオフラインアプローチの2つの拡張機能を提供します。
私たちの方法は、いくつかの言語モデルでの人間の好みのサンプルが限られているベースラインと、文献に貢献する2つの新しいデータセットを含む4つの実際のデータセットを上回ります。

要約(オリジナル)

Preference-based feedback is important for many applications in machine learning where evaluation of a reward function is not feasible. Notable recent examples arise in preference alignment for large language models, including in reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). For many applications of preference alignment, the cost of acquiring human feedback can be substantial. In this work, we take advantage of the fact that one can often choose contexts at which to obtain human feedback to most efficiently identify a good policy, and formalize the setting as an active contextual dueling bandit problem. We propose an active exploration algorithm to efficiently select the data and provide theoretical proof that it has a polynomial worst-case regret bound. We extend the setting and methodology for practical use in preference alignment of large language models. We provide two extensions, an online and an offline approach. Our method outperforms the baselines with limited samples of human preferences on several language models and four real-world datasets including two new datasets that we contribute to the literature.

arxiv情報

著者 Viraj Mehta,Syrine Belakaria,Vikramjeet Das,Ojash Neopane,Yijia Dai,Ilija Bogunovic,Barbara Engelhardt,Stefano Ermon,Jeff Schneider,Willie Neiswanger
発行日 2025-03-20 14:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Sample Efficient Preference Alignment in LLMs via Active Exploration はコメントを受け付けていません

Tangles: Unpacking Extended Collision Experiences with Soma Trajectories

要約

私たちは、ロボットと衝突するという考えを再評価し、衝突を避けたり緩和しようとする位置から、それらを人間の相互作用の重要な側面と見なしている位置に移動します。
私たちの体がテレプレゼンスロボット、モビリティエイズ、および四足込んでいるロボットとどのように衝突するかを探求する相馬デザインワークショップについて報告します。
私たちの調査結果に基づいて、私たちは相馬の軌跡を採用して、衝突を分析し、同意、準備、打ち上げ、接触、リップル、刺し傷、解説、残骸、反射の重要な移行を交渉する拡張経験として分析しました。
次に、これらのアイデアを採用して、2つの衝突体験、人とドローンの間の偶発的な衝突と、猫と遊ぶためのロボットの意図的なデザインを分析し、実際の衝突がどのように複雑で継続的な絡み合いを含むかを明らかにしました。
衝突を絡み合った軌跡、またはもつれとして見ることを、設計アプローチとして、また倫理的複雑さをブローチするためのレンズとしてどのように使用できるかについて説明します。

要約(オリジナル)

We reappraise the idea of colliding with robots, moving from a position that tries to avoid or mitigate collisions to one that considers them an important facet of human interaction. We report on a soma design workshop that explored how our bodies could collide with telepresence robots, mobility aids, and a quadruped robot. Based on our findings, we employed soma trajectories to analyse collisions as extended experiences that negotiate key transitions of consent, preparation, launch, contact, ripple, sting, untangle, debris and reflect. We then employed these ideas to analyse two collision experiences, an accidental collision between a person and a drone, and the deliberate design of a robot to play with cats, revealing how real-world collisions involve the complex and ongoing entanglement of soma trajectories. We discuss how viewing collisions as entangled trajectories, or tangles, can be used analytically, as a design approach, and as a lens to broach ethical complexity.

arxiv情報

著者 Steve Benford,Rachael Garrett,Christine Li,Paul Tennent,Claudia Núñez-Pacheco,Ayse Kucukyilmaz,Vasiliki Tsaknaki,Kristina Höök,Praminda Caleb-Solly,Joe Marshall,Eike Schneiders,Kristina Popova,Jude Afana
発行日 2025-03-20 06:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Tangles: Unpacking Extended Collision Experiences with Soma Trajectories はコメントを受け付けていません

Dynamic Bi-Elman Attention Networks (DBEAN): Dual-Directional Context-Aware Representation Learning for Enhanced Text Classification

要約

自然言語処理(NLP)の基本的なタスクであるテキスト分類は、テキストデータを事前定義されたラベルに分類することを目的としています。
従来の方法は、複雑な言語構造とセマンティックな依存関係に苦しんでいました。
深い学習の出現、特に再発性ニューラルネットワーク(RNNS)およびトランスベースのモデルは、微妙な特徴抽出とコンテキスト対応の予測を可能にすることにより、フィールドを大幅に進めました。
改善にもかかわらず、既存のモデルは、解釈可能性、計算効率、長距離のコンテキスト理解のバランスをとることで制限を示します。
このペーパーでは、双方向の時間モデリングを自己関節メカニズムと統合する注意ネットワーク(DBEAN)を備えた動的双方向のエルマンを提案します。
DBeanは、入力の重要なセグメントに重みを動的に割り当て、計算効率を維持しながらコンテキスト表現を改善します。

要約(オリジナル)

Text classification, a fundamental task in natural language processing (NLP), aims to categorize textual data into predefined labels. Traditional methods struggled with complex linguistic structures and semantic dependencies. The advent of deep learning, particularly recurrent neural networks (RNNs) and Transformer-based models, has significantly advanced the field by enabling nuanced feature extraction and context-aware predictions. Despite improvements, existing models exhibit limitations in balancing interpretability, computational efficiency, and long-range contextual understanding. This paper proposes the Dynamic Bidirectional Elman with Attention Network (DBEAN), which integrates bidirectional temporal modelling with self-attention mechanisms. DBEAN dynamically assigns weights to critical segments of input, improving contextual representation while maintaining computational efficiency.

arxiv情報

著者 ZhengLin Lai,MengYao Liao,Dong Xu
発行日 2025-03-20 10:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dynamic Bi-Elman Attention Networks (DBEAN): Dual-Directional Context-Aware Representation Learning for Enhanced Text Classification はコメントを受け付けていません

Parking control of an active-joint center-articulated mobile robot based on feedback from beacons

要約

このホワイトペーパーでは、アクティブに順応性のあるセンターで特徴的なモバイルロボット用の自律駐車制御システムを紹介します。
まず、ロボットの運動学的モデルを提案し、ターゲット位置の小さな近隣内で車両の構成を安定させるように設計された制御法則を導き出します。
制御法は、Lyapunov技術を使用して開発されており、極座標のロボットの運動方程式に基づいています。
さらに、ビーコンベースのガイダンスシステムは、ターゲットの位置とオリエンテーションに関するリアルタイムのフィードバックを提供します。
シミュレーション結果は、ロボットが任意の初期位置とオリエンテーションから開始し、駐車場を正常に達成する能力を示しています。

要約(オリジナル)

This paper presents an autonomous parking control system for an active-joint center-articulated mobile robot. We begin by proposing a kinematic model of the robot, then derive a control law designed to stabilize the vehicle’s configuration within a small neighborhood of the target position. The control law is developed using Lyapunov techniques and is based on the robot’s equations of motion in polar coordinates. Additionally, a beacon-based guidance system provides real-time feedback on the target’s position and orientation. Simulation results demonstrate the robot’s capability to start from arbitrary initial positions and orientations and successfully achieve parking.

arxiv情報

著者 Mehdi Delrobaei,Kenneth McIsaac
発行日 2025-03-18 20:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Parking control of an active-joint center-articulated mobile robot based on feedback from beacons はコメントを受け付けていません

Dexterous Control of an 11-DOF Redundant Robot for CT-Guided Needle Insertion With Task-Oriented Weighted Policies

要約

コンピューター断層撮影(CT)誘導針生検は、肺がんを含むさまざまな状態を診断するために重要ですが、限られた内部空間、長期の手順、放射線曝露などの課題を呈します。
ロボット支援は、針の軌道精度を改善し、放射線被曝を減らし、リアルタイム調整を可能にすることにより、有望なソリューションを提供します。
以前の作業では、制限付きCTボア内に柔軟な針挿入用に設計された冗長なロボットプラットフォームを導入しました。
ただし、ベースモビリティが限られているため、臨床環境での柔軟な展開が制限されます。
この研究では、6-DOFロボットベースを5ドーフ駆動型のエンドエフェクターと統合し、ワークスペースの柔軟性と精度を大幅に向上させる改善された11度(Freedom(DOF)ロボットシステムを提示します。
自由度の多い自由度により、大規模な動きと微細な骨内調整のための2段階の優先度スキームを備えた加重逆運動コントローラーと、器用さを最適化するためのヌル空間制御戦略を導入します。
シミュレーションと現実世界の両方の実験を通じてシステムを検証し、CT誘導手順の優れた追跡精度と操作性の向上を実証します。
この研究は、ロボット支援の針生検シナリオのための過剰な冗長性とヌル空間制御の定式化の強力なケースを提供します。

要約(オリジナル)

Computed tomography (CT)-guided needle biopsies are critical for diagnosing a range of conditions, including lung cancer, but present challenges such as limited in-bore space, prolonged procedure times, and radiation exposure. Robotic assistance offers a promising solution by improving needle trajectory accuracy, reducing radiation exposure, and enabling real-time adjustments. In our previous work, we introduced a redundant robotic platform designed for dexterous needle insertion within the confined CT bore. However, its limited base mobility restricts flexible deployment in clinical settings. In this study, we present an improved 11-degree-of-freedom (DOF) robotic system that integrates a 6-DOF robotic base with a 5-DOF cable-driven end-effector, significantly enhancing workspace flexibility and precision. With the hyper-redundant degrees of freedom, we introduce a weighted inverse kinematics controller with a two-stage priority scheme for large-scale movement and fine in-bore adjustments, along with a null-space control strategy to optimize dexterity. We validate our system through both simulation and real-world experiments, demonstrating superior tracking accuracy and enhanced manipulability in CT-guided procedures. The study provides a strong case for hyper-redundancy and null-space control formulations for robot-assisted needle biopsy scenarios.

arxiv情報

著者 Peihan Zhang,Florian Richter,Ishan Duriseti,Michael Yip
発行日 2025-03-18 21:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dexterous Control of an 11-DOF Redundant Robot for CT-Guided Needle Insertion With Task-Oriented Weighted Policies はコメントを受け付けていません

Nonlinear Modeling and Observability of a Planar Multi-Link Robot with Link Thrusters

要約

この作業は、集合的な行動を通じて複雑なタスクを達成するために設計された、小さな柔らかい水中ロボットの協同チームの開発によって動機付けられています。
これらのロボットは生物学からインスピレーションを得ています。サルプスはゼラチン状のクラゲのような海洋動物であり、操縦にジェット推進を利用し、任意の形状とサイズの動的なチェーンを形成するために物理的に接続できます。
この研究の主な貢献は2つあります。まず、平面の非線形マルチリンクスネークロボットモデルを適応させ、ジョイントアクチュエーターを除去し、リンクスラスターを導入し、不均一なリンクの長さ、質量、および慣性の瞬間を可能にすることにより、平面マルチリンクサルプにインスパイアされたシステムをモデル化します。
第二に、リンクスラスタを使用したマルチリンクシステムの非線形観測可能性分析を実施し、リンク角、角速度、質​​量、および慣性モーメントが慣性測定ユニットを装備し、特定のスラスター条件下で動作する場合、局所的に観察可能であることを示します。
この研究は、効果的なコントローラーの設計とパフォーマンスに不可欠なマルチリンクシステムの状態パラメーターと本質的なパラメーターの両方をモデル化および推定するための理論的基盤を提供します。

要約(オリジナル)

This work is motivated by the development of cooperative teams of small, soft underwater robots designed to accomplish complex tasks through collective behavior. These robots take inspiration from biology: salps are gelatinous, jellyfish-like marine animals that utilize jet propulsion for maneuvering and can physically connect to form dynamic chains of arbitrary shape and size. The primary contributions of this research are twofold: first, we adapt a planar nonlinear multi-link snake robot model to model a planar multi-link salp-inspired system by removing joint actuators, introducing link thrusters, and allowing for non-uniform link lengths, masses, and moments of inertia. Second, we conduct a nonlinear observability analysis of the multi-link system with link thrusters, showing that the link angles, angular velocities, masses, and moments of inertia are locally observable when equipped with inertial measurement units and operating under specific thruster conditions. This research provides a theoretical foundation for modeling and estimating both the state and intrinsic parameters of a multi-link system with link thrusters, which are essential for effective controller design and performance.

arxiv情報

著者 Nicholas B. Andrews,Kristi A. Morgansen
発行日 2025-03-18 23:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Nonlinear Modeling and Observability of a Planar Multi-Link Robot with Link Thrusters はコメントを受け付けていません

StackGen: Generating Stable Structures from Silhouettes via Diffusion

要約

人間は、世界を観察して相互作用することにより、剛性オブジェクトの間の相互作用と安定性について自然に直観を得ます。
この直感は、環境でオブジェクトを定期的に構成し、シンプルで日常的なオブジェクトから複雑な構造を構築できる方法を管理します。
一方、ロボットエージェントは、伝統的に、各オブジェクトの詳細なジオメトリと環境ダイナミクスの分析モデルを含む世界の明示的なモデルを必要とします。
代わりに、ロボットは、環境内のオブジェクトの安定した相互作用について同様に推論できる直感的な物理学の認識から恩恵を受けるでしょう。
その目標に向けて、ターゲットシルエットに一致するビルディングブロックの多様な安定した構成を生成する拡散モデルであるStackgenを提案します。
メソッドの機能を実証するために、シミュレートされた環境でそれを評価し、ロボットアームを使用してモデルによって生成された構造を組み立てる実際の設定に展開します。

要約(オリジナル)

Humans naturally obtain intuition about the interactions between and the stability of rigid objects by observing and interacting with the world. It is this intuition that governs the way in which we regularly configure objects in our environment, allowing us to build complex structures from simple, everyday objects. Robotic agents, on the other hand, traditionally require an explicit model of the world that includes the detailed geometry of each object and an analytical model of the environment dynamics, which are difficult to scale and preclude generalization. Instead, robots would benefit from an awareness of intuitive physics that enables them to similarly reason over the stable interaction of objects in their environment. Towards that goal, we propose StackGen, a diffusion model that generates diverse stable configurations of building blocks matching a target silhouette. To demonstrate the capability of the method, we evaluate it in a simulated environment and deploy it in the real setting using a robotic arm to assemble structures generated by the model.

arxiv情報

著者 Luzhe Sun,Takuma Yoneda,Samuel W. Wheeler,Tianchong Jiang,Matthew R. Walter
発行日 2025-03-19 00:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | StackGen: Generating Stable Structures from Silhouettes via Diffusion はコメントを受け付けていません

A Constrained Saddle Search Approach for Constructing Singular and Flexible Bar Frameworks

要約

特異性の構成は、制御と運動学の不確定性の喪失を引き起こすため、ロボット運動学では特異点分析が不可欠です。
このペーパーでは、制約付きマニホールドのサドルがポイントとして、バーフレームワークの特異点をモデル化します。
制約のない非弦楽棒のフレームワークを考えると、1つのエッジが他のエッジの長さを固定しながらその長さを変えることにより、自由エッジの2乗の長さをエネルギー機能として定義し、ローカルサドルポイントが特異で柔軟なフレームワークに対応することを示します。
制約付きのサドル検索アプローチを使用して、以前は未知の特異で柔軟なバーフレームワークを特定し、特異なロボット工学の設計と分析に関する新しい洞察を提供します。

要約(オリジナル)

Singularity analysis is essential in robot kinematics, as singular configurations cause loss of control and kinematic indeterminacy. This paper models singularities in bar frameworks as saddle points on constrained manifolds. Given an under-constrained, non-singular bar framework, by allowing one edge to vary its length while fixing lengths of others, we define the squared length of the free edge as an energy functional and show that its local saddle points correspond to singular and flexible frameworks. Using our constrained saddle search approach, we identify previously unknown singular and flexible bar frameworks, providing new insights into singular robotics design and analysis.

arxiv情報

著者 Xuenan Li,Mihnea Leonte,Christian D. Santangelo,Miranda Holmes-Cerfon
発行日 2025-03-19 00:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math-ph, math.MP, math.OC | A Constrained Saddle Search Approach for Constructing Singular and Flexible Bar Frameworks はコメントを受け付けていません