VeriFastScore: Speeding up long-form factuality evaluation

要約

長い形式の事実を評価するFactScoreやVeriscoreなどのメトリックは、入力応答を原子クレームに分解し、各クレームを個別に検証することにより機能します。
効果的で解釈可能ですが、これらの方法は多数のLLMコールを負い、100秒以上かかることがあります。単一の応答を評価し、大規模な評価とトレーニングシナリオの実用性を制限します。
これに対処するために、Googleの検索からの証拠に基づいて特定のテキスト内のすべての検証可能なクレームを同時に抽出および検証するために、合成データを微調整するために合成データを活用するVerifastScoreを提案します。
このタスクは、その複雑さのために閉じたLLMSで数ショットのプロンプトを使用して解決できないことを示します。モデルは平均して〜4Kの証拠を受け取り、クレームを同時に分解し、検証可能性を判断し、騒々しい証拠に対して検証する必要があります。
ただし、微調整されたVerifastScoreモデルは、Veriscore上の6.6倍(エビデンス回収を除く9.9x)の全体的なスピードアップを達成しながら、例レベル(r = 0.80)とシステムレベル(r = 0.94)の両方で、元のVeriscoreパイプラインと強い相関関係を示しています。
将来の事実研究を促進するために、VerifastScoreモデルと合成データセットを公開します。

要約(オリジナル)

Metrics like FactScore and VeriScore that evaluate long-form factuality operate by decomposing an input response into atomic claims and then individually verifying each claim. While effective and interpretable, these methods incur numerous LLM calls and can take upwards of 100 seconds to evaluate a single response, limiting their practicality in large-scale evaluation and training scenarios. To address this, we propose VeriFastScore, which leverages synthetic data to fine-tune Llama3.1 8B for simultaneously extracting and verifying all verifiable claims within a given text based on evidence from Google Search. We show that this task cannot be solved via few-shot prompting with closed LLMs due to its complexity: the model receives ~4K tokens of evidence on average and needs to concurrently decompose claims, judge their verifiability, and verify them against noisy evidence. However, our fine-tuned VeriFastScore model demonstrates strong correlation with the original VeriScore pipeline at both the example level (r=0.80) and system level (r=0.94) while achieving an overall speedup of 6.6x (9.9x excluding evidence retrieval) over VeriScore. To facilitate future factuality research, we publicly release our VeriFastScore model and synthetic datasets.

arxiv情報

著者 Rishanth Rajendhran,Amir Zadeh,Matthew Sarte,Chuan Li,Mohit Iyyer
発行日 2025-05-23 12:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VeriFastScore: Speeding up long-form factuality evaluation はコメントを受け付けていません

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

要約

アクティブなサウンド変更のための新しいパラダイムを紹介します:アクティブな音声強化(ASE)。
アクティブなノイズキャンセル(ANC)アルゴリズムは、外部干渉の抑制に焦点を当てていますが、ASEは音声信号を積極的に形作ることでさらに進みます – 不要なノイズ成分を減衰させ、音声関連周波数を増幅して、明瞭度と知覚品質を向上させます。
これを有効にするために、干渉抑制と信号濃縮を共同で最適化するように設計されたタスク固有の損失関数とともに、新しい変圧器マンバベースのアーキテクチャを提案します。
私たちの方法は、除去、逆方向、および削減など、複数の音声処理タスクにわたって既存のベースラインを上回り、挑戦的な音響環境におけるアクティブなターゲット変調の有効性を示しています。

要約(オリジナル)

We introduce a new paradigm for active sound modification: Active Speech Enhancement (ASE). While Active Noise Cancellation (ANC) algorithms focus on suppressing external interference, ASE goes further by actively shaping the speech signal — both attenuating unwanted noise components and amplifying speech-relevant frequencies — to improve intelligibility and perceptual quality. To enable this, we propose a novel Transformer-Mamba-based architecture, along with a task-specific loss function designed to jointly optimize interference suppression and signal enrichment. Our method outperforms existing baselines across multiple speech processing tasks — including denoising, dereverberation, and declipping — demonstrating the effectiveness of active, targeted modulation in challenging acoustic environments.

arxiv情報

著者 Ofir Yaish,Yehuda Mishaly,Eliya Nachmani
発行日 2025-05-23 14:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS | Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation はコメントを受け付けていません

Power-Law Decay Loss for Large Language Model Finetuning: Focusing on Information Sparsity to Enhance Generation Quality

要約

テキスト生成タスクの微調整段階では、標準的なクロスエントロピー損失はすべてのトークンを等しく扱います。
これにより、モデルは高周波の低下の低下トークンを強調し、生成されたコンテンツの特異性と情報性に不可欠な低周波トークンを無視することができます。
このホワイトペーパーでは、テキスト生成のための微調整プロセスを最適化するために特別に設計された新しい損失関数であるパワーロー減衰損失(PDL)を紹介します。
PDLのコアの動機は、情報理論と言語学の観察から生じます。トークンの情報性は、しばしばその発生頻度に反比例します。
PDLは、パワーローの減衰に続いて、トレーニングコーパスの頻度に基づいて、標準のクロスエントロピー損失における各トークンの寄与を再重視します。
具体的には、高周波トークンのウェイトは減少しますが、低周波の情報密度の高いトークンにはより高い重みが割り当てられます。
このメカニズムは、微調整中にモデルを導き、特定のユニークな情報を伝えるトークンの学習と生成に焦点を当て、生成されたテキストの品質、多様性、情報を高めます。
PDLの動機付けと構築について理論的に詳しく説明し、抽象的な要約、対話システム、スタイルの転送など、さまざまなテキスト生成の微調整タスクにわたる潜在的なアプリケーションと利点について議論します。

要約(オリジナル)

During the finetuning stage of text generation tasks, standard cross-entropy loss treats all tokens equally. This can lead models to overemphasize high-frequency, low-information tokens, neglecting lower-frequency tokens crucial for specificity and informativeness in generated content. This paper introduces a novel loss function, Power-Law Decay Loss (PDL), specifically designed to optimize the finetuning process for text generation. The core motivation for PDL stems from observations in information theory and linguistics: the informativeness of a token is often inversely proportional to its frequency of occurrence. PDL re-weights the contribution of each token in the standard cross-entropy loss based on its frequency in the training corpus, following a power-law decay. Specifically, the weights for high-frequency tokens are reduced, while low-frequency, information-dense tokens are assigned higher weights. This mechanism guides the model during finetuning to focus more on learning and generating tokens that convey specific and unique information, thereby enhancing the quality, diversity, and informativeness of the generated text. We theoretically elaborate on the motivation and construction of PDL and discuss its potential applications and advantages across various text generation finetuning tasks, such as abstractive summarization, dialogue systems, and style transfer.

arxiv情報

著者 Jintian Shao,Yiming Cheng,Hongyi Huang,Jiayi Wu,Beiwen Zhang,Zhiyu Wu,You Shan,Mingkai Zheng
発行日 2025-05-23 11:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Power-Law Decay Loss for Large Language Model Finetuning: Focusing on Information Sparsity to Enhance Generation Quality はコメントを受け付けていません

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

要約

最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスクを解決できます。
実際のシナリオでは、VLMSの望ましいプロパティには、高速推論と制御可能な生成が含まれます(たとえば、出力を制約して目的の形式に接着します)。
ただし、Llavaのような既存の自己回帰(AR)VLMは、これらの側面で苦労しています。
離散拡散モデル(DMS)は、有望な代替手段を提供し、テキスト侵入を通じて制御可能な生成のためのより速い推論と双方向コンテキストのために並列デコードを可能にします。
言語のみの設定では効果的ですが、DMSのマルチモーダルタスクの可能性は露出度が低くなっています。
DMS上に構築されたVLMSファミリーであるLavidaを紹介します。
DMSにVisionエンコーダーを装備することでLavidaを構築し、マルチモーダル命令のために組み合わせた部品を共同で微調整します。
遭遇する課題に対処するために、ラビダには、効果的なトレーニングのための相補的マスキング、効率的な推論のためのプレフィックスKVキャッシュ、高品質のサンプリングのためのタイムステップシフトなどの新しい技術が組み込まれています。
実験では、LavidaがMMMUなどのマルチモーダルベンチマークでAR VLMに対して競争力のあるまたは優れたパフォーマンスを達成すると同時に、柔軟な速度品質のトレードオフ、制御性、双方向の推論など、DMの独自の利点を提供することが示されています。
Cocoキャプションでは、Lavidaは1.92倍のスピードアップで+4.1サイダー+4.1サイダーを上回ります。
双方向のタスクでは、制約された詩の完成に対して +59%の改善を達成します。
これらの結果は、AR VLMの強力な代替手段としてLavidaを示しています。
コードとモデルは、カメラ対応バージョンでリリースされます。

要約(オリジナル)

Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs’ potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.

arxiv情報

著者 Shufan Li,Konstantinos Kallidromitis,Hritik Bansal,Akash Gokul,Yusuke Kato,Kazuki Kozuka,Jason Kuen,Zhe Lin,Kai-Wei Chang,Aditya Grover
発行日 2025-05-23 07:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LaViDa: A Large Diffusion Language Model for Multimodal Understanding はコメントを受け付けていません

Manipulating Elasto-Plastic Objects With 3D Occupancy and Learning-Based Predictive Control

要約

エラストプラスチックオブジェクトの操作は、深刻な自己閉鎖、表現の難しさ、複雑なダイナミクスのために、依然として重要な課題です。
この作業は、モーションのための準静的仮定を伴うエラストプラスチックオブジェクト操作のための新しいフレームワーク、そのようなオブジェクトを表す3D占有率を活用し、3D占有で訓練された学習ダイナミクスモデル、およびこれらの課題に効果的に対処するための学習ベースの予測制御アルゴリズムを提案します。
完全な空間情報を収集し、3D占有データセットを生成するためのパイプラインを提案するための新しいデータ収集プラットフォームを構築します。
操作中に3D占有率を推測するために、占有予測ネットワークは、生成されたデータセットによって監督された複数のRGB画像でトレーニングされています。
3D畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)に力を与えた深いニューラルネットワークを設計して、推定された3D占有率との複雑な変形を予測します。
学習ベースの予測制御アルゴリズムが導入され、ロボットアクションを計画し、プランナーの効率を改善するために特別に設計された新しい形状ベースのアクション初期化モジュールを組み込みます。
このペーパーで提案されているフレームワークは、エラストプラスチックオブジェクトを特定の目標形状に成功裏に形作ることができ、シミュレーションと現実世界の両方でさまざまな実験で検証されています。

要約(オリジナル)

Manipulating elasto-plastic objects remains a significant challenge due to severe self-occlusion, difficulties of representation, and complicated dynamics. This work proposes a novel framework for elasto-plastic object manipulation with a quasi-static assumption for motions, leveraging 3D occupancy to represent such objects, a learned dynamics model trained with 3D occupancy, and a learning-based predictive control algorithm to address these challenges effectively. We build a novel data collection platform to collect full spatial information and propose a pipeline for generating a 3D occupancy dataset. To infer the 3D occupancy during manipulation, an occupancy prediction network is trained with multiple RGB images supervised by the generated dataset. We design a deep neural network empowered by a 3D convolution neural network (CNN) and a graph neural network (GNN) to predict the complex deformation with the inferred 3D occupancy results. A learning-based predictive control algorithm is introduced to plan the robot actions, incorporating a novel shape-based action initialization module specifically designed to improve the planner efficiency. The proposed framework in this paper can successfully shape the elasto-plastic objects into a given goal shape and has been verified in various experiments both in simulation and the real world.

arxiv情報

著者 Zhen Zhang,Xiangyu Chu,Yunxi Tang,Lulu Zhao,Jing Huang,Zhongliang Jiang,K. W. Samuel Au
発行日 2025-05-23 03:16:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Manipulating Elasto-Plastic Objects With 3D Occupancy and Learning-Based Predictive Control はコメントを受け付けていません

SPAR: Self-supervised Placement-Aware Representation Learning for Multi-Node IoT Systems

要約

この作業は、空間的に分散した(マルチビューおよびマルチモーダル)センサーの観測を考慮して、自己科学の配置を意識した表現学習の基盤を開発します。
IoTシステムでの検知の目的は、一般に、感覚観測が発生する複数の有利な点を考慮して、外部から観察された環境を集合的に表すことです。
したがって、センサーデータを解釈するのに役立つモデルの事前削除は、センサーによって観察された信号とオブザーバーの有利な点との関係をエンコードして、測定機器の特定の配置によって通知された方法で観測された空間現象をコードする表現を獲得しながら、任意の配置を可能にすることによって指標を達成する必要があります。
この作業は、IoTデータの特徴的な空間性を見落とす現在のソリューションを超えて、IoTシグナルから事前に事前に取引される自己監視モデルを前進させます。
私たちのフレームワークは、測定と幾何学的オブザーバーのレイアウトと構造的特性の間の依存関係を明示的に学習します。これは、コア設計の原則、つまり信号とオブザーバーの位置の二重性に導かれます。
さらに、情報理論とオクルージョン不変の表現の観点から理論的分析を、デザインの背後にある理論的根拠への洞察を提供する学習を提供します。
覆われた車両の監視、人間の活動認識、地震のローカリゼーションの3つの実際のデータセットでの実験は、多様なモダリティ、センサーの配置、アプリケーションレベルの推論タスク、および空間スケールにわたるメソッドの優れた一般化可能性と堅牢性を実証します。

要約(オリジナル)

This work develops the underpinnings of self-supervised placement-aware representation learning given spatially-distributed (multi-view and multimodal) sensor observations, motivated by the need to represent external environmental state in multi-sensor IoT systems in a manner that correctly distills spatial phenomena from the distributed multi-vantage observations. The objective of sensing in IoT systems is, in general, to collectively represent an externally observed environment given multiple vantage points from which sensory observations occur. Pretraining of models that help interpret sensor data must therefore encode the relation between signals observed by sensors and the observers’ vantage points in order to attain a representation that encodes the observed spatial phenomena in a manner informed by the specific placement of the measuring instruments, while allowing arbitrary placement. The work significantly advances self-supervised model pretraining from IoT signals beyond current solutions that often overlook the distinctive spatial nature of IoT data. Our framework explicitly learns the dependencies between measurements and geometric observer layouts and structural characteristics, guided by a core design principle: the duality between signals and observer positions. We further provide theoretical analyses from the perspectives of information theory and occlusion-invariant representation learning to offer insight into the rationale behind our design. Experiments on three real-world datasets–covering vehicle monitoring, human activity recognition, and earthquake localization–demonstrate the superior generalizability and robustness of our method across diverse modalities, sensor placements, application-level inference tasks, and spatial scales.

arxiv情報

著者 Yizhuo Chen,Tianchen Wang,You Lyu,Yanlan Hu,Jinyang Li,Tomoyoshi Kimura,Hongjue Zhao,Yigong Hu,Denizhan Kara,Tarek Abdelzaher
発行日 2025-05-23 05:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | SPAR: Self-supervised Placement-Aware Representation Learning for Multi-Node IoT Systems はコメントを受け付けていません

FoMoH: A clinically meaningful foundation model evaluation for structured electronic health records

要約

財団モデルは、ダウンストリームタスクとは無関係に意味のある表現を抽出する能力を考えると、ヘルスケアに大きな約束を保持しています。
このプロパティは、ヘルスケアの一般的な課題である限られたラベルデータの設定であっても、構造化された電子健康記録(EHR)データでトレーニングされたいくつかの臨床アプリケーションで最先端のパフォーマンスを可能にしました。
ただし、包括的で意味のあるタスクのデシデラタが不足しているため、これらのモデルの臨床的有用性の可能性についてはほとんどコンセンサスがあり、従来の監視学習に対する利益を特徴付けるための十分に多様な評価があります。
このギャップに対処するために、患者の転帰にまたがる一連の臨床的に意味のあるタスクを提案します。これは、堅牢な評価のためのDesiderataを含む急性および慢性疾患の早期予測です。
ニューヨーク市の大規模な都市アカデミックメディカルセンターであるコロンビア大学アーヴィングメディカルセンター(CUMC)の500万人の患者で構成されるEHRデータに関する最先端の財団モデルを評価します。
トレーニング前、トークン化、およびデータ表現戦略の選択に基づいて、全体的な精度、キャリブレーション、および亜集団パフォーマンスを表面トレードオフに測定します。
私たちの研究の目的は、構造化されたEHR基礎モデルの経験的評価を進め、将来のヘルスケア財団モデルの開発を導くことです。

要約(オリジナル)

Foundation models hold significant promise in healthcare, given their capacity to extract meaningful representations independent of downstream tasks. This property has enabled state-of-the-art performance across several clinical applications trained on structured electronic health record (EHR) data, even in settings with limited labeled data, a prevalent challenge in healthcare. However, there is little consensus on these models’ potential for clinical utility due to the lack of desiderata of comprehensive and meaningful tasks and sufficiently diverse evaluations to characterize the benefit over conventional supervised learning. To address this gap, we propose a suite of clinically meaningful tasks spanning patient outcomes, early prediction of acute and chronic conditions, including desiderata for robust evaluations. We evaluate state-of-the-art foundation models on EHR data consisting of 5 million patients from Columbia University Irving Medical Center (CUMC), a large urban academic medical center in New York City, across 14 clinically relevant tasks. We measure overall accuracy, calibration, and subpopulation performance to surface tradeoffs based on the choice of pre-training, tokenization, and data representation strategies. Our study aims to advance the empirical evaluation of structured EHR foundation models and guide the development of future healthcare foundation models.

arxiv情報

著者 Chao Pang,Vincent Jeanselme,Young Sang Choi,Xinzhuo Jiang,Zilin Jing,Aparajita Kashyap,Yuta Kobayashi,Yanwei Li,Florent Pollet,Karthik Natarajan,Shalmali Joshi
発行日 2025-05-23 02:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | FoMoH: A clinically meaningful foundation model evaluation for structured electronic health records はコメントを受け付けていません

Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

要約

専門家(MOE)の混合は、まばらな専門家の活性化を活用してパフォーマンスと効率のバランスをとることにより、大規模な言語モデルをスケーリングするための効果的なアーキテクチャです。
ただし、専門家の並列性の下では、MoEは不均衡なトークンから専門家への割り当てのために推論の非効率性に苦しんでいます。
この現象は、最も負担のない専門家が全体的な推論潜時を決定するため、この現象を\ textbf {\ textit {straggler effect}}と定義します。
これに対処するために、最初に\ textIT {\ textBf {容量とアウェアトークンドロップ}}を提案します。これは、過負荷の専門家から余分なトークンを破棄し、最小限のパフォーマンスへの影響を伴う負荷の不均衡を効果的に削減することにより、専門家の容量制限を強制します($ 30 \%$ $ speedupのみ$ 0.9 \%$ degraging)。
次に、低負荷の専門家の存在が容量のしきい値をはるかに下回っていることを考えると、\ textIT {\ textBf {capational-awareの拡張ドロップ}}を導入します。これにより、トークンは厳格なローカル容量制約を強制し、負荷バランスを改善し、乱用の専門家の実用化を強化する前に、候補セットに追加のローカルエキスパートを含めることができます。
言語とマルチモーダルMOEモデルの両方での広範な実験は、私たちのアプローチの有効性を示し、専門家の利用、モデルのパフォーマンス、および推論効率の大幅な利益をもたらします。

要約(オリジナル)

The Mixture of Experts (MoE) is an effective architecture for scaling large language models by leveraging sparse expert activation to balance performance and efficiency. However, under expert parallelism, MoE suffers from inference inefficiencies due to imbalanced token-to-expert assignment, where underloaded experts complete computations early but must wait for overloaded experts, leading to global delays. We define this phenomenon as the \textbf{\textit{Straggler Effect}}, as the most burdened experts dictate the overall inference latency. To address this, we first propose \textit{\textbf{Capacity-Aware Token Drop}}, which enforces expert capacity limits by discarding excess tokens from overloaded experts, effectively reducing load imbalance with minimal performance impact (e.g., $30\%$ speedup with only $0.9\%$ degradation on OLMoE). Next, given the presence of low-load experts remaining well below the capacity threshold, we introduce \textit{\textbf{Capacity-Aware Expanded Drop}}, which allows tokens to include additional local experts in their candidate set before enforcing strict local capacity constraints, thereby improving load balance and enhancing the utilization of underused experts. Extensive experiments on both language and multimodal MoE models demonstrate the effectiveness of our approach, yielding substantial gains in expert utilization, model performance, and inference efficiency, e.g., applying Expanded Drop to Mixtral-8$\times$7B-Instruct yields a {0.2\%} average performance improvement and a {1.85$\times$} inference speedup.

arxiv情報

著者 Shwai He,Weilin Cai,Jiayi Huang,Ang Li
発行日 2025-05-23 02:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts はコメントを受け付けていません

Gaze-based dual resolution deep imitation learning for high-precision dexterous robot manipulation

要約

針のねじなどの高精度操作タスクは挑戦的です。
生理学的研究では、低解像度の末梢視力と迅速な動きを結びつけて、手をオブジェクトの近くに輸送し、高解像度の解像度の視力を使用して、オブジェクトへの手の正確なホーミングを実現しています。
この研究の結果は、人間の視線ベースのデュアル解像度視覚制御システムに触発された深い模倣学習ベースの方法が、針の糸糸を解くことができることを示しています。
最初に、ロボットをテレロティーしていた人間のオペレーターの視線の動きを記録しました。
次に、視線の周りに高解像度の画像のみを使用して、ターゲットに近いときにスレッドの位置を正確に制御しました。
低解像度の末梢画像を使用して、ターゲットの近くに到達しました。
この研究で得られた実験結果は、提案された方法が汎用ロボットマニピュレーターを使用した正確な操作タスクを可能にし、計算効率を向上させることを示しています。
これと関連する作品のデータは、https://sites.google.com/view/multi-task-fineで入手できます。

要約(オリジナル)

A high-precision manipulation task, such as needle threading, is challenging. Physiological studies have proposed connecting low-resolution peripheral vision and fast movement to transport the hand into the vicinity of an object, and using high-resolution foveated vision to achieve the accurate homing of the hand to the object. The results of this study demonstrate that a deep imitation learning based method, inspired by the gaze-based dual resolution visuomotor control system in humans, can solve the needle threading task. First, we recorded the gaze movements of a human operator who was teleoperating a robot. Then, we used only a high-resolution image around the gaze to precisely control the thread position when it was close to the target. We used a low-resolution peripheral image to reach the vicinity of the target. The experimental results obtained in this study demonstrate that the proposed method enables precise manipulation tasks using a general-purpose robot manipulator and improves computational efficiency. Data from this and related works are available at: https://sites.google.com/view/multi-task-fine.

arxiv情報

著者 Heecheol Kim,Yoshiyuki Ohmura,Yasuo Kuniyoshi
発行日 2025-05-21 23:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Gaze-based dual resolution deep imitation learning for high-precision dexterous robot manipulation はコメントを受け付けていません

Transformer-based deep imitation learning for dual-arm robot manipulation

要約

深い模倣学習は、環境モデルと事前にプログラムされたロボットの動作を必要としないため、器用な操作タスクの解決に有望です。
ただし、デュアルアーム操作タスクへの適用は依然として困難です。
デュアルアーム操作セットアップでは、追加のロボットマニピュレーターによって引き起こされる状態寸法の数が増加し、気晴らしを引き起こし、ニューラルネットワークのパフォーマンスが低下します。
この問題に対処し、順次入力内の要素間の依存関係を計算し、重要な要素に焦点を当てる自己関節メカニズムを使用します。
自己関節アーキテクチャのバリアントである変圧器は、現実世界の二重腕操作タスクを解決するために、深い模倣学習に適用されます。
提案された方法は、実際のロボットを使用してデュアルアーム操作タスクでテストされています。
実験結果は、変圧器ベースの深い模倣学習アーキテクチャが感覚入力の中で重要な特徴に注意を払うことができることを実証し、したがって、自己触媒メカニズムなしのベースラインアーキテクチャと比較すると、気晴らしを軽減し、操作性能を改善します。
これと関連する作品のデータは、https://sites.google.com/view/multi-task-fineで入手できます。

要約(オリジナル)

Deep imitation learning is promising for solving dexterous manipulation tasks because it does not require an environment model and pre-programmed robot behavior. However, its application to dual-arm manipulation tasks remains challenging. In a dual-arm manipulation setup, the increased number of state dimensions caused by the additional robot manipulators causes distractions and results in poor performance of the neural networks. We address this issue using a self-attention mechanism that computes dependencies between elements in a sequential input and focuses on important elements. A Transformer, a variant of self-attention architecture, is applied to deep imitation learning to solve dual-arm manipulation tasks in the real world. The proposed method has been tested on dual-arm manipulation tasks using a real robot. The experimental results demonstrated that the Transformer-based deep imitation learning architecture can attend to the important features among the sensory inputs, therefore reducing distractions and improving manipulation performance when compared with the baseline architecture without the self-attention mechanisms. Data from this and related works are available at: https://sites.google.com/view/multi-task-fine.

arxiv情報

著者 Heecheol Kim,Yoshiyuki Ohmura,Yasuo Kuniyoshi
発行日 2025-05-21 23:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Transformer-based deep imitation learning for dual-arm robot manipulation はコメントを受け付けていません