AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

要約

胸部 X 線(CXR)は臨床現場で最も頻繁に行われる画像検査である。最近の大型マルチモーダルモデル(LMM)の進歩により、CXRの自動判読が可能になり、診断精度と効率が向上した。(1)領域レベルの理解と相互作用が不十分であること、(2)推論がシングルステップであるため、精度と解釈可能性が限定的であること。本論文では、MLMMの対話性と説明可能性を高めるために、解剖学中心の推論機能を強化する。具体的には、まず解剖学的オントロジーに基づいた推論(AOR)フレームワークを提案する。次に、専門医の指導の下、MLMMsトレーニング用の大規模なインストラクションデータセットであるAOR-Instructionを開発する。我々の実験は、VQAとレポート生成タスクの両方においてAORの優れた性能を実証している。

要約(オリジナル)

Chest X-rays (CXRs) are the most frequently performed imaging examinations in clinical settings. Recent advancements in Large Multimodal Models (LMMs) have enabled automated CXR interpretation, enhancing diagnostic accuracy and efficiency. However, despite their strong visual understanding, current Medical LMMs (MLMMs) still face two major challenges: (1) Insufficient region-level understanding and interaction, and (2) Limited accuracy and interpretability due to single-step reasoning. In this paper, we empower MLMMs with anatomy-centric reasoning capabilities to enhance their interactivity and explainability. Specifically, we first propose an Anatomical Ontology-Guided Reasoning (AOR) framework, which centers on cross-modal region-level information to facilitate multi-step reasoning. Next, under the guidance of expert physicians, we develop AOR-Instruction, a large instruction dataset for MLMMs training. Our experiments demonstrate AOR’s superior performance in both VQA and report generation tasks.

arxiv情報

著者 Qingqiu Li,Zihang Cui,Seongsu Bae,Jilan Xu,Runtian Yuan,Yuejie Zhang,Rui Feng,Quanli Shen,Xiaobo Zhang,Junjun He,Shujun Wang
発行日 2025-05-05 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation はコメントを受け付けていません

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

要約

最近の研究では、意味のある内部表現を学習することで、生成学習を高速化し、拡散変換器の生成品質を高めることができることが実証されている。しかし、既存のアプローチでは、複雑な表現学習フレームワークを追加導入するか、大規模で事前に学習された表現基礎モデルに依存して、本来の生成学習プロセス中に表現ガイダンスを提供する必要がある。本研究では、拡散変換器に固有のユニークな識別プロセスにより、外部の表現コンポーネントを必要とすることなく、そのようなガイダンスを提供できることを仮定する。そこで我々は、自己蒸留的な方法によって表現ガイダンスを得る、シンプルかつ単純な方法である自己表現整列(Self-Representation A}lignment: SRA)を提案する。具体的には、SRAは、ノイズの大きい前の層の拡散変換器の出力潜在表現を、ノイズの小さい後の層の出力潜在表現に整列させ、生成学習過程のみにおいて、全体的な表現学習を漸進的に強化する。実験結果は、DiTsとSiTsにSRAを適用することで、一貫した性能向上が得られることを示している。さらに、SRAは、補助的で複雑な表現学習フレームワークに依存するアプローチを大幅に上回るだけでなく、強力な外部表現プリアに大きく依存する手法に匹敵する性能を達成する。

要約(オリジナル)

Recent studies have demonstrated that learning a meaningful internal representation can both accelerate generative training and enhance generation quality of the diffusion transformers. However, existing approaches necessitate to either introduce an additional and complex representation training framework or rely on a large-scale, pre-trained representation foundation model to provide representation guidance during the original generative training process. In this study, we posit that the unique discriminative process inherent to diffusion transformers enables them to offer such guidance without requiring external representation components. We therefore propose Self-Representation A}lignment (SRA), a simple yet straightforward method that obtain representation guidance through a self-distillation manner. Specifically, SRA aligns the output latent representation of the diffusion transformer in earlier layer with higher noise to that in later layer with lower noise to progressively enhance the overall representation learning during only generative training process. Experimental results indicate that applying SRA to DiTs and SiTs yields consistent performance improvements. Moreover, SRA not only significantly outperforms approaches relying on auxiliary, complex representation training frameworks but also achieves performance comparable to methods that heavily dependent on powerful external representation priors.

arxiv情報

著者 Dengyang Jiang,Mengmeng Wang,Liuzhuozheng Li,Lei Zhang,Haoyu Wang,Wei Wei,Guang Dai,Yanning Zhang,Jingdong Wang
発行日 2025-05-05 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves はコメントを受け付けていません

TWIST: Teleoperated Whole-Body Imitation System

要約

ヒューマノイドロボットを全身で遠隔操作することは、汎用的なロボット知能を開発するための基本的なステップであり、人間の動作はすべての自由度を制御するための理想的なインターフェースを提供します。しかし、現在のほとんどのヒューマノイド遠隔操作システムは、協調的な全身行動を可能にするには程遠く、一般的には、孤立した運動や操作タスクに限定されています。我々は、全身運動模倣によるヒューマノイド遠隔操作システムであるTeleoperated Whole-Body Imitation System(TWIST)を紹介する。まず、人間のモーションキャプチャデータをヒューマノイドロボットにリターゲットすることで、参照モーションクリップを生成します。次に、強化学習と行動クローニング(RL+BC)を組み合わせて、ロバストで適応性が高く、応答性の高い全身コントローラを開発する。系統的な分析を通じて、特権的な未来のモーションフレームと実世界のモーションキャプチャ(MoCap)データを組み込むことで、追跡精度が向上することを実証する。TWISTにより、実世界のヒューマノイドロボットは、単一の統一されたニューラルネットワークコントローラを用いて、全身操作、脚操作、ロコモーション、表現運動にまたがる、これまでにない、多目的で、協調的な全身運動スキルを達成することができます。プロジェクトのウェブサイト:https://humanoid-teleop.github.io

要約(オリジナル)

Teleoperating humanoid robots in a whole-body manner marks a fundamental step toward developing general-purpose robotic intelligence, with human motion providing an ideal interface for controlling all degrees of freedom. Yet, most current humanoid teleoperation systems fall short of enabling coordinated whole-body behavior, typically limiting themselves to isolated locomotion or manipulation tasks. We present the Teleoperated Whole-Body Imitation System (TWIST), a system for humanoid teleoperation through whole-body motion imitation. We first generate reference motion clips by retargeting human motion capture data to the humanoid robot. We then develop a robust, adaptive, and responsive whole-body controller using a combination of reinforcement learning and behavior cloning (RL+BC). Through systematic analysis, we demonstrate how incorporating privileged future motion frames and real-world motion capture (MoCap) data improves tracking accuracy. TWIST enables real-world humanoid robots to achieve unprecedented, versatile, and coordinated whole-body motor skills–spanning whole-body manipulation, legged manipulation, locomotion, and expressive movement–using a single unified neural network controller. Our project website: https://humanoid-teleop.github.io

arxiv情報

著者 Yanjie Ze,Zixuan Chen,João Pedro Araújo,Zi-ang Cao,Xue Bin Peng,Jiajun Wu,C. Karen Liu
発行日 2025-05-05 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | TWIST: Teleoperated Whole-Body Imitation System はコメントを受け付けていません

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

要約

マルチモーダル報酬モデル(MRM)は、マルチモーダル大規模言語モデル(MLLM)の性能を向上させる上で重要な役割を果たす。近年の進歩は、主にMRMのモデル構造と学習データの改善に焦点を当てているが、報酬モデリングのための長期的な推論能力の有効性や、MRMでこれらの能力を活性化する方法についての研究は限られている。本論文では、強化学習(RL)を報酬モデリングの改善にどのように利用できるかを探求する。具体的には、報酬モデリング問題をルールベースのRLタスクとして再定式化する。しかしながら、Reinforce++のような既存のRLアルゴリズムを報酬モデリングに直接適用すると、これらのアルゴリズムの本質的な限界により、しばしば学習が不安定になったり、破綻したりすることがある。この問題に対処するため、我々はStableReinforceアルゴリズムを提案し、既存のRL手法の訓練損失、優位性推定戦略、報酬設計を改良する。これらの改良により、より安定したトレーニングダイナミクスと優れた性能が得られる。MRMの学習を容易にするために、我々は多様なデータセットから20万件の嗜好データを収集する。このデータセットに対してStableReinforceアルゴリズムを用いて学習した我々の報酬モデルR1-Rewardは、マルチモーダル報酬モデリングベンチマークにおける性能を大幅に向上させた。従来のSOTAモデルと比較して、R1-Rewardは、VL Reward-Benchで$8.4%改善し、Multimodal Reward Benchで$14.3%改善した。さらに、推論計算量を増やすことで、R1-Rewardの性能はさらに向上し、MRMの最適化におけるRLアルゴリズムの可能性を浮き彫りにした。

要約(オリジナル)

Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a $8.4\%$ improvement on the VL Reward-Bench and a $14.3\%$ improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward’s performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.

arxiv情報

著者 Yi-Fan Zhang,Xingyu Lu,Xiao Hu,Chaoyou Fu,Bin Wen,Tianke Zhang,Changyi Liu,Kaiyu Jiang,Kaibing Chen,Kaiyu Tang,Haojie Ding,Jiankang Chen,Fan Yang,Zhang Zhang,Tingting Gao,Liang Wang
発行日 2025-05-05 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning はコメントを受け付けていません

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

要約

テキストからインタラクティブな3Dシーンを合成することは、ゲーム、バーチャルリアリティ、具現化AIにとって不可欠である。しかし、既存の手法はいくつかの課題に直面している。学習ベースのアプローチは小規模な屋内データセットに依存しており、シーンの多様性とレイアウトの複雑性が制限されている。大規模言語モデル(LLM)は多様なテキスト領域の知識を活用することができるが、空間的リアリズムに苦戦し、しばしば常識を無視した不自然なオブジェクト配置を生成する。我々の重要な洞察は、視覚認識は、LLMに欠けている現実的な空間ガイダンスを提供することにより、このギャップを埋めることができるということである。この目的のために、LLMベースのシーンプランニングと視覚ガイドによるレイアウトの改良を統合した、訓練不要のエージェントフレームワークであるScenethesisを紹介する。テキストプロンプトが与えられると、ScenethesisはまずLLMを用いて粗いレイアウトを作成する。次にビジョンモジュールが、画像ガイダンスを生成し、オブジェクト間の関係を把握するためにシーン構造を抽出することにより、レイアウトを洗練させる。次に、最適化モジュールが、正確なポーズアライメントと物理的妥当性を反復的に実施し、オブジェクトの貫通や不安定性などのアーティファクトを防止する。最後に、判定モジュールが空間的な一貫性を検証します。包括的な実験により、Scenethesisは多様でリアル、かつ物理的に妥当な3Dインタラクティブシーンを生成することが示され、バーチャルコンテンツの作成、シミュレーション環境、および具現化されたAI研究に有用であることが示された。

要約(オリジナル)

Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.

arxiv情報

著者 Lu Ling,Chen-Hsuan Lin,Tsung-Yi Lin,Yifan Ding,Yu Zeng,Yichen Sheng,Yunhao Ge,Ming-Yu Liu,Aniket Bera,Zhaoshuo Li
発行日 2025-05-05 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation はコメントを受け付けていません

YARE-GAN: Yet Another Resting State EEG-GAN

要約

本研究では、Wasserstein GAN with Gradient Penalty(WGAN-GP)を実装してマルチチャンネルの安静時脳波データを生成し、視覚的評価と特徴量に基づく評価の両方を通じて合成信号の品質を評価する。その結果、前頭部の高周波振動を再現することに課題が残るものの、このモデルが実際の脳波データの統計的およびスペクトル的特徴を効果的に捉えていることが示された。さらに、Criticの学習した表現が性別分類タスクに再利用できることを示し、シャッフルラベルを用いたベースラインやEEGデータで直接学習したモデルよりも有意に優れたサンプル外精度を達成した。これらの知見は、生成モデルが脳波データ生成器としてだけでなく、教師なし特徴抽出器としても機能し、手作業による特徴工学の必要性を低減できることを示唆している。本研究は、EEG分析におけるGANベースの教師なし学習の可能性を浮き彫りにし、神経科学におけるよりデータ効率の高い深層学習アプリケーションへの道を示唆している。

要約(オリジナル)

In this study, we implement a Wasserstein GAN with Gradient Penalty (WGAN-GP) to generate multi-channel resting-state EEG data and assess the quality of the synthesized signals through both visual and feature-based evaluations. Our results indicate that the model effectively captures the statistical and spectral characteristics of real EEG data, although challenges remain in replicating high-frequency oscillations in the frontal region. Additionally, we demonstrate that the Critic’s learned representations can be reused for gender classification task, achieving an out-of-sample accuracy, significantly better than a shuffled-label baseline and a model trained directly on EEG data. These findings suggest that generative models can serve not only as EEG data generators but also as unsupervised feature extractors, reducing the need for manual feature engineering. This study highlights the potential of GAN-based unsupervised learning for EEG analysis, suggesting avenues for more data-efficient deep learning applications in neuroscience.

arxiv情報

著者 Yeganeh Farahzadi,Morteza Ansarinia,Zoltan Kekecs
発行日 2025-05-05 15:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, q-bio.NC | YARE-GAN: Yet Another Resting State EEG-GAN はコメントを受け付けていません

Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System

要約

近年、大規模言語モデルの利用が増加しているため、高度な敵対的攻撃、操作可能なプロンプト、符号化された悪意のある入力に対して脆弱になっている。既存の対策では、モデルの再トレーニングが必要な場合が多く、計算コストがかかり、導入が現実的ではありません。本研究では、再トレーニングや微調整を必要とせず、LLMが自ら敵対的な入力や悪意のある入力を認識し、フィルタリングし、防御することを可能にするユニークな防御パラダイムを提示する。(1)ゼロショット分類、キーワード分析、エンコードされたコンテンツ検出(base64、16進数、URLエンコードなど)を含む洗練された自然言語処理(NLP)技術を使用して、有害な入力を検出、デコード、分類するプロンプトフィルタリングモジュールと、(2)敵対的な研究文献を処理して要約し、LLMにコンテキストを認識した防御知識を与える要約モジュールである。このアプローチは、テキスト抽出、要約、有害なプロンプト分析を融合することで、LLMの敵対的悪用に対する耐性を強化する。実験結果によると、この統合技術は、有害なパターン、操作的な言語構造、および符号化されたプロンプトの識別において98.71%の成功率を示した。適度な量の敵対的研究文献をコンテキストとして採用することで、この手法はまた、脱獄耐性と拒否率がより高い割合で、有害な入力に対してモデルが正しく反応することを可能にする。LLMの応答の質を維持しながら、このフレームワークは敵対的な悪用に対するLLMの耐性を劇的に向上させ、時間のかかる再トレーニングに基づく防御の迅速で簡単な代替としての有効性を実証している。

要約(オリジナル)

The recent growth in the use of Large Language Models has made them vulnerable to sophisticated adversarial assaults, manipulative prompts, and encoded malicious inputs. Existing countermeasures frequently necessitate retraining models, which is computationally costly and impracticable for deployment. Without the need for retraining or fine-tuning, this study presents a unique defense paradigm that allows LLMs to recognize, filter, and defend against adversarial or malicious inputs on their own. There are two main parts to the suggested framework: (1) A prompt filtering module that uses sophisticated Natural Language Processing (NLP) techniques, including zero-shot classification, keyword analysis, and encoded content detection (e.g. base64, hexadecimal, URL encoding), to detect, decode, and classify harmful inputs; and (2) A summarization module that processes and summarizes adversarial research literature to give the LLM context-aware defense knowledge. This approach strengthens LLMs’ resistance to adversarial exploitation by fusing text extraction, summarization, and harmful prompt analysis. According to experimental results, this integrated technique has a 98.71% success rate in identifying harmful patterns, manipulative language structures, and encoded prompts. By employing a modest amount of adversarial research literature as context, the methodology also allows the model to react correctly to harmful inputs with a larger percentage of jailbreak resistance and refusal rate. While maintaining the quality of LLM responses, the framework dramatically increases LLM’s resistance to hostile misuse, demonstrating its efficacy as a quick and easy substitute for time-consuming, retraining-based defenses.

arxiv情報

著者 Sheikh Samit Muhaimin,Spyridon Mastorakis
発行日 2025-05-05 14:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System はコメントを受け付けていません

Position: Enough of Scaling LLMs! Lets Focus on Downscaling

要約

我々は、ニューラル・スケーリング法則への支配的な焦点に異議を唱え、大規模言語モデル(LLM)の開発におけるダウンスケーリングへのパラダイムシフトを提唱する。スケーリング則は、モデルとデータセットのサイズを大きくすることによる性能向上に関する重要な洞察を提供してきたが、特に計算効率の悪さ、環境への影響、展開の制約といった点で、このアプローチには大きな限界があることを強調する。これらの課題に対処するため、リソースの需要を大幅に削減しながら性能を維持することを目指す、LLMのダウンスケールに関する全体的なフレームワークを提案する。本論文では、従来のスケーリングパラダイムから移行するための実践的な戦略を概説し、LLM開発においてより持続可能で効率的、かつ利用しやすいアプローチを提唱する。

要約(オリジナル)

We challenge the dominant focus on neural scaling laws and advocate for a paradigm shift toward downscaling in the development of large language models (LLMs). While scaling laws have provided critical insights into performance improvements through increasing model and dataset size, we emphasize the significant limitations of this approach, particularly in terms of computational inefficiency, environmental impact, and deployment constraints. To address these challenges, we propose a holistic framework for downscaling LLMs that seeks to maintain performance while drastically reducing resource demands. This paper outlines practical strategies for transitioning away from traditional scaling paradigms, advocating for a more sustainable, efficient, and accessible approach to LLM development.

arxiv情報

著者 Ayan Sengupta,Yash Goel,Tanmoy Chakraborty
発行日 2025-05-05 04:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Position: Enough of Scaling LLMs! Lets Focus on Downscaling はコメントを受け付けていません

TSTMotion: Training-free Scene-aware Text-to-motion Generation

要約

テキスト-トゥ-モーション生成は、最近、主に空白の背景における人間の動きシーケンスを生成することに焦点を当てて、大きな研究関心を集めている。しかし、人間の動きは一般的に多様な3Dシーン内で発生するため、シーンを考慮したテキスト-トゥ-モーション生成手法の探求が促されている。しかし、既存のシーン認識手法は、多くの場合、多様な3Dシーンにおける大規模なグランドトゥルースモーションシーケンスに依存しており、高価なコストのために実用的な課題を提起している。この課題を軽減するために、我々は初めて、シーン認識能力を持つ事前訓練された空白背景モーションジェネレータを効率的に強化する、⾳びない⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを提案する。具体的には、与えられた3Dシーンとテキスト記述を条件として、シーンを意識したモーションガイダンスを推論、予測、検証するために基礎モデルを一緒に採用します。次に、このモーションガイダンスを、2つの修正を加えた空背景モーションジェネレータに組み込み、シーンを意識したテキスト駆動モーションシーケンスを実現する。提案するフレームワークの有効性と汎用性は、広範な実験によって実証されている。本論文のコードは、(参考文献{https://tstmotion.github.io/}{プロジェクトページ})で公開する。

要約(オリジナル)

Text-to-motion generation has recently garnered significant research interest, primarily focusing on generating human motion sequences in blank backgrounds. However, human motions commonly occur within diverse 3D scenes, which has prompted exploration into scene-aware text-to-motion generation methods. Yet, existing scene-aware methods often rely on large-scale ground-truth motion sequences in diverse 3D scenes, which poses practical challenges due to the expensive cost. To mitigate this challenge, we are the first to propose a \textbf{T}raining-free \textbf{S}cene-aware \textbf{T}ext-to-\textbf{Motion} framework, dubbed as \textbf{TSTMotion}, that efficiently empowers pre-trained blank-background motion generators with the scene-aware capability. Specifically, conditioned on the given 3D scene and text description, we adopt foundation models together to reason, predict and validate a scene-aware motion guidance. Then, the motion guidance is incorporated into the blank-background motion generators with two modifications, resulting in scene-aware text-driven motion sequences. Extensive experiments demonstrate the efficacy and generalizability of our proposed framework. We release our code in \href{https://tstmotion.github.io/}{Project Page}.

arxiv情報

著者 Ziyan Guo,Haoxuan Qu,Hossein Rahmani,Dewen Soh,Ping Hu,Qiuhong Ke,Jun Liu
発行日 2025-05-05 05:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | TSTMotion: Training-free Scene-aware Text-to-motion Generation はコメントを受け付けていません

Design, Integration, and Evaluation of a Dual-Arm Robotic System for High Throughput Tissue Sampling from Potato Tubers

要約

分子病原体検出のためのジャガイモ塊茎からの手作業による組織抽出は非常に手間がかかる。本研究では、塊茎把持機構と組織サンプリング機構を統合した、マシンビジョンガイドのデュアルアーム協調型インラインロボットシステムを紹介する。塊茎はコンベア上を搬送され、YOLOv11ベースのビジョンシステムが1自由度(P-DoF)ロボットアームのワークスペース内の塊茎を検出すると停止する。このアームには把持用エンドエフェクターが装備されており、塊茎を固定してサンプリングのための位置決めを行う。2番目のアームは、生検パンチベースのエンドエフェクターを備えた3自由度(P-DoF)の直交マニピュレーターで、次に、目やストロンの傷跡など塊茎上のサンプリング部位を特定するYOLOv10ベースのビジョンシステムに誘導されて組織抽出を行う。サンプリングには、塊茎へのパンチの挿入、組織剥離のためのパンチ回転、生検パンチの引き込み、採取部位への組織コアの堆積という4段階がある。このシステムは、塊茎表面に沿って平均1.84mmの位置誤差を達成し、7.00mmの目標からの深さ偏差は1.79mmであった。コアの抽出と堆積の成功率は81.5%で、平均サンプリング周期は10.4秒であった。システムコンポーネントの総費用は1,900ドル以下であり、労働集約的な手作業による組織サンプリングに代わる、費用対効果の高いシステムとしての可能性が示された。今後の課題は、1つの塊茎から複数箇所をサンプリングするための最適化と、商業環境での検証である。

要約(オリジナル)

Manual tissue extraction from potato tubers for molecular pathogen detection is highly laborious. This study presents a machine-vision-guided, dual-arm coordinated inline robotic system integrating tuber grasping and tissue sampling mechanisms. Tubers are transported on a conveyor that halts when a YOLOv11-based vision system detects a tuber within the workspace of a one-prismatic-degree-of-freedom (P-DoF) robotic arm. This arm, equipped with a gripping end-effector, secures and positions the tuber for sampling. The second arm, a 3-P-DoF Cartesian manipulator with a biopsy punch-based end-effector, then performs tissue extraction guided by a YOLOv10-based vision system that identifies the sampling sites on the tuber such as eyes or stolon scars. The sampling involves four stages: insertion of the punch into the tuber, punch rotation for tissue detachment, biopsy punch retraction, and deposition of the tissue core onto a collection site. The system achieved an average positional error of 1.84 mm along the tuber surface and a depth deviation of 1.79 mm from a 7.00 mm target. The success rate for core extraction and deposition was 81.5%, with an average sampling cycle of 10.4 seconds. The total cost of the system components was under $1,900, demonstrating the system’s potential as a cost-effective alternative to labor-intensive manual tissue sampling. Future work will focus on optimizing for multi-site sampling from a single tuber and validation in commercial settings.

arxiv情報

著者 Divyanth L. G.,Syed Usama Bin Sabir,Divya Rathore,Lav R. Khot,Chakradhar Mattupalli,Manoj Karkee
発行日 2025-05-01 18:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Design, Integration, and Evaluation of a Dual-Arm Robotic System for High Throughput Tissue Sampling from Potato Tubers はコメントを受け付けていません