3D ReX: Causal Explanations in 3D Neuroimaging Classification

要約

説明可能性は、医療イメージングにおけるAIモデルにとって重要な問題のままであり、臨床医がAI主導の予測を信頼することは困難です。
3Dモデル向けの最初の因果関係ベースの事後説明ツールである3D Rexを紹介します。
3D Rexは、実際の因果関係の理論を使用して、モデルの決定に最も重要な領域を強調する責任マップを生成します。
ストローク検出モデルで3D Rexをテストし、ストロークに関連する機能の空間分布に関する洞察を提供します。

要約(オリジナル)

Explainability remains a significant problem for AI models in medical imaging, making it challenging for clinicians to trust AI-driven predictions. We introduce 3D ReX, the first causality-based post-hoc explainability tool for 3D models. 3D ReX uses the theory of actual causality to generate responsibility maps which highlight the regions most crucial to the model’s decision. We test 3D ReX on a stroke detection model, providing insight into the spatial distribution of features relevant to stroke.

arxiv情報

著者 Melane Navaratnarajah,Sophie A. Martin,David A. Kelly,Nathan Blake,Hana Chockler
発行日 2025-02-26 18:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | 3D ReX: Causal Explanations in 3D Neuroimaging Classification はコメントを受け付けていません

Multi-modal Contrastive Learning for Tumor-specific Missing Modality Synthesis

要約

マルチモーダル磁気共鳴画像(MRI)は、脳の解剖学と病理に関する補完的な情報を提供するために不可欠であり、より正確な診断につながります。
ただし、臨床環境で高品質のマルチモーダルMRIを取得することは、時間の制約、高コスト、患者運動のアーティファクトなどの要因のために困難です。
この困難を克服するために、利用可能なソースのモダリティ画像を失ったターゲットモダリティイメージを合成できる生成モデルを開発することに関心が高まっています。
したがって、マルチモーダルのコントラスト学習を重要な腫瘍領域に焦点を当てることを統合するMRIを失ったMRIの生成モデルを設計します。
具体的には、複数のソースモダリティに合わせて調整されたマルチモーダルコントラスト学習を統合し、対照学習プロセス中にエントロピーに基づいて機能を選択することにより、その効果を高めます。
さらに、当社のネットワークは、欠落しているターゲットモダリティ画像を生成するだけでなく、セグメンテーションの出力を同時に予測します。
このアプローチは、腫瘍領域を正確に生成する発電機の能力を改善し、最終的にダウンストリームセグメンテーションタスクのパフォーマンスを向上させます。
コントラスト、セグメンテーション、および追加の自己表現損失の組み合わせを活用することにより、モデルはターゲット固有の情報を効果的に反映し、高品質のターゲット画像を生成します。
その結果、Brain MR Image Synthesis Challengeの結果は、提案されたモデルが欠落しているモダリティの生成に優れていることを示しています。

要約(オリジナル)

Multi-modal magnetic resonance imaging (MRI) is essential for providing complementary information about brain anatomy and pathology, leading to more accurate diagnoses. However, obtaining high-quality multi-modal MRI in a clinical setting is difficult due to factors such as time constraints, high costs, and patient movement artifacts. To overcome this difficulty, there is increasing interest in developing generative models that can synthesize missing target modality images from the available source ones. Therefore, we design a generative model for missing MRI that integrates multi-modal contrastive learning with a focus on critical tumor regions. Specifically, we integrate multi-modal contrastive learning, tailored for multiple source modalities, and enhance its effectiveness by selecting features based on entropy during the contrastive learning process. Additionally, our network not only generates the missing target modality images but also predicts segmentation outputs, simultaneously. This approach improves the generator’s capability to precisely generate tumor regions, ultimately improving performance in downstream segmentation tasks. By leveraging a combination of contrastive, segmentation, and additional self-representation losses, our model effectively reflects target-specific information and generate high-quality target images. Consequently, our results in the Brain MR Image Synthesis challenge demonstrate that the proposed model excelled in generating the missing modality.

arxiv情報

著者 Minjoo Lim,Bogyeong Kang,Tae-Eui Kam
発行日 2025-02-26 18:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Multi-modal Contrastive Learning for Tumor-specific Missing Modality Synthesis はコメントを受け付けていません

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

要約

ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以上のものが必要です。
構造化された視覚的説明による効果的なコミュニケーションは、より深い理解のために重要です。
大規模な言語モデル(LLMS)は、テキストベースの定理推論において強力なパフォーマンスを示していますが、コヒーレントで教育的に意味のある視覚的説明を生成する能力は、未解決の課題のままです。
この作業では、マニムアニメーションを使用して長型の定理的な説明ビデオ(5分以上)を生成するためのエージェントアプローチであるremexplainagentを紹介します。
マルチモーダル定理の説明を体系的に評価するために、5つの自動評価メトリックとともに、複数のSTEM分野にわたる240の定理をカバーするベンチマークであるTheoremexplainbenchを提案します。
私たちの結果は、エージェントの計画が詳細な長型ビデオを生成するために不可欠であり、O3-MINIエージェントの成功率は93.8%と0.77の総合スコアを達成することを明らかにしています。
しかし、私たちの定量的および定性的研究は、作成されたビデオのほとんどが視覚的な要素レイアウトでマイナーな問題を示していることを示しています。
さらに、マルチモーダルの説明は、テキストベースの説明が明らかにできず、マルチモーダルの説明の重要性を強調しているという、より深い推論の欠陥を明らかにします。

要約(オリジナル)

Understanding domain-specific theorems often requires more than just text-based reasoning; effective communication through structured visual explanations is crucial for deeper comprehension. While large language models (LLMs) demonstrate strong performance in text-based theorem reasoning, their ability to generate coherent and pedagogically meaningful visual explanations remains an open challenge. In this work, we introduce TheoremExplainAgent, an agentic approach for generating long-form theorem explanation videos (over 5 minutes) using Manim animations. To systematically evaluate multimodal theorem explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems across multiple STEM disciplines, along with 5 automated evaluation metrics. Our results reveal that agentic planning is essential for generating detailed long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an overall score of 0.77. However, our quantitative and qualitative studies show that most of the videos produced exhibit minor issues with visual element layout. Furthermore, multimodal explanations expose deeper reasoning flaws that text-based explanations fail to reveal, highlighting the importance of multimodal explanations.

arxiv情報

著者 Max Ku,Thomas Chong,Jonathan Leung,Krish Shah,Alvin Yu,Wenhu Chen
発行日 2025-02-26 18:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding はコメントを受け付けていません

ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models

要約

画像のシーケンス上の推論は、マルチモーダルの大手言語モデル(MLLMS)にとって課題のままです。
最近のモデルは、トレーニング前にマルチイメージデータを組み込んでいますが、シーケンシャル構造を認識するのに苦労しており、多くの場合画像を独立して扱います。
このワークでは、視覚シーケンスをマルチターン会話としてモデル化することにより、画像データ上のシーケンシャルな推論機能を備えたMLLMを強化するフレームワークであるImageChainを紹介します。
ImageChainでは、画像は対応するテキストの説明とインターリーブして、時間的依存関係と物語の進行を明示的にキャプチャする制御された対話を形成します。
私たちの方法は、次のシーンの説明のタスクを最適化します。ここで、モデルは、前の視覚的およびテキストのキューに基づいて、今後のシーンのコンテキスト認識の説明を生成します。
私たちのアプローチは、次のシーンの説明タスクのパフォーマンスを向上させることを実証します – SIMRateで3.7%から19%への平均改善を達成します。
さらに、ImageChainは、コミックからロボット工学までのアプリケーションで、堅牢なゼロショットのドメイン外のパフォーマンスを実現します。
広範な実験では、マルチモーダルのマルチターン会話デザインでの命令調整が、静的画像の理解と一時的に認識される推論のギャップを埋めるための鍵であることを検証します。

要約(オリジナル)

Reasoning over sequences of images remains a challenge for multimodal large language models (MLLMs). While recent models incorporate multi-image data during pre-training, they still struggle to recognize sequential structures, often treating images independently. This work introduces ImageChain, a framework that enhances MLLMs with sequential reasoning capabilities over image data by modeling visual sequences as a multi-turn conversation. In ImageChain, images are interleaved with corresponding textual descriptions to form a controlled dialogue that explicitly captures temporal dependencies and narrative progression. Our method optimizes for the task of next-scene description, where the model generates a context-aware description of an upcoming scene based on preceding visual and textual cues. We demonstrate that our approach improves performance on the next-scene description task — achieving an average improvement from 3.7% to 19% in SimRate, a metric that quantifies semantic similarity to human-annotated ground truths. Moreover, ImageChain achieves robust zero-shot out-of-domain performance in applications ranging from comics to robotics. Extensive experiments validate that instruction-tuning in a multimodal, multi-turn conversation design is key to bridging the gap between static image understanding and temporally-aware reasoning.

arxiv情報

著者 Danae Sánchez Villegas,Ingo Ziegler,Desmond Elliott
発行日 2025-02-26 18:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models はコメントを受け付けていません

Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks

要約

集中制御なしで集合的な目標を最適化するエージェントのオーケストレーションは、自律艦隊の制御、センサーネットワークを使用した監視と偵察などのアプリケーションにとって挑戦的でありながら重要です。
分散型コントローラーの設計は、自然界で見られる自己組織化に触発されており、インスピレーションの顕著な源が群がっています。
ただし、分散型コントローラーは群れの凝集を維持するのに苦労しています。
グラフニューラルネットワーク(GNN)アーキテクチャは、群れの凝集を維持できる分散型コントローラーを開発するための不可欠な機械学習ツールとして浮上していますが、群れのダイナミクスに存在する対称性を悪用し、一般化を妨げることができません。
分散型の群れGNNコントローラーの回転等積と翻訳の不変性対称性を実施し、これらの対称性が施行されていない既存のGNNコントローラーよりも70%少ないトレーニングデータと75%少ないトレーニング可能なウェイトで同等の散布コントロールを実現します。
また、対称性コントローラーが既存のGNNコントローラーよりも優れていることを示します。
コードとアニメーションは、http://github.com/utah-math-data-science/equivariant-decentralized-controllersで入手できます。

要約(オリジナル)

The orchestration of agents to optimize a collective objective without centralized control is challenging yet crucial for applications such as controlling autonomous fleets, and surveillance and reconnaissance using sensor networks. Decentralized controller design has been inspired by self-organization found in nature, with a prominent source of inspiration being flocking; however, decentralized controllers struggle to maintain flock cohesion. The graph neural network (GNN) architecture has emerged as an indispensable machine learning tool for developing decentralized controllers capable of maintaining flock cohesion, but they fail to exploit the symmetries present in flocking dynamics, hindering their generalizability. We enforce rotation equivariance and translation invariance symmetries in decentralized flocking GNN controllers and achieve comparable flocking control with 70% less training data and 75% fewer trainable weights than existing GNN controllers without these symmetries enforced. We also show that our symmetry-aware controller generalizes better than existing GNN controllers. Code and animations are available at http://github.com/Utah-Math-Data-Science/Equivariant-Decentralized-Controllers.

arxiv情報

著者 Taos Transue,Bao Wang
発行日 2025-02-26 16:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68Q32, 68T42, cs.LG, cs.RO | Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks はコメントを受け付けていません

Aligned Datasets Improve Detection of Latent Diffusion-Generated Images

要約

潜在的な拡散モデル(LDM)が画像生成機能を民主化するにつれて、偽の画像を検出する必要性が高まっています。
優れた検出器は、セマンティックコンテンツ、解像度、ファイル形式などの画像プロパティを無視しながら、生成モデルの指紋に焦点を合わせる必要があります。偽の画像検出器は、通常、モデルが実際の画像から分離するようにトレーニングされるようにトレーニングされるデータ駆動型の方法で構築されます。
既存の作品は、主にネットワークアーキテクチャの選択とトレーニングレシピを調査します。
この作業では、これらのアルゴリズムの選択に加えて、堅牢な検出器を訓練するために、実際の/偽画像の適切に整合したデータセットも必要であると主張します。
LDMSのファミリーのために、これを達成するための非常に簡単な方法を提案します。LDMSオートエンコーダーを使用してすべての実際の画像を再構築し、除去操作なしに再構築します。
次に、モデルをトレーニングして、これらの実際の画像を再構成から分離します。
この方法で作成されたフェイクは、ほぼすべての面(サイズ、アスペクト比、セマンティックコンテンツなど)の実際のものと非常に似ており、モデルにLDMデコーダーアーティファクトを探すように強制します。
また、計算上の高価な除去プロセスを回避するアライメントされた実際の/偽のデータセットを作成するこの方法は、非常に人気のある既存の方法が感受性のあるものである偽の相関にあまり焦点を当てていない検出器を構築するのに役立つことを経験的に示します。
最後に、データセットのアライメントがどれほど効果的であるかを示すために、自然なオブジェクトではない画像を使用して検出器を構築し、有望な結果を提示します。
全体として、私たちの仕事は、偽の画像検出器をトレーニングするときに発生する微妙であるが重要な問題を特定し、これらの問題に対処するためのシンプルで安価なソリューションを提案します。

要約(オリジナル)

As latent diffusion models (LDMs) democratize image generation capabilities, there is a growing need to detect fake images. A good detector should focus on the generative models fingerprints while ignoring image properties such as semantic content, resolution, file format, etc. Fake image detectors are usually built in a data driven way, where a model is trained to separate real from fake images. Existing works primarily investigate network architecture choices and training recipes. In this work, we argue that in addition to these algorithmic choices, we also require a well aligned dataset of real/fake images to train a robust detector. For the family of LDMs, we propose a very simple way to achieve this: we reconstruct all the real images using the LDMs autoencoder, without any denoising operation. We then train a model to separate these real images from their reconstructions. The fakes created this way are extremely similar to the real ones in almost every aspect (e.g., size, aspect ratio, semantic content), which forces the model to look for the LDM decoders artifacts. We empirically show that this way of creating aligned real/fake datasets, which also sidesteps the computationally expensive denoising process, helps in building a detector that focuses less on spurious correlations, something that a very popular existing method is susceptible to. Finally, to demonstrate just how effective the alignment in a dataset can be, we build a detector using images that are not natural objects, and present promising results. Overall, our work identifies the subtle but significant issues that arise when training a fake image detector and proposes a simple and inexpensive solution to address these problems.

arxiv情報

著者 Anirudh Sundara Rajan,Utkarsh Ojha,Jedidiah Schloesser,Yong Jae Lee
発行日 2025-02-26 18:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aligned Datasets Improve Detection of Latent Diffusion-Generated Images はコメントを受け付けていません

GHOST 2.0: generative high-fidelity one shot transfer of heads

要約

フェイススワッピングのタスクは最近、研究コミュニティで注目を集めていますが、ヘッドスワッピングの関連する問題はほとんど未踏のままです。
肌の色の伝達に加えて、ヘッドスワップは、合成中に頭全体の構造情報を保存する必要性や、スワップされた頭と背景の間の塗装ギャップなど、追加の課題をもたらします。
この論文では、これらの懸念に2つの問題固有のモジュールで構成されるGhost 2.0に対処します。
まず、ヘッド再現の拡張アライナーモデルを導入します。これは、複数のスケールでアイデンティティ情報を保存し、極端なポーズバリエーションから堅牢なものです。
第二に、肌の色を転送し、不一致の領域を入力することにより、再現されたヘッドをターゲットの背景にシームレスに統合するブレンダーモジュールを使用します。
両方のモジュールは、対応するタスクのベースラインよりも優れているため、ヘッドスワッピングで最先端の結果を達成できます。
また、ソースやターゲットのヘアスタイルの大きな違いなど、複雑なケースにも取り組みます。
コードはhttps://github.com/ai-forever/ghost-2.0で入手できます

要約(オリジナル)

While the task of face swapping has recently gained attention in the research community, a related problem of head swapping remains largely unexplored. In addition to skin color transfer, head swap poses extra challenges, such as the need to preserve structural information of the whole head during synthesis and inpaint gaps between swapped head and background. In this paper, we address these concerns with GHOST 2.0, which consists of two problem-specific modules. First, we introduce enhanced Aligner model for head reenactment, which preserves identity information at multiple scales and is robust to extreme pose variations. Secondly, we use a Blender module that seamlessly integrates the reenacted head into the target background by transferring skin color and inpainting mismatched regions. Both modules outperform the baselines on the corresponding tasks, allowing to achieve state of the art results in head swapping. We also tackle complex cases, such as large difference in hair styles of source and target. Code is available at https://github.com/ai-forever/ghost-2.0

arxiv情報

著者 Alexander Groshev,Anastasiia Iashchenko,Pavel Paramonov,Denis Dimitrov,Andrey Kuznetsov
発行日 2025-02-26 16:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GHOST 2.0: generative high-fidelity one shot transfer of heads はコメントを受け付けていません

The FFT Strikes Back: An Efficient Alternative to Self-Attention

要約

従来の自己関節メカニズムには二次の複雑さが発生し、長いシーケンスでのスケーラビリティが制限されます。
高速フーリエ変換(FFT)を活用して$ \ mathcal {o}(n \ log n)$時間でグローバルなトークンミキシングを実現する適応スペクトルフィルタリングフレームワークであるFFTNETを紹介します。
入力を周波数ドメインに変換することにより、FFTNETは、長距離依存関係を効率的にキャプチャするために、Parsevalの定理によって保証された直交性とエネルギー保存を活用します。
学習可能なスペクトルフィルターとModreluの活性化は、顕著な周波数コンポーネントを動的に強調し、従来の自己関節に代わる厳密で適応的な代替品を提供します。
長距離アリーナとイメージネットのベンチマークでの実験は、当社の理論的洞察を検証し、固定フーリエおよび標準の注意モデルよりも優れた性能を示します。

要約(オリジナル)

Conventional self-attention mechanisms incur quadratic complexity, limiting their scalability on long sequences. We introduce FFTNet, an adaptive spectral filtering framework that leverages the Fast Fourier Transform (FFT) to achieve global token mixing in $\mathcal{O}(n\log n)$ time. By transforming inputs into the frequency domain, FFTNet exploits the orthogonality and energy preservation guaranteed by Parseval’s theorem to capture long-range dependencies efficiently. A learnable spectral filter and modReLU activation dynamically emphasize salient frequency components, providing a rigorous and adaptive alternative to traditional self-attention. Experiments on the Long Range Arena and ImageNet benchmarks validate our theoretical insights and demonstrate superior performance over fixed Fourier and standard attention models.

arxiv情報

著者 Jacob Fein-Ashley
発行日 2025-02-26 16:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The FFT Strikes Back: An Efficient Alternative to Self-Attention はコメントを受け付けていません

Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

要約

少数の3Dポイントクラウドセグメンテーション(FS-PCS)は、最小限の注釈付きサポートサンプルで新しいカテゴリをセグメント化するモデルを一般化することを目的としています。
既存のFS-PCSメソッドは有望であることを示していますが、主に単峰性ポイントクラウド入力に焦点を当て、マルチモーダル情報を活用する潜在的な利点を見落としています。
この論文では、マルチモーダルFS-PCSセットアップを導入して、テキストラベルと潜在的に利用可能な2D画像モダリティを利用することにより、このギャップに対処します。
この習慣の簡単なセットアップでは、複数のモダリティからの補完情報を効果的に活用するモデルであるマルチモーダルの少数のショットSEGNET(MM-FSS)を提示します。
MM-FSSは、2つのヘッドを持つ共有バックボーンを使用して、インターモーダルと非モーダルの視覚的特徴を抽出し、テキストの埋め込みを生成するために前処理されたテキストエンコーダを採用しています。
マルチモーダル情報を完全に活用するために、マルチモーダル相関(MCF)モジュールを提案してマルチモーダル相関を生成し、マルチモーダルセマンティックフュージョン(MSF)モジュールを生成して、テキスト認識セマンティックガイダンスを使用して相関を改善します。
さらに、トレーニングバイアスを緩和するためのシンプルで効果的なテスト時間適応クロスモーダルキャリブレーション(TACC)手法を提案し、一般化をさらに改善します。
S3DISおよびSCANNETデータセットの実験結果は、私たちの方法によって達成された大幅なパフォーマンスの改善を示しています。
私たちのアプローチの有効性は、FS-PCSの一般的に無視された自由モダリティを活用することの利点を示しており、将来の研究に貴重な洞察を提供します。
このコードは、https://github.com/zhaochongan/multimodality-3d-few-shotで入手できます

要約(オリジナル)

Few-shot 3D point cloud segmentation (FS-PCS) aims at generalizing models to segment novel categories with minimal annotated support samples. While existing FS-PCS methods have shown promise, they primarily focus on unimodal point cloud inputs, overlooking the potential benefits of leveraging multimodal information. In this paper, we address this gap by introducing a multimodal FS-PCS setup, utilizing textual labels and the potentially available 2D image modality. Under this easy-to-achieve setup, we present the MultiModal Few-Shot SegNet (MM-FSS), a model effectively harnessing complementary information from multiple modalities. MM-FSS employs a shared backbone with two heads to extract intermodal and unimodal visual features, and a pretrained text encoder to generate text embeddings. To fully exploit the multimodal information, we propose a Multimodal Correlation Fusion (MCF) module to generate multimodal correlations, and a Multimodal Semantic Fusion (MSF) module to refine the correlations using text-aware semantic guidance. Additionally, we propose a simple yet effective Test-time Adaptive Cross-modal Calibration (TACC) technique to mitigate training bias, further improving generalization. Experimental results on S3DIS and ScanNet datasets demonstrate significant performance improvements achieved by our method. The efficacy of our approach indicates the benefits of leveraging commonly-ignored free modalities for FS-PCS, providing valuable insights for future research. The code is available at https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

arxiv情報

著者 Zhaochong An,Guolei Sun,Yun Liu,Runjia Li,Min Wu,Ming-Ming Cheng,Ender Konukoglu,Serge Belongie
発行日 2025-02-26 12:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation はコメントを受け付けていません

Enhancing Reusability of Learned Skills for Robot Manipulation via Gaze and Bottleneck

要約

多様なオブジェクト操作が可能な自律エージェントは、高い再利用性を備えた幅広い操作スキルを習得できるはずです。
深い学習の進歩により、ロボットの人間の操作の器用さを再現することがますます実行可能になりましたが、これらの獲得したスキルを以前に見えなかったシナリオに一般化することは依然として重要な課題です。
この研究では、オブジェクトの位置とエンドエフェクターのポーズが提供されたデモンストレーションのものとは異なる場合でも、学習された動きの高い再利用性を可能にする、新しいアルゴリズムである視線ベースのボトルネックを意識したロボット操作(GazeBot)を提案します。
視線情報とモーションボトルネックを活用することにより、両方ともオブジェクト操作のための重要な機能の両方で、Gazebotは、その器用さと反応性を犠牲にすることなく、最先端の模倣学習方法と比較して高い一般化パフォーマンスを実現します。
さらに、GazeBotのトレーニングプロセスは、視線データを備えたデモデータセットが提供されると、完全にデータ駆動型です。
ビデオとコードは、https://crumbyrobotics.github.io/gazebotで入手できます。

要約(オリジナル)

Autonomous agents capable of diverse object manipulations should be able to acquire a wide range of manipulation skills with high reusability. Although advances in deep learning have made it increasingly feasible to replicate the dexterity of human teleoperation in robots, generalizing these acquired skills to previously unseen scenarios remains a significant challenge. In this study, we propose a novel algorithm, Gaze-based Bottleneck-aware Robot Manipulation (GazeBot), which enables high reusability of the learned motions even when the object positions and end-effector poses differ from those in the provided demonstrations. By leveraging gaze information and motion bottlenecks, both crucial features for object manipulation, GazeBot achieves high generalization performance compared with state-of-the-art imitation learning methods, without sacrificing its dexterity and reactivity. Furthermore, the training process of GazeBot is entirely data-driven once a demonstration dataset with gaze data is provided. Videos and code are available at https://crumbyrobotics.github.io/gazebot.

arxiv情報

著者 Ryo Takizawa,Izumi Karino,Koki Nakagawa,Yoshiyuki Ohmura,Yasuo Kuniyoshi
発行日 2025-02-26 09:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Enhancing Reusability of Learned Skills for Robot Manipulation via Gaze and Bottleneck はコメントを受け付けていません