Mentor-KD: Making Small Language Models Better Multi-step Reasoners

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) プロンプトを活用することで、さまざまな複雑なタスクにわたって優れたパフォーマンスを示しています。
最近の研究では、知識蒸留(KD)アプローチである推論蒸留が提案されています。これは、LLM教師によって生成された複数ステップの理論的根拠の言語モデルを微調整することによって、LLMのそのような推論能力を伝達します。
しかし、彼らは、1) データ品質と 2) ソフトラベルの提供という観点から、LLM 教師モデルからの不十分な蒸留セットに関する 2 つの課題を十分に考慮していませんでした。
この論文では、前述の課題に対処しながら、LLM の複数ステップの推論能力をより小さな LM に効果的に抽出する Mentor-KD を提案します。
具体的には、中規模のタスク固有の微調整モデルであるメンターを活用して、追加の CoT アノテーションを強化し、推論蒸留中に学生モデルにソフト ラベルを提供します。
私たちは広範な実験を実施し、さまざまなモデルや複雑な推論タスクにわたる Mentor-KD の有効性を確認しています。

要約(オリジナル)

Large Language Models (LLMs) have displayed remarkable performances across various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently, studies have proposed a Knowledge Distillation (KD) approach, reasoning distillation, which transfers such reasoning ability of LLMs through fine-tuning language models of multi-step rationales generated by LLM teachers. However, they have inadequately considered two challenges regarding insufficient distillation sets from the LLM teacher model, in terms of 1) data quality and 2) soft label provision. In this paper, we propose Mentor-KD, which effectively distills the multi-step reasoning capability of LLMs to smaller LMs while addressing the aforementioned challenges. Specifically, we exploit a mentor, intermediate-sized task-specific fine-tuned model, to augment additional CoT annotations and provide soft labels for the student model during reasoning distillation. We conduct extensive experiments and confirm Mentor-KD’s effectiveness across various models and complex reasoning tasks.

arxiv情報

著者 Hojae Lee,Junho Kim,SangKeun Lee
発行日 2024-10-11 17:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Mentor-KD: Making Small Language Models Better Multi-step Reasoners はコメントを受け付けていません

SimpleStrat: Diversifying Language Model Generation with Stratification

要約

大規模言語モデル (LLM) から多様な応答を生成することは、多様性によって世代間で明確な答えが得られる、計画/検索や合成データ生成などのアプリケーションにとって非常に重要です。
従来のアプローチは、多様性を高めるために温度を上昇させることに依存していました。
しかし、一般的な考えに反して、このアプローチは気温が上昇すると品質の低い個々の世代を生成するだけでなく、モデルの次のトークンの確率が答えの真の分布に似ていることに依存することを示しました。
私たちは、言語モデル自体を使用して空間を階層に分割する代替アプローチである \method{} を提案します。
推論では、ランダムな層が選択され、その層内からサンプルが抽出されます。
多様性を測定するために、CoverageQA (同様にもっともらしい回答が複数ある不特定の質問のデータセット) を導入し、出力分布と有効なグランド トゥルース回答の一様分布の間の KL ダイバージェンスを測定することで多様性を評価します。
独自モデルの応答/解ごとの確率を計算することは実行不可能であるため、グラウンド トゥルース ソリューションで再現率を測定します。
SimpleStrat を使用した評価では、GPT-4o と比較して 0.05 高い再現率を達成し、Llama 3 と比較して KL Divergence が平均 0.36 減少しました。

要約(オリジナル)

Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model’s next-token probabilities being similar to the true distribution of answers. We propose \method{}, an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.

arxiv情報

著者 Justin Wong,Yury Orlovskiy,Michael Luo,Sanjit A. Seshia,Joseph E. Gonzalez
発行日 2024-10-11 17:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SimpleStrat: Diversifying Language Model Generation with Stratification はコメントを受け付けていません

Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI

要約

自動運転車の進化する状況においては、堅牢な車載ネットワーク (IVN) セキュリティを確保することが最も重要です。
このペーパーでは、変分オートエンコーダー (VAE) ベースの知識蒸留アプローチを使用してパフォーマンスと効率の両方を向上させる、KD-XVAE と呼ばれる高度な侵入検知システム (IDS) を紹介します。
私たちのモデルは複雑さを大幅に軽減し、わずか 1669 個のパラメーターで動作し、バッチあたりの推論時間 0.3 ミリ秒を達成するため、リソースに制約のある自動車環境に非常に適しています。
HCRL カーハッキング データセットの評価では、DoS、ファジング、ギア スプーフィング、RPM スプーフィングなどの複数の攻撃タイプの下で完璧なスコア (再現率、精度、F1 スコア 100%、FNR 0%) を達成する優れた機能が実証されています。
CCIoV2024 データセットの比較分析により、従来の機械学習モデルに対するその優位性がさらに強調され、完璧な検出メトリクスが達成されます。
さらに、Explainable AI (XAI) 技術を統合して、モデルの決定における透明性を確保します。
VAE は、元の特徴空間を潜在空間に圧縮し、その上で蒸留されたモデルがトレーニングされます。
SHAP (SHapley Additive exPlanations) 値は、潜在的な各次元の重要性についての洞察を提供し、直感的な理解のために元の特徴にマッピングし直されます。
私たちの論文は、最先端の技術を統合することでこの分野を前進させ、自動運転車向けの効率的で信頼性の高い IDS の展開における重要な課題に対処し、新たなサイバー脅威に対する保護を強化します。

要約(オリジナル)

In the evolving landscape of autonomous vehicles, ensuring robust in-vehicle network (IVN) security is paramount. This paper introduces an advanced intrusion detection system (IDS) called KD-XVAE that uses a Variational Autoencoder (VAE)-based knowledge distillation approach to enhance both performance and efficiency. Our model significantly reduces complexity, operating with just 1669 parameters and achieving an inference time of 0.3 ms per batch, making it highly suitable for resource-constrained automotive environments. Evaluations in the HCRL Car-Hacking dataset demonstrate exceptional capabilities, attaining perfect scores (Recall, Precision, F1 Score of 100%, and FNR of 0%) under multiple attack types, including DoS, Fuzzing, Gear Spoofing, and RPM Spoofing. Comparative analysis on the CICIoV2024 dataset further underscores its superiority over traditional machine learning models, achieving perfect detection metrics. We furthermore integrate Explainable AI (XAI) techniques to ensure transparency in the model’s decisions. The VAE compresses the original feature space into a latent space, on which the distilled model is trained. SHAP(SHapley Additive exPlanations) values provide insights into the importance of each latent dimension, mapped back to original features for intuitive understanding. Our paper advances the field by integrating state-of-the-art techniques, addressing critical challenges in the deployment of efficient, trustworthy, and reliable IDSes for autonomous vehicles, ensuring enhanced protection against emerging cyber threats.

arxiv情報

著者 Muhammet Anil Yagiz,Pedram MohajerAnsari,Mert D. Pese,Polat Goktas
発行日 2024-10-11 17:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI はコメントを受け付けていません

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

要約

ビジョン言語モデル (VLM) の安全調整機能は、LLM バックボーンと比較して、ビジョン モジュールの統合によって低下する傾向があります。
本稿では「安全性アライメントの劣化」と名付けたこの現象を調査し、この課題が視覚モダリティを VLM に導入する際に生じる表現のギャップから生じることを示します。
特に、マルチモーダル入力の表現が、LLM バックボーンが最適化されている分布を表すテキストのみの入力の表現からシフトすることを示します。
同時に、最初はテキスト埋め込み空間内で開発された安全調整機能は、この新しいマルチモーダル表現空間にうまく移行できません。
安全性アライメントの低下を軽減するために、VLM の機能能力を同時に維持しながら、VLM の LLM バックボーンに固有の安全性アライメント能力を回復するための推論時間表現介入手法であるクロスモダリティ表現操作 (CMRM) を導入します。
経験的な結果は、私たちのフレームワークが、追加のトレーニングなしでも、事前トレーニングされた VLM の流暢さと言語能力への影響を最小限に抑えながら、LLM バックボーンから受け継いだアライメント能力を大幅に回復することを示しています。
具体的には、推論時間の介入のみで、マルチモーダル入力における LLaVA-7B の危険率を 61.53% から 3.15% まで下げることができます。
警告: この文書には、有毒または有害な言葉の例が含まれています。

要約(オリジナル)

The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ”safety alignment degradation” in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.

arxiv情報

著者 Qin Liu,Chao Shang,Ling Liu,Nikolaos Pappas,Jie Ma,Neha Anna John,Srikanth Doss,Lluis Marquez,Miguel Ballesteros,Yassine Benajiba
発行日 2024-10-11 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models はコメントを受け付けていません

ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections

要約

パラメーター効率の良い微調整 (PEFT) は、一般化機能を維持しながら基礎モデルを下流のタスク要件に適応させるために広く普及しています。
ただし、追加で導入されるパラメータの量と、適応やハイパーパラメータの検索を成功させるために計算する量は、特に多数の個別のリクエストに対応するために大規模に展開される場合、急速に爆発的に増加する可能性があります。
効果的でパラメータ効率が高く、ハイパーパラメータに堅牢な適応を保証するために、HypErplane Reflections を介して効率的な微調整を実行する ETHER 変換ファミリーを提案します。
設計上、ETHER 変換に必要なパラメータの数は最小限であり、モデルのパフォーマンスが低下する可能性が低く、ハイパーパラメータと学習率の選択に対する堅牢性を示します。
特に、ETHER とその緩和 ETHER+ を導入します。これは、網羅的なハイパーパラメータを使用せずに、複数の画像合成および自然言語タスクにわたって大幅に少ないパラメータ (LoRA や OFT の $\sim$$10$-$100$ 倍低い) で既存の PEFT 手法と同等またはそれを上回るパフォーマンスを発揮します。
チューニング。
最後に、適応のための超球状エネルギー保持が最近重視されている点を調査し、その実用性について疑問を提起します。
コードは https://github.com/mwbini/ether で入手できます。

要約(オリジナル)

Parameter-efficient finetuning (PEFT) has become ubiquitous to adapt foundation models to downstream task requirements while retaining their generalization ability. However, the amount of additionally introduced parameters and compute for successful adaptation and hyperparameter searches can explode quickly, especially when deployed at scale to serve numerous individual requests. To ensure effective, parameter-efficient, and hyperparameter-robust adaptation, we propose the ETHER transformation family, which performs Efficient fineTuning via HypErplane Reflections. By design, ETHER transformations require a minimal number of parameters, are less likely to deteriorate model performance, and exhibit robustness to hyperparameter and learning rate choices. In particular, we introduce ETHER and its relaxation ETHER+, which match or outperform existing PEFT methods with significantly fewer parameters ($\sim$$10$-$100$ times lower than LoRA or OFT) across multiple image synthesis and natural language tasks without exhaustive hyperparameter tuning. Finally, we investigate the recent emphasis on Hyperspherical Energy retention for adaptation and raise questions on its practical utility. The code is available at https://github.com/mwbini/ether.

arxiv情報

著者 Massimo Bini,Karsten Roth,Zeynep Akata,Anna Khoreva
発行日 2024-10-11 12:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections はコメントを受け付けていません

KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models

要約

拡散モデルの最近の進歩により、テキストから画像への (T2I) 生成が大幅に改善されましたが、きめの細かい精度と高レベルの制御のバランスを取るのに苦労することがよくあります。
ControlNet や T2I-Adapter などのメソッドは、熟練したアーティストによるスケッチを追跡するのに優れていますが、過度に厳格になる傾向があり、初心者ユーザーのスケッチに意図しない欠陥が再現されてしまいます。
一方、スケッチベースの抽象化フレームワークなどの粗粒度の手法は、よりアクセスしやすい入力処理を提供しますが、詳細で専門的な使用に必要な正確な制御が不足しています。
これらの制限に対処するために、さまざまなレベルのスケッチの複雑さとユーザー スキルにシームレスに適応することで、スケッチ ベースの画像生成を民主化するデュアル パスウェイ フレームワークである KnobGen を提案します。
KnobGen は、高レベルのセマンティクスには粗粒度コントローラー (CGC) モジュールを使用し、詳細な調整には細粒度コントローラー (FGC) モジュールを使用します。
これら 2 つのモジュールの相対的な強度は、ユーザーの特定のニーズに合わせてノブ推論メカニズムを通じて調整できます。
これらのメカニズムにより、KnobGen は初心者のスケッチと熟練したアーティストが描いたスケッチの両方から柔軟に画像を生成できます。
これにより、MultiGen-20M データセットと新しく収集されたスケッチ データセットで明らかなように、画像の自然な外観を維持しながら、最終出力の制御が維持されます。

要約(オリジナル)

Recent advances in diffusion models have significantly improved text-to-image (T2I) generation, but they often struggle to balance fine-grained precision with high-level control. Methods like ControlNet and T2I-Adapter excel at following sketches by seasoned artists but tend to be overly rigid, replicating unintentional flaws in sketches from novice users. Meanwhile, coarse-grained methods, such as sketch-based abstraction frameworks, offer more accessible input handling but lack the precise control needed for detailed, professional use. To address these limitations, we propose KnobGen, a dual-pathway framework that democratizes sketch-based image generation by seamlessly adapting to varying levels of sketch complexity and user skill. KnobGen uses a Coarse-Grained Controller (CGC) module for high-level semantics and a Fine-Grained Controller (FGC) module for detailed refinement. The relative strength of these two modules can be adjusted through our knob inference mechanism to align with the user’s specific needs. These mechanisms ensure that KnobGen can flexibly generate images from both novice sketches and those drawn by seasoned artists. This maintains control over the final output while preserving the natural appearance of the image, as evidenced on the MultiGen-20M dataset and a newly collected sketch dataset.

arxiv情報

著者 Pouyan Navard,Amin Karimi Monsefi,Mengxi Zhou,Wei-Lun Chao,Alper Yilmaz,Rajiv Ramnath
発行日 2024-10-11 12:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models はコメントを受け付けていません

HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive Systems

要約

我々は、仮想センサーとして新しいハンドポーズエンベディングインタラクティブシステム(HpEIS)を提案します。これは、さまざまな手のポーズで訓練された変分オートエンコーダー(VAE)を使用して、ユーザーの柔軟な手のポーズを二次元の視覚空間にマッピングします。
HpEIS は、外部の手姿勢取得デバイスとしてカメラのみを使用して、マルチメディア コレクション内のユーザー探索を視覚的に解釈可能かつガイド可能なサポートを可能にします。
私たちは、専門家と経験の浅いユーザーによるパイロット実験を通じて、システムの安定性と平滑化要件に関連する一般的なユーザビリティの問題を特定します。
次に、ハンドポーズデータの拡張、損失関数に追加されたアンチジッター正則化項、動きのターニングポイントの後処理の安定化、ワンユーロフィルターに基づく後処理の平滑化など、安定性と平滑化の改善を設計します。
ターゲット選択実験 (n=12) では、ジェスチャ ガイダンス ウィンドウ条件の有無にかかわらず、タスクの完了時間とターゲット ポイントまでの最終距離の測定によって HpEIS を評価します。
実験の結果は、HpEIS が学習可能で柔軟、安定したスムーズな空中の手の動きのインタラクション エクスペリエンスをユーザーに提供することを示しています。

要約(オリジナル)

We present a novel Hand-pose Embedding Interactive System (HpEIS) as a virtual sensor, which maps users’ flexible hand poses to a two-dimensional visual space using a Variational Autoencoder (VAE) trained on a variety of hand poses. HpEIS enables visually interpretable and guidable support for user explorations in multimedia collections, using only a camera as an external hand pose acquisition device. We identify general usability issues associated with system stability and smoothing requirements through pilot experiments with expert and inexperienced users. We then design stability and smoothing improvements, including hand-pose data augmentation, an anti-jitter regularisation term added to loss function, stabilising post-processing for movement turning points and smoothing post-processing based on One Euro Filters. In target selection experiments (n=12), we evaluate HpEIS by measures of task completion time and the final distance to target points, with and without the gesture guidance window condition. Experimental responses indicate that HpEIS provides users with a learnable, flexible, stable and smooth mid-air hand movement interaction experience.

arxiv情報

著者 Songpei Xu,Xuri Ge,Chaitanya Kaul,Roderick Murray-Smith
発行日 2024-10-11 12:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive Systems はコメントを受け付けていません

VideoSAM: Open-World Video Segmentation

要約

ビデオ セグメンテーションは、ロボット工学と自動運転の進歩に不可欠であり、特にビデオ フレーム間での継続的な認識とオブジェクトの関連付けが重要なオープンワールド環境では不可欠です。
Segment Anything Model (SAM) は静的画像のセグメンテーションでは優れていますが、その機能をビデオ セグメンテーションに拡張すると大きな課題が生じます。
私たちは 2 つの大きなハードルに取り組みます。a) フレーム間でオブジェクトを関連付ける際の SAM の埋め込み制限、b) オブジェクトのセグメンテーションにおける粒度の不一致です。
この目的を達成するために、動的環境におけるオブジェクト追跡とセグメンテーションの一貫性を向上させることで、これらの課題に対処するように設計されたエンドツーエンドのフレームワークである VideoSAM を導入します。
VideoSAM は、集約されたバックボーンである RADIO を統合し、類似性メトリクスによるオブジェクトの関連付けを可能にし、安定したオブジェクト追跡のためのメモリ メカニズムを備えた Cycle-ack-Pairs Propagation を導入します。
さらに、フレーム全体で一貫した粒度を維持するために、SAM デコーダ内に自己回帰オブジェクト トークン メカニズムを組み込んでいます。
私たちの手法は、UVO および BURST ベンチマーク、および RoboTAP のロボット ビデオで広範囲に評価され、現実世界のシナリオにおけるその有効性と堅牢性が実証されています。
すべてのコードが利用可能になります。

要約(オリジナル)

Video segmentation is essential for advancing robotics and autonomous driving, particularly in open-world settings where continuous perception and object association across video frames are critical. While the Segment Anything Model (SAM) has excelled in static image segmentation, extending its capabilities to video segmentation poses significant challenges. We tackle two major hurdles: a) SAM’s embedding limitations in associating objects across frames, and b) granularity inconsistencies in object segmentation. To this end, we introduce VideoSAM, an end-to-end framework designed to address these challenges by improving object tracking and segmentation consistency in dynamic environments. VideoSAM integrates an agglomerated backbone, RADIO, enabling object association through similarity metrics and introduces Cycle-ack-Pairs Propagation with a memory mechanism for stable object tracking. Additionally, we incorporate an autoregressive object-token mechanism within the SAM decoder to maintain consistent granularity across frames. Our method is extensively evaluated on the UVO and BURST benchmarks, and robotic videos from RoboTAP, demonstrating its effectiveness and robustness in real-world scenarios. All codes will be available.

arxiv情報

著者 Pinxue Guo,Zixu Zhao,Jianxiong Gao,Chongruo Wu,Tong He,Zheng Zhang,Tianjun Xiao,Wenqiang Zhang
発行日 2024-10-11 12:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoSAM: Open-World Video Segmentation はコメントを受け付けていません

VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model

要約

ビジョン言語モデル (VLM) は、常識的な推論と一般化の能力により、最近ロボット工学に採用されています。
既存の研究では、VLM を適用して、自然言語命令からタスクおよび動作計画を生成し、ロボット学習用のトレーニング データをシミュレートしました。
この研究では、VLM を使用して人間のデモンストレーション ビデオを解釈し、ロボットのタスク計画を生成することを検討します。
私たちのメソッドは、キーフレームの選択、視覚認識、および VLM 推論をパイプラインに統合します。
これを SeeDo と名付けたのは、VLM が人間のデモンストレーションを「見て」、対応する計画をロボットに「実行」させるための説明ができるからです。
私たちのアプローチを検証するために、3 つの多様なカテゴリでピック アンド プレース タスクをデモンストレーションする一連の長期にわたるヒューマン ビデオを収集し、最先端のビデオを含むいくつかのベースラインに対して SeeDo を包括的にベンチマークするための一連の指標を設計しました。
入力 VLM。
実験では、SeeDo の優れたパフォーマンスが実証されました。
さらに、生成されたタスク プランをシミュレーション環境と実際のロボット アームの両方に展開しました。

要約(オリジナル)

Vision Language Models (VLMs) have recently been adopted in robotics for their capability in common sense reasoning and generalizability. Existing work has applied VLMs to generate task and motion planning from natural language instructions and simulate training data for robot learning. In this work, we explore using VLM to interpret human demonstration videos and generate robot task planning. Our method integrates keyframe selection, visual perception, and VLM reasoning into a pipeline. We named it SeeDo because it enables the VLM to ”see” human demonstrations and explain the corresponding plans to the robot for it to ”do”. To validate our approach, we collected a set of long-horizon human videos demonstrating pick-and-place tasks in three diverse categories and designed a set of metrics to comprehensively benchmark SeeDo against several baselines, including state-of-the-art video-input VLMs. The experiments demonstrate SeeDo’s superior performance. We further deployed the generated task plans in both a simulation environment and on a real robot arm.

arxiv情報

著者 Beichen Wang,Juexiao Zhang,Shuwen Dong,Irving Fang,Chen Feng
発行日 2024-10-11 13:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model はコメントを受け付けていません

CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection

要約

迅速かつ正確な血液塗抹標本分析は、白血病やその他の血液悪性腫瘍の効果的な診断方法です。
ただし、手動による白血球数の計測と顕微鏡を使用した形態学的評価は時間がかかり、エラーが発生しやすくなります。
また、従来の画像処理方法では、悪性細胞と良性細胞の形態の視覚的類似性により、細胞の識別に限界がありました。
この制限は、信頼できる適切な特徴の抽出を妨げる歪んだトレーニング データによってさらに悪化します。
これらの課題に対応して、我々は、白血病の分類に最適化された結合変圧器畳み込みネットワーク (CoTCoNet) フレームワークを提案します。このフレームワークは、深い畳み込みネットワークと統合された適切に設計された変換器を採用して、包括的なグローバルな特徴とスケーラブルな空間パターンを効果的にキャプチャし、
複雑かつ大規模な血液学的特徴の特定。
さらに、このフレームワークには、白血球細胞の隠された、または観察されにくい生物学的特徴を明らかにするためのグラフベースの特徴再構成モジュールが組み込まれており、特徴の選択と最適化には集団ベースのメタヒューリスティック アルゴリズムが採用されています。
データの不均衡の問題を軽減するために、合成白血球ジェネレーターを採用しています。
評価フェーズでは、最初に 16,982 個の注釈付きセルを含むデータセットで CoTCoNet を評価し、それぞれ 0.9894 および 0.9893 という顕著な精度と F1 スコア率を達成しました。
モデルの一般化可能性を広げるために、前述のデータセットを含む、公開されている 4 つの多様なデータセットにわたってモデルを評価します。
この評価は、私たちの方法が現在の最先端のアプローチよりも優れていることを示しています。
また、フレームワークのより深い理解を提供するために、セルの注釈と密接に連携した機能の視覚化の形で説明可能性のアプローチも組み込んでいます。

要約(オリジナル)

Swift and accurate blood smear analysis is an effective diagnostic method for leukemia and other hematological malignancies. However, manual leukocyte count and morphological evaluation using a microscope is time-consuming and prone to errors. Conventional image processing methods also exhibit limitations in differentiating cells due to the visual similarity between malignant and benign cell morphology. This limitation is further compounded by the skewed training data that hinders the extraction of reliable and pertinent features. In response to these challenges, we propose an optimized Coupled Transformer Convolutional Network (CoTCoNet) framework for the classification of leukemia, which employs a well-designed transformer integrated with a deep convolutional network to effectively capture comprehensive global features and scalable spatial patterns, enabling the identification of complex and large-scale hematological features. Further, the framework incorporates a graph-based feature reconstruction module to reveal the hidden or unobserved hard-to-see biological features of leukocyte cells and employs a Population-based Meta-Heuristic Algorithm for feature selection and optimization. To mitigate data imbalance issues, we employ a synthetic leukocyte generator. In the evaluation phase, we initially assess CoTCoNet on a dataset containing 16,982 annotated cells, and it achieves remarkable accuracy and F1-Score rates of 0.9894 and 0.9893, respectively. To broaden the generalizability of our model, we evaluate it across four publicly available diverse datasets, which include the aforementioned dataset. This evaluation demonstrates that our method outperforms current state-of-the-art approaches. We also incorporate an explainability approach in the form of feature visualization closely aligned with cell annotations to provide a deeper understanding of the framework.

arxiv情報

著者 Chandravardhan Singh Raghaw,Arnav Sharma,Shubhi Bansa,Mohammad Zia Ur Rehman,Nagendra Kumar
発行日 2024-10-11 13:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection はコメントを受け付けていません