MultiFormer: A Multi-Person Pose Estimation System Based on CSI and Attention Mechanism

要約

チャネル状態情報(CSI)に基づく人間のポーズ推定は、非侵入的で正確な人間の活動監視の有望なアプローチとして浮上していますが、正確なマルチパーソンポーズ認識や効果的なCSI機能学習などの課題に直面しています。
このペーパーでは、CSIを通じて人間のポーズを正確に推定するワイヤレスセンシングシステムであるMultiformerを紹介します。
提案されたシステムは、マルチヘッドの自己関節を備えたトランスベースの時間周波数デュアルトークン特徴抽出器を採用しています。
この機能抽出器は、CSIのサブキャリア間相関と時間的依存性をモデル化することができます。
抽出されたCSI機能とポーズ確率ヒートマップは、解剖学的制約を実施するために、マルチステージフィーチャフュージョンネットワーク(MSFN)によって融合されます。
Public MM-Fiデータセットとセルフコレクションのデータセットで実施された広範な実験は、マルチフォルフォーラーが、特に高モビリティキーポイント(手首、肘)の場合、以前の方法が正確に推測するのが特に難しい場合、最先端のアプローチよりも高い精度を達成することを示しています。

要約(オリジナル)

Human pose estimation based on Channel State Information (CSI) has emerged as a promising approach for non-intrusive and precise human activity monitoring, yet faces challenges including accurate multi-person pose recognition and effective CSI feature learning. This paper presents MultiFormer, a wireless sensing system that accurately estimates human pose through CSI. The proposed system adopts a Transformer based time-frequency dual-token feature extractor with multi-head self-attention. This feature extractor is able to model inter-subcarrier correlations and temporal dependencies of the CSI. The extracted CSI features and the pose probability heatmaps are then fused by Multi-Stage Feature Fusion Network (MSFN) to enforce the anatomical constraints. Extensive experiments conducted on on the public MM-Fi dataset and our self-collected dataset show that the MultiFormer achieves higher accuracy over state-of-the-art approaches, especially for high-mobility keypoints (wrists, elbows) that are particularly difficult for previous methods to accurately estimate.

arxiv情報

著者 Yanyi Qu,Haoyang Ma,Wenhui Xiong
発行日 2025-05-28 16:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.SP | MultiFormer: A Multi-Person Pose Estimation System Based on CSI and Attention Mechanism はコメントを受け付けていません

PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion

要約

ビデオデータセットの凝縮は、ディープ学習アプリケーションでの大規模なビデオデータ処理に関連する計算上の課題に対処するための重要な手法として浮上しています。
画像データセットの凝縮は大幅に進歩していますが、ビデオドメインは、空間含有量と時間的ダイナミクスとの複雑な相互作用のために独自の課題を提示します。
このペーパーでは、ビデオデータセットの凝縮のためのプリズム、漸進的な改良、およびスパースモーションのための挿入を紹介します。これは、ビデオデータの凝縮方法を根本的に再考する新しいアプローチです。
静的コンテンツを動的運動から分離する以前の方法とは異なり、この方法はこれらの要素間の本質的な相互依存性を保持します。
私たちのアプローチは、各フレームのグラデーションの関係を考慮して、より良いパフォーマンスを達成しながらストレージを実現しながら、アクションの動きに完全に対応するために、フレームを徐々に改良および挿入します。
標準的なビデオアクション認識ベンチマーク全体の広範な実験は、プリズムがリソースに制約のある環境に適したコンパクトな表現を維持しながら、既存の解き伸びアプローチを上回ることを示しています。

要約(オリジナル)

Video dataset condensation has emerged as a critical technique for addressing the computational challenges associated with large-scale video data processing in deep learning applications. While significant progress has been made in image dataset condensation, the video domain presents unique challenges due to the complex interplay between spatial content and temporal dynamics. This paper introduces PRISM, Progressive Refinement and Insertion for Sparse Motion, for video dataset condensation, a novel approach that fundamentally reconsiders how video data should be condensed. Unlike the previous method that separates static content from dynamic motion, our method preserves the essential interdependence between these elements. Our approach progressively refines and inserts frames to fully accommodate the motion in an action while achieving better performance but less storage, considering the relation of gradients for each frame. Extensive experiments across standard video action recognition benchmarks demonstrate that PRISM outperforms existing disentangled approaches while maintaining compact representations suitable for resource-constrained environments.

arxiv情報

著者 Jaehyun Choi,Jiwan Hur,Gyojin Han,Jaemyung Yu,Junmo Kim
発行日 2025-05-28 16:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion はコメントを受け付けていません

Universal Visuo-Tactile Video Understanding for Embodied Interaction

要約

具体的な知覚は、具体化されたエージェントが目視検査だけでは決定できないオブジェクトの物理的属性を理解するために不可欠です。
既存のアプローチは、身体的理解のために視覚的および言語のモダリティを進歩させていますが、実際の相互作用のために重要な触覚フィードバックを提供する触覚情報を効果的に組み込むことができません。
この論文では、Universal Visuo-Tactileビデオ(VTV)の最初のマルチモーダル大手言語モデルであるVTV-LLMを、触覚と自然言語のギャップを埋めることを理解しています。
クロスセンサーとクロスモーダル統合の課題に対処するために、4つの異なる触覚センサー(Gelsight Mini、Digit、およびTAC3D)でキャプチャされた100の多様なオブジェクトから150,000のビデオフレームを含む包括的なデータセットであるVTV150Kを貢献し、4つの基本的な触覚属性(硬度、プロトリューション、弾性、および骨折)で注釈を付けます。
堅牢な視覚視力表現のVTV強化、クロスモーダル対応のためのVTVテキストアライメント、および自然言語生成のための微調整をテキスト促進する新しい3段階トレーニングパラダイムを開発します。
当社のフレームワークにより、機能評価、比較分析、シナリオベースの意思決定など、洗練された触覚推論機能が可能になります。
実験的評価は、VTV-LLMが触覚ビデオ理解タスクで優れたパフォーマンスを達成し、触覚ドメインでより直感的なヒューマシン相互作用の基礎を確立することを示しています。

要約(オリジナル)

Tactile perception is essential for embodied agents to understand physical attributes of objects that cannot be determined through visual inspection alone. While existing approaches have made progress in visual and language modalities for physical understanding, they fail to effectively incorporate tactile information that provides crucial haptic feedback for real-world interaction. In this paper, we present VTV-LLM, the first multi-modal large language model for universal Visuo-Tactile Video (VTV) understanding that bridges the gap between tactile perception and natural language. To address the challenges of cross-sensor and cross-modal integration, we contribute VTV150K, a comprehensive dataset comprising 150,000 video frames from 100 diverse objects captured across three different tactile sensors (GelSight Mini, DIGIT, and Tac3D), annotated with four fundamental tactile attributes (hardness, protrusion, elasticity, and friction). We develop a novel three-stage training paradigm that includes VTV enhancement for robust visuo-tactile representation, VTV-text alignment for cross-modal correspondence, and text prompt finetuning for natural language generation. Our framework enables sophisticated tactile reasoning capabilities including feature assessment, comparative analysis, scenario-based decision making and so on. Experimental evaluations demonstrate that VTV-LLM achieves superior performance in tactile video understanding tasks, establishing a foundation for more intuitive human-machine interaction in tactile domains.

arxiv情報

著者 Yifan Xie,Mingyang Li,Shoujie Li,Xingting Li,Guangyu Chen,Fei Ma,Fei Richard Yu,Wenbo Ding
発行日 2025-05-28 16:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Universal Visuo-Tactile Video Understanding for Embodied Interaction はコメントを受け付けていません

Multipath cycleGAN for harmonization of paired and unpaired low-dose lung computed tomography reconstruction kernels

要約

コンピューター断層撮影(CT)の再構築カーネルは、空間分解能とノイズ特性に影響を及ぼし、肺気腫の定量化などの定量的イメージング測定に体系的な変動を導入します。
したがって、適切なカーネルを選択することは、一貫した定量分析に不可欠です。
低用量の肺がんスクリーニングコホートからのペアと対応のないデータの混合について訓練された、CTカーネル調和のためのマルチパスサイクルガンモデルを提案します。
このモデルには、共有潜在スペースを備えたドメイン固有のエンコーダーとデコーダーを備えており、各ドメインに合わせて調整された判別器を使用します。これは、国立肺スクリーニングトライアル(NLST)データセットの7つの代表的なカーネルからそれぞれ100スキャンを使用して、42カーネルの組み合わせでモデルをトレーニングします。
パフォーマンスを評価するために、各カーネルからの240のスキャンが参照ソフトカーネルに調和し、調和の前後に肺気腫が定量化されます。
一般的な線形モデルは、肺気腫に対する年齢、性別、喫煙状態、核の影響を評価します。
また、ソフトカーネルから参照ハードカーネルへの調和を評価します。
解剖学的一貫性を評価するために、肺血管、筋肉、および皮下脂肪組織のセグメンテーションを、調和した画像と元の画像の間で生成した皮下脂肪組織を比較します。
私たちのモデルは、従来の切り替え可能なサイクルガンに対してベンチマークされています。
ペアのカーネルの場合、私たちのアプローチは、ブランド・アルトマンのプロットに見られるように、肺気腫スコアのバイアスを減らします(P <0.05)。 対応のないカーネルの場合、調和は肺気腫の交絡の違いを排除します(p> 0.05)。
ハイダイスのスコアは、筋肉と脂肪の解剖学の保存を確認しますが、肺血管のオーバーラップは依然として合理的です。
全体として、当社の共有された潜在スペースマルチパスサイクルガンは、ペアのペアとペアのないCTカーネル全体で堅牢な調和を可能にし、肺気腫の定量化を改善し、解剖学的忠実度を維持します。

要約(オリジナル)

Reconstruction kernels in computed tomography (CT) affect spatial resolution and noise characteristics, introducing systematic variability in quantitative imaging measurements such as emphysema quantification. Choosing an appropriate kernel is therefore essential for consistent quantitative analysis. We propose a multipath cycleGAN model for CT kernel harmonization, trained on a mixture of paired and unpaired data from a low-dose lung cancer screening cohort. The model features domain-specific encoders and decoders with a shared latent space and uses discriminators tailored for each domain.We train the model on 42 kernel combinations using 100 scans each from seven representative kernels in the National Lung Screening Trial (NLST) dataset. To evaluate performance, 240 scans from each kernel are harmonized to a reference soft kernel, and emphysema is quantified before and after harmonization. A general linear model assesses the impact of age, sex, smoking status, and kernel on emphysema. We also evaluate harmonization from soft kernels to a reference hard kernel. To assess anatomical consistency, we compare segmentations of lung vessels, muscle, and subcutaneous adipose tissue generated by TotalSegmentator between harmonized and original images. Our model is benchmarked against traditional and switchable cycleGANs. For paired kernels, our approach reduces bias in emphysema scores, as seen in Bland-Altman plots (p<0.05). For unpaired kernels, harmonization eliminates confounding differences in emphysema (p>0.05). High Dice scores confirm preservation of muscle and fat anatomy, while lung vessel overlap remains reasonable. Overall, our shared latent space multipath cycleGAN enables robust harmonization across paired and unpaired CT kernels, improving emphysema quantification and preserving anatomical fidelity.

arxiv情報

著者 Aravind R. Krishnan,Thomas Z. Li,Lucas W. Remedios,Michael E. Kim,Chenyu Gao,Gaurav Rudravaram,Elyssa M. McMaster,Adam M. Saunders,Shunxing Bao,Kaiwen Xu,Lianrui Zuo,Kim L. Sandler,Fabien Maldonado,Yuankai Huo,Bennett A. Landman
発行日 2025-05-28 16:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Multipath cycleGAN for harmonization of paired and unpaired low-dose lung computed tomography reconstruction kernels はコメントを受け付けていません

ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models

要約

拡散モデルの最近の進歩は、印象的な画像生成機能につながりましたが、これらのモデルを人間の好みに合わせることは依然として困難です。
人間のフィードバックでトレーニングされたモデルを使用した報酬ベースの微調整は、アライメントを改善しますが、多くの場合、多様性を害し、あまり変化しない出力を生成します。
この作業では、2つの貢献でこのトレードオフに対処します。
まず、\ textit {Combined Generation}を紹介します。これは、以前のステップのベースモデルを保持しながら、生成プロセスの後期段階でのみ報酬調整された拡散モデルを適用する新しいサンプリング戦略です。
このアプローチは、初期段階の過剰適合を軽減し、グローバルな構造と多様性を維持するのに役立ちます。
第二に、\ textit {imagerfl}を提案します。これは、実際の画像でトレーニングし、拡散や反射損失を含む複数の正統派を組み込むことにより、品質の最小限の損失で画像の多様性を改善する微調整方法です。
私たちのアプローチは、標準の品質と多様性の指標に関する従来の報酬調整方法よりも優れています。
ユーザー調査では、私たちの方法が人間の好みの調整と視覚的多様性のバランスをよりよくバランスさせることをさらに確認しています。
ソースコードは、https://github.com/controlgenai/imagereflにあります。

要約(オリジナル)

Recent advances in diffusion models have led to impressive image generation capabilities, but aligning these models with human preferences remains challenging. Reward-based fine-tuning using models trained on human feedback improves alignment but often harms diversity, producing less varied outputs. In this work, we address this trade-off with two contributions. First, we introduce \textit{combined generation}, a novel sampling strategy that applies a reward-tuned diffusion model only in the later stages of the generation process, while preserving the base model for earlier steps. This approach mitigates early-stage overfitting and helps retain global structure and diversity. Second, we propose \textit{ImageReFL}, a fine-tuning method that improves image diversity with minimal loss in quality by training on real images and incorporating multiple regularizers, including diffusion and ReFL losses. Our approach outperforms conventional reward tuning methods on standard quality and diversity metrics. A user study further confirms that our method better balances human preference alignment and visual diversity. The source code can be found at https://github.com/ControlGenAI/ImageReFL .

arxiv情報

著者 Dmitrii Sorokin,Maksim Nakhodnov,Andrey Kuznetsov,Aibek Alanov
発行日 2025-05-28 16:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models はコメントを受け付けていません

Complex Wavelet Mutual Information Loss: A Multi-Scale Loss Function for Semantic Segmentation

要約

深いニューラルネットワークの最近の進歩により、セマンティックセグメンテーションのパフォーマンスが大幅に向上しました。
ただし、クラスの不均衡とインスタンスの不均衡は、より小さなインスタンスと薄い境界がより大きな構造によって隠されていることが多い持続的な課題のままです。
セグメント化されたオブジェクトのマルチスケールの性質に対処するために、さまざまなモデルには、空間的注意や特徴のピラミッドネットワークなどのメカニズムが組み込まれています。
これらの進歩にもかかわらず、ほとんどの損失関数は依然として主にピクセルごとにありますが、地域および境界に焦点を当てた損失関数は、しばしば高い計算コストが発生するか、小規模地域に制限されています。
この制限に対処するために、複雑なウェーブレット相互情報(CWMI)損失を提案します。これは、複雑な操縦可能なピラミッドによって分解されたサブバンド画像から相互情報を活用する新しい損失関数です。
複雑な操縦可能なピラミッドは、複数の方向にわたって機能をキャプチャし、スケール間で構造的な類似性を保持します。
一方、相互情報は、高次元の方向性の特徴をキャプチャするのに適しており、より大きなノイズの堅牢性を提供します。
多様なセグメンテーションデータセットでの広範な実験は、CWMIの損失が最新の方法と比較してピクセルごとの精度とトポロジーメトリックの両方で大幅な改善を達成し、最小限の計算オーバーヘッドを導入することを示しています。
私たちのコードは、https://github.com/lurenhaothu/cwmiで入手できます

要約(オリジナル)

Recent advancements in deep neural networks have significantly enhanced the performance of semantic segmentation. However, class imbalance and instance imbalance remain persistent challenges, where smaller instances and thin boundaries are often overshadowed by larger structures. To address the multiscale nature of segmented objects, various models have incorporated mechanisms such as spatial attention and feature pyramid networks. Despite these advancements, most loss functions are still primarily pixel-wise, while regional and boundary-focused loss functions often incur high computational costs or are restricted to small-scale regions. To address this limitation, we propose the complex wavelet mutual information (CWMI) loss, a novel loss function that leverages mutual information from subband images decomposed by a complex steerable pyramid. The complex steerable pyramid captures features across multiple orientations and preserves structural similarity across scales. Meanwhile, mutual information is well-suited to capturing high-dimensional directional features and offers greater noise robustness. Extensive experiments on diverse segmentation datasets demonstrate that CWMI loss achieves significant improvements in both pixel-wise accuracy and topological metrics compared to state-of-the-art methods, while introducing minimal computational overhead. Our code is available at https://github.com/lurenhaothu/CWMI

arxiv情報

著者 Renhao Lu
発行日 2025-05-28 16:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, eess.IV | Complex Wavelet Mutual Information Loss: A Multi-Scale Loss Function for Semantic Segmentation はコメントを受け付けていません

X-GAN: A Generative AI-Powered Unsupervised Model for Main Vessel Segmentation of Glaucoma Screening

要約

主要な網膜血管の構造変化は、緑内障の発症と進行の重要なバイオマーカーとして機能します。
これらの血管を特定することは、血管モデリングには非常に困難です。
このペーパーでは、光コヒーレンス断層撮影血管造影(OCTA)画像から主要な血管を抽出するために設計された生成AI駆動の監視されていないセグメンテーションモデルであるX-Ganを提案します。
このプロセスは、空間コロニー形成アルゴリズム(SCA)から始まり、半径を特徴とする容器の骨格を迅速に生成します。
X-GANは、生成敵のネットワーク(GAN)を船舶半径の生物統計モデリングと相乗的に統合することにより、容器の2D表現と3D表現の両方を迅速に再構築できるようにします。
この再構成に基づいて、X-Ganは、ラベル付きデータや高性能コンピューティングリソースに依存せずに、ほぼ100%のセグメンテーション精度を達成します。
実験結果は、既存の深い学習モデルと比較して、主容器セグメンテーションを評価する際のX-Ganの優位性を確認します。
コードはこちら:https://github.com/vikixie/satmar8です。

要約(オリジナル)

Structural changes in main retinal blood vessels serve as critical biomarkers for the onset and progression of glaucoma. Identifying these vessels is vital for vascular modeling yet highly challenging. This paper proposes X-GAN, a generative AI-powered unsupervised segmentation model designed for extracting main blood vessels from Optical Coherence Tomography Angiography (OCTA) images. The process begins with the Space Colonization Algorithm (SCA) to rapidly generate a skeleton of vessels, featuring their radii. By synergistically integrating the generative adversarial network (GAN) with biostatistical modeling of vessel radii, X-GAN enables a fast reconstruction of both 2D and 3D representations of the vessels. Based on this reconstruction, X-GAN achieves nearly 100% segmentation accuracy without relying on labeled data or high-performance computing resources. Experimental results confirm X-GAN’s superiority in evaluating main vessel segmentation compared to existing deep learning models. Code is here: https://github.com/VikiXie/SatMar8.

arxiv情報

著者 Cheng Huang,Weizheng Xie,Tsengdar J. Lee,Jui-Kai Wang,Karanjit Kooner,Ning Zhang,Jia Zhang
発行日 2025-05-28 16:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | X-GAN: A Generative AI-Powered Unsupervised Model for Main Vessel Segmentation of Glaucoma Screening はコメントを受け付けていません

Tell me Habibi, is it Real or Fake?

要約

ディープフェイクの生成方法は急速に進化しており、偽のメディアを検出するのが難しく、深刻な社会的懸念を提起しています。
ほとんどのDeepFake検出とデータセット作成の研究は、単一言語の内容に焦点を当てており、多くの場合、複数の言語が同じ談話内で混合される多言語とコードスイッチのスピーチの課題を見落としています。
特にアラビア語と英語の間でコードスイッチングはアラブ世界で一般的であり、デジタル通信で広く使用されています。
この言語の混合は、主に単一言語データで訓練されたモデルを混同することができるため、ディープファーセクションのための特別な課題をもたらします。
これに対処するために、\ TextBF {Arenav}を紹介します。\ TextBf {Arenav}、アラビア語と英語の視覚的なディープフェイクデータセットである最初の大規模な音声視聴覚データセットを紹介します。
\ textBf {387Kビデオと765時間以上の実際のビデオと偽のビデオが含まれています}。
データセットは、4つのテキスト対スピーチと2つのリップシンクモデルを統合する新しいパイプラインを使用して生成され、多言語マルチモーダルディープフェイク検出の包括的な分析を可能にします。
既存の単一言語および多言語データセット、最先端のディープフェイク検出モデル、および人間の評価に対してデータセットをベンチマークし、ディープフェイクリサーチを進める可能性を強調しています。
データセットにアクセスできます\ href {https://huggingface.co/datasets/kartik060702/arenav-full} {ここで}。

要約(オリジナル)

Deepfake generation methods are evolving fast, making fake media harder to detect and raising serious societal concerns. Most deepfake detection and dataset creation research focuses on monolingual content, often overlooking the challenges of multilingual and code-switched speech, where multiple languages are mixed within the same discourse. Code-switching, especially between Arabic and English, is common in the Arab world and is widely used in digital communication. This linguistic mixing poses extra challenges for deepfake detection, as it can confuse models trained mostly on monolingual data. To address this, we introduce \textbf{ArEnAV}, the first large-scale Arabic-English audio-visual deepfake dataset featuring intra-utterance code-switching, dialectal variation, and monolingual Arabic content. It \textbf{contains 387k videos and over 765 hours of real and fake videos}. Our dataset is generated using a novel pipeline integrating four Text-To-Speech and two lip-sync models, enabling comprehensive analysis of multilingual multimodal deepfake detection. We benchmark our dataset against existing monolingual and multilingual datasets, state-of-the-art deepfake detection models, and a human evaluation, highlighting its potential to advance deepfake research. The dataset can be accessed \href{https://huggingface.co/datasets/kartik060702/ArEnAV-Full}{here}.

arxiv情報

著者 Kartik Kuckreja,Parul Gupta,Injy Hamed,Thamar Solorio,Muhammad Haris Khan,Abhinav Dhall
発行日 2025-05-28 16:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Tell me Habibi, is it Real or Fake? はコメントを受け付けていません

ReLearn: Unlearning via Learning for Large Language Models

要約

大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減らすために逆の最適化に依存しています。
ただし、このパラダイムは、その後のトークン予測、モデルのパフォーマンスの分解、言語の一貫性を破壊します。
さらに、既存の評価メトリックは、応答の流encyさと関連性を不適切に評価しながら、コンテキストの忘却を過度に強調します。
これらの課題に対処するために、包括的な評価フレームワークとともに、効果的な学習のためのデータ増強と微調整パイプラインである再学習を提案します。
このフレームワークでは、知識レベルの保存を測定するための知識忘却率(KFR)と知識保持率(KRR)、および生成品質を評価するための言語スコア(LS)を測定します。
私たちの実験では、Learnが高品質の出力を維持しながらターゲットを絞った忘却を成功裏に達成することが示されています。
メカニズム分析を通じて、逆最適化がコヒーレントテキスト生成をどのように混乱させるかをさらに実証し、再学習がこの重要な能力を保持します。
コードはhttps://github.com/zjunlp/unlearnで入手できます。

要約(オリジナル)

Current unlearning methods for large language models usually rely on reverse optimization to reduce target token probabilities. However, this paradigm disrupts the subsequent tokens prediction, degrading model performance and linguistic coherence. Moreover, existing evaluation metrics overemphasize contextual forgetting while inadequately assessing response fluency and relevance. To address these challenges, we propose ReLearn, a data augmentation and fine-tuning pipeline for effective unlearning, along with a comprehensive evaluation framework. This framework introduces Knowledge Forgetting Rate (KFR) and Knowledge Retention Rate (KRR) to measure knowledge-level preservation, and Linguistic Score (LS) to evaluate generation quality. Our experiments show that ReLearn successfully achieves targeted forgetting while preserving high-quality output. Through mechanistic analysis, we further demonstrate how reverse optimization disrupts coherent text generation, while ReLearn preserves this essential capability. Code is available at https://github.com/zjunlp/unlearn.

arxiv情報

著者 Haoming Xu,Ningyuan Zhao,Liming Yang,Sendong Zhao,Shumin Deng,Mengru Wang,Bryan Hooi,Nay Oo,Huajun Chen,Ningyu Zhang
発行日 2025-05-28 16:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | ReLearn: Unlearning via Learning for Large Language Models はコメントを受け付けていません

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

要約

エージェントとその環境間の相互作用において、エージェントはアクションを計画および実行することにより能力を拡大します。
ただし、LLMベースのエージェントは、新しい環境に展開された場合、または型破りなアクションスペースをナビゲートするために必要な場合、大きな課題に直面しています。
エージェントが環境を自律的に探索し、ワークフローを最適化し、アクションの理解を強化できるようにするために、エージェントがアクション空間内でマルチステップアクションの呼び出しで可能なシナリオを合成し、モンテカルロツリー検索(MCTS)探査を実行して、現在の環境でのアクション知識を効果的に改良することを可能にするフレームワークを提案します。
私たちの実験は、Synworldが新しい環境で行動知識を学ぶための効果的かつ一般的なアプローチであることを示しています。
コードはhttps://github.com/zjunlp/synworldで入手できます。

要約(オリジナル)

In the interaction between agents and their environments, agents expand their capabilities by planning and executing actions. However, LLM-based agents face substantial challenges when deployed in novel environments or required to navigate unconventional action spaces. To empower agents to autonomously explore environments, optimize workflows, and enhance their understanding of actions, we propose SynWorld, a framework that allows agents to synthesize possible scenarios with multi-step action invocation within the action space and perform Monte Carlo Tree Search (MCTS) exploration to effectively refine their action knowledge in the current environment. Our experiments demonstrate that SynWorld is an effective and general approach to learning action knowledge in new environments. Code is available at https://github.com/zjunlp/SynWorld.

arxiv情報

著者 Runnan Fang,Xiaobin Wang,Yuan Liang,Shuofei Qiao,Jialong Wu,Zekun Xi,Ningyu Zhang,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2025-05-28 17:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement はコメントを受け付けていません