From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education

要約

GPT-4などの大規模な言語モデル(LLM)は、GSM8Kなどのベンチマークでほぼ完璧なパフォーマンスを達成する印象的な数学的推論能力を実証しています。
ただし、個別の教育への適用は、エラーの診断とフィードバックの生成に対する正しさの強調過剰のために限られたままです。
現在のモデルは、学生の間違いの原因について有意義な洞察を提供することができず、教育的文脈での有用性を制限しています。
これらの課題に対処するために、3つの重要な貢献を提示します。
まず、\ textBf {mathccs}(数学的分類と建設的な提案)を紹介します。これは、系統的エラー分析とカスタマイズされたフィードバックのために設計されたマルチモーダルベンチマークです。
Mathccsには、実際の問題、専門家が解決したエラーカテゴリ、および縦断的な学生データが含まれます。
\ textit {qwen2-vl}、\ textit {llava-ov}、\ textit {claude-3.5-sonnet}、\ textit {gpt-4o}を含む最先端のモデルの評価{gpt-4o}は、達成されていないことを明らかにします
30 \%を超える分類精度または高品質の提案(4/10未満の平均スコア)を生成し、からの大きなギャップを強調しています
人間レベルのパフォーマンス。
第二に、トレンドを追跡し、診断精度を改善するために履歴データを活用する順次エラー分析フレームワークを開発します。
最後に、履歴分析のための時系列エージェントを組み合わせたマルチエージェント共同フレームワークと、リアルタイムの改良、エラー分類とフィードバック生成を強化するためのMLLMエージェントを組み合わせたものを提案します。
一緒に、これらの貢献は、パーソナライズされた教育を進めるための堅牢なプラットフォームを提供し、現在のAI能力と現実世界の教育の要求との間のギャップを埋めることができます。

要約(オリジナル)

Large Language Models (LLMs), such as GPT-4, have demonstrated impressive mathematical reasoning capabilities, achieving near-perfect performance on benchmarks like GSM8K. However, their application in personalized education remains limited due to an overemphasis on correctness over error diagnosis and feedback generation. Current models fail to provide meaningful insights into the causes of student mistakes, limiting their utility in educational contexts. To address these challenges, we present three key contributions. First, we introduce \textbf{MathCCS} (Mathematical Classification and Constructive Suggestions), a multi-modal benchmark designed for systematic error analysis and tailored feedback. MathCCS includes real-world problems, expert-annotated error categories, and longitudinal student data. Evaluations of state-of-the-art models, including \textit{Qwen2-VL}, \textit{LLaVA-OV}, \textit{Claude-3.5-Sonnet} and \textit{GPT-4o}, reveal that none achieved classification accuracy above 30\% or generated high-quality suggestions (average scores below 4/10), highlighting a significant gap from human-level performance. Second, we develop a sequential error analysis framework that leverages historical data to track trends and improve diagnostic precision. Finally, we propose a multi-agent collaborative framework that combines a Time Series Agent for historical analysis and an MLLM Agent for real-time refinement, enhancing error classification and feedback generation. Together, these contributions provide a robust platform for advancing personalized education, bridging the gap between current AI capabilities and the demands of real-world teaching.

arxiv情報

著者 Yi-Fan Zhang,Hang Li,Dingjie Song,Lichao Sun,Tianlong Xu,Qingsong Wen
発行日 2025-02-19 14:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約

視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊かに理解してモデルを装備していますが、この統合は敵対的な攻撃に対して新しい脆弱性も導入します。
この論文では、時間的およびモダリティ固有の脆弱性の両方を考慮して、視聴覚モデルの敵対的な堅牢性に関する包括的な研究を提示します。
2つの強力な敵対的攻撃を提案します。1)連続した時間セグメントにわたって固有の時間的冗長性を活用する時間的不変攻撃と2)音声と視覚モダリティの不一致をもたらすモダリティの不整合攻撃。
これらの攻撃は、多様な脅威に対する視聴覚モデルの堅牢性を徹底的に評価するように設計されています。
さらに、このような攻撃から防御するために、新しい視聴覚敵の敵対的訓練フレームワークを紹介します。
このフレームワークは、マルチモーダルデータと敵対的なカリキュラム戦略に合わせて調整された効率的な敵対的な摂動クラフトを組み込むことにより、バニラ敵対的訓練における重要な課題に対処します。
速度論的サウンドデータセットでの広範な実験は、モデルのパフォーマンスを低下させるために提案されている時間的およびモダリティベースの攻撃が最先端のパフォーマンスを達成できることを示していますが、敵対的なトレーニングの防御により、敵対的な訓練効率性が大幅に改善されることが示されています。

要約(オリジナル)

While audio-visual learning equips models with a richer understanding of the real world by leveraging multiple sensory modalities, this integration also introduces new vulnerabilities to adversarial attacks. In this paper, we present a comprehensive study of the adversarial robustness of audio-visual models, considering both temporal and modality-specific vulnerabilities. We propose two powerful adversarial attacks: 1) a temporal invariance attack that exploits the inherent temporal redundancy across consecutive time segments and 2) a modality misalignment attack that introduces incongruence between the audio and visual modalities. These attacks are designed to thoroughly assess the robustness of audio-visual models against diverse threats. Furthermore, to defend against such attacks, we introduce a novel audio-visual adversarial training framework. This framework addresses key challenges in vanilla adversarial training by incorporating efficient adversarial perturbation crafting tailored to multi-modal data and an adversarial curriculum strategy. Extensive experiments in the Kinetics-Sounds dataset demonstrate that our proposed temporal and modality-based attacks in degrading model performance can achieve state-of-the-art performance, while our adversarial training defense largely improves the adversarial robustness as well as the adversarial training efficiency.

arxiv情報

著者 Zeliang Zhang,Susan Liang,Daiki Shimada,Chenliang Xu
発行日 2025-02-19 15:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

3D Gaussian Splatting aided Localization for Large and Complex Indoor-Environments

要約

視覚的ローカリゼーションの分野は数十年にわたって研究されており、その間に多くの実用的なアプリケーションが見つかりました。
この分野では強い進歩にもかかわらず、確立された方法が失敗する状況はまだ困難です。
レンダリングされた画像を追加することにより、確立された視覚的ローカリゼーション方法の精度と信頼性を大幅に改善するアプローチを提示します。
詳細には、最初に、参照データを作成するために3Dガウススプラッティング(3DG)ベースのマップを提供する最新のビジュアルスラムアプローチを使用します。
ランダムにサンプリングされたポーズで3DGSからレンダリングされた画像を使用して参照データを濃縮すると、ジオメトリベースの視覚的ローカリゼーションとシーン座標回帰(SCR)メソッドの両方のパフォーマンスが大幅に向上することを実証します。
大規模な産業環境での包括的な評価を通じて、これらの追加のレンダリングされたビューを組み込むことのパフォーマンスへの影響を分析します。

要約(オリジナル)

The field of visual localization has been researched for several decades and has meanwhile found many practical applications. Despite the strong progress in this field, there are still challenging situations in which established methods fail. We present an approach to significantly improve the accuracy and reliability of established visual localization methods by adding rendered images. In detail, we first use a modern visual SLAM approach that provides a 3D Gaussian Splatting (3DGS) based map to create reference data. We demonstrate that enriching reference data with images rendered from 3DGS at randomly sampled poses significantly improves the performance of both geometry-based visual localization and Scene Coordinate Regression (SCR) methods. Through comprehensive evaluation in a large industrial environment, we analyze the performance impact of incorporating these additional rendered views.

arxiv情報

著者 Vincent Ress,Jonas Meyer,Wei Zhang,David Skuddis,Uwe Soergel,Norbert Haala
発行日 2025-02-19 15:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D Gaussian Splatting aided Localization for Large and Complex Indoor-Environments はコメントを受け付けていません

ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models

要約

大規模なビジョン言語モデル(LVLMS)における事実上の精度の評価は、急速な発展に遅れをとっており、これらのモデルの知識能力と信頼性を完全に反映することが困難になっています。
この論文では、8つの主要なトピックと56のサブトピックにわたるLVLMSの視覚的事実性を評価することを目的とした中国語で、中国語で最初の事実に基づいた視覚的質問ベンチマークを紹介します。
このベンチマークの主な機能には、中国語に焦点を当て、多様な知識タイプ、マルチホップの質問構築、高品質のデータ、静的な一貫性、および短い回答を通じて簡単に評価できることが含まれます。
さらに、厳格なデータ構築パイプラインを提供し、視覚的事実を2つの部分に分離します。世界を見る(つまり、オブジェクト認識)と知識を発見します。
この分離により、LVLMSの機能境界と実行メカニズムを分析できます。
その後、34の高度なオープンソースとクローズドソースモデルを評価し、このフィールド内の重要なパフォーマンスギャップを明らかにします。

要約(オリジナル)

The evaluation of factual accuracy in large vision language models (LVLMs) has lagged behind their rapid development, making it challenging to fully reflect these models’ knowledge capacity and reliability. In this paper, we introduce the first factuality-based visual question-answering benchmark in Chinese, named ChineseSimpleVQA, aimed at assessing the visual factuality of LVLMs across 8 major topics and 56 subtopics. The key features of this benchmark include a focus on the Chinese language, diverse knowledge types, a multi-hop question construction, high-quality data, static consistency, and easy-to-evaluate through short answers. Moreover, we contribute a rigorous data construction pipeline and decouple the visual factuality into two parts: seeing the world (i.e., object recognition) and discovering knowledge. This decoupling allows us to analyze the capability boundaries and execution mechanisms of LVLMs. Subsequently, we evaluate 34 advanced open-source and closed-source models, revealing critical performance gaps within this field.

arxiv情報

著者 Jihao Gu,Yingyao Wang,Pi Bu,Chen Wang,Ziming Wang,Tengtao Song,Donglai Wei,Jiale Yuan,Yingxiu Zhao,Yancheng He,Shilong Li,Jiaheng Liu,Meng Cao,Jun Song,Yingshui Tan,Xiang Li,Wenbo Su,Zhicheng Zheng,Xiaoyong Zhu,Bo Zheng
発行日 2025-02-19 15:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models はコメントを受け付けていません

MGFI-Net: A Multi-Grained Feature Integration Network for Enhanced Medical Image Segmentation

要約

医療画像セグメンテーションは、さまざまな臨床応用で重要な役割を果たしています。
医療画像のセグメンテーションにおける主要な課題は、騒音、低コントラスト、または複雑な解剖学的構造の存在下で関心のある領域の正確な描写を達成することです。
既存のセグメンテーションモデルは、多くの場合、マルチグレイン情報の統合を無視し、正確なセグメンテーションにとって重要なエッジの詳細を維持できません。
これらの課題に対処するために、マルチグレインフィーチャーインテグレーションネットワーク(MGFI-NET)と呼ばれる新しい画像セマンティックセグメンテーションモデルを提案します。
当社のMGFI-NETは、これらの問題に取り組むために2つの専用モジュールで設計されています。
まず、セグメンテーションの精度を高めるために、多粒の特徴抽出モジュールを導入します。これは、異なる機能スケール間の階層的な関係を活用して、最も関連性の高い情報に選択的に焦点を当てます。
第二に、エッジの詳細を保持するために、境界情報を効果的に保持および統合してセグメンテーション結果を改善するエッジ強化モジュールを組み込みます。
広範な実験は、MGFI-NETがセグメンテーションの精度の点で最先端の方法を上回るだけでなく、優れた時間効率を達成し、リアルタイムの医療画像セグメンテーションの主要なソリューションとして確立することを示しています。

要約(オリジナル)

Medical image segmentation plays a crucial role in various clinical applications. A major challenge in medical image segmentation is achieving accurate delineation of regions of interest in the presence of noise, low contrast, or complex anatomical structures. Existing segmentation models often neglect the integration of multi-grained information and fail to preserve edge details, which are critical for precise segmentation. To address these challenges, we propose a novel image semantic segmentation model called the Multi-Grained Feature Integration Network (MGFI-Net). Our MGFI-Net is designed with two dedicated modules to tackle these issues. First, to enhance segmentation accuracy, we introduce a Multi-Grained Feature Extraction Module, which leverages hierarchical relationships between different feature scales to selectively focus on the most relevant information. Second, to preserve edge details, we incorporate an Edge Enhancement Module that effectively retains and integrates boundary information to refine segmentation results. Extensive experiments demonstrate that MGFI-Net not only outperforms state-of-the-art methods in terms of segmentation accuracy but also achieves superior time efficiency, establishing it as a leading solution for real-time medical image segmentation.

arxiv情報

著者 Yucheng Zeng
発行日 2025-02-19 15:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MGFI-Net: A Multi-Grained Feature Integration Network for Enhanced Medical Image Segmentation はコメントを受け付けていません

Building Age Estimation: A New Multi-Modal Benchmark Dataset and Community Challenge

要約

建物の建設年を推定することは、持続可能性にとって非常に重要です。
持続可能な建物は、エネルギー消費を最小限に抑え、気候変動と効果的に戦うための責任ある持続可能な都市計画と開発の重要な部分です。
人工知能(AI)を使用し、最近提案されたトランスモデルを使用することにより、マルチモーダルデータセットから建物の建設エポックを推定することができます。
このホワイトペーパーでは、新しいベンチマークマルチモーダルデータセット、つまり、Copernicus sentinelからのトップビューの非常に高解像度(VHR)画像、地球観測(EO)マルチスペクトルデータを含む、新しいベンチマークマルチモーダルデータセット、つまりCity Dataset(MYCD)を紹介します。
2つの衛星星座、およびヨーロッパの多くの異なる都市におけるストリートビュー画像は、調査中の建物と共局在し、建設エポックとラベル付けされています。
トレーニングから保留され、推論中にのみ表示されていた新しい/以前に目に見えない都市のEO一般化パフォーマンスを評価します。
この作業では、MYCDに基づいて組織したコミュニティベースのデータチャレンジを提示します。
ESA AI4EOチャレンジMapYourcityは、2024年に4か月間オープンしました。
ここでは、トップ4のパフォーマンスモデルと主な評価結果を紹介します。
推論中、3つの入力モダリティすべてと2つのトップビューモダリティのみ、つまりStreet-View画像なしの両方を使用してモデルのパフォーマンスを調べます。
評価結果は、モデルが効果的であり、以前に見えなかった都市でさえ、建物の年齢を推定するというこの困難な現実世界のタスクで良いパフォーマンスを達成できることを示しており、2つのトップビューのモダリティ(つまり、VHRとVHRとVHRと
Sentinel-2)推論中。

要約(オリジナル)

Estimating the construction year of buildings is of great importance for sustainability. Sustainable buildings minimize energy consumption and are a key part of responsible and sustainable urban planning and development to effectively combat climate change. By using Artificial Intelligence (AI) and recently proposed Transformer models, we are able to estimate the construction epoch of buildings from a multi-modal dataset. In this paper, we introduce a new benchmark multi-modal dataset, i.e. the Map your City Dataset (MyCD), containing top-view Very High Resolution (VHR) images, Earth Observation (EO) multi-spectral data from the Copernicus Sentinel-2 satellite constellation, and street-view images in many different cities in Europe, co-localized with respect to the building under study and labelled with the construction epoch. We assess EO generalization performance on new/ previously unseen cities that have been held-out from training and appear only during inference. In this work, we present the community-based data challenge we organized based on MyCD. The ESA AI4EO Challenge MapYourCity was opened in 2024 for 4 months. Here, we present the Top-4 performing models, and the main evaluation results. During inference, the performance of the models using both all three input modalities and only the two top-view modalities, i.e. without the street-view images, is examined. The evaluation results show that the models are effective and can achieve good performance on this difficult real-world task of estimating the age of buildings, even on previously unseen cities, as well as even using only the two top-view modalities (i.e. VHR and Sentinel-2) during inference.

arxiv情報

著者 Nikolaos Dionelis,Nicolas Longépé,Alessandra Feliciotti,Mattia Marconcini,Devis Peressutti,Nika Oman Kadunc,JaeWan Park,Hagai Raja Sinulingga,Steve Andreas Immanuel,Ba Tran,Caroline Arnold
発行日 2025-02-19 15:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Building Age Estimation: A New Multi-Modal Benchmark Dataset and Community Challenge はコメントを受け付けていません

DiffGuard: Text-Based Safety Checker for Diffusion Models

要約

拡散モデルの最近の進歩により、テキストからの画像の生成が可能になり、Dall-EやMidjourneyなどの強力なクローズドソースモデルが先導しています。
ただし、StabilityAの安定した拡散などのオープンソースの代替品は、同等の機能を提供します。
抱きしめる顔にホストされているこれらのオープンソースモデルには、明示的な画像の生成を防ぐために設計された倫理的フィルター保護が装備されています。
このペーパーでは、最初に彼らの制限を明らかにし、次に既存のソリューションを上回る新しいテキストベースの安全フィルターを提示します。
私たちの研究は、特に情報戦争の文脈において、AIに生成されたコンテンツの誤用に対処する重要な必要性によって推進されています。
DiffGuardはフィルタリングの有効性を高め、最高の既存のフィルターを14%以上超えるパフォーマンスを達成します。

要約(オリジナル)

Recent advances in Diffusion Models have enabled the generation of images from text, with powerful closed-source models like DALL-E and Midjourney leading the way. However, open-source alternatives, such as StabilityAI’s Stable Diffusion, offer comparable capabilities. These open-source models, hosted on Hugging Face, come equipped with ethical filter protections designed to prevent the generation of explicit images. This paper reveals first their limitations and then presents a novel text-based safety filter that outperforms existing solutions. Our research is driven by the critical need to address the misuse of AI-generated content, especially in the context of information warfare. DiffGuard enhances filtering efficacy, achieving a performance that surpasses the best existing filters by over 14%.

arxiv情報

著者 Massine El Khader,Elias Al Bouzidi,Abdellah Oumida,Mohammed Sbaihi,Eliott Binard,Jean-Philippe Poli,Wassila Ouerdane,Boussad Addad,Katarzyna Kapusta
発行日 2025-02-19 15:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DiffGuard: Text-Based Safety Checker for Diffusion Models はコメントを受け付けていません

Are generative models fair? A study of racial bias in dermatological image generation

要約

皮膚科のような医学の人種的偏見は、重要な倫理的および臨床的課題を提示しています。
これは、機械学習モデルのトレーニングデータセットに暗い肌のトーンが大幅に過小評価されているため、発生する可能性があります。
皮膚科のバイアスに対処する努力は、データセットの多様性の改善と識別モデルの格差の緩和に焦点を当てていますが、生成モデルに対する人種的バイアスの影響は未熟なままです。
変分自動エンコーダー(VAE)などの生成モデルは、ヘルスケアアプリケーションでますます使用されていますが、多様なスキントーン全体の公平性は現在よく理解されていません。
この研究では、人種的バイアスに関する臨床皮膚科の生成モデルの公平性を評価します。
この目的のために、私たちはまず知覚的損失でvaeを訓練して、異なる肌のトーンで高品質の肌の画像を生成および再構築します。
FitzPatrick17Kデータセットを利用して、人種的バイアスがこれらのモデルの表現とパフォーマンスにどのように影響するかを調べます。
私たちの調査結果は、VAEのパフォーマンスは、予想どおり、表現の影響を受けていること、つまり、肌のトーン表現の増加には、与えられた肌のトーンのパフォーマンスが向上することを示しています。
ただし、表現とは独立して、vaeがより軽い肌の色調に対してより良いパフォーマンスを発揮することも観察しています。
さらに、VAEによって生成された不確実性の推定値は、モデルの公平性を評価するのに効果がありません。
これらの結果は、より代表的な皮膚科学データセットの必要性を強調していますが、そのようなモデルのバイアスの原因をよりよく理解する必要があります。また、信頼できる医療技術の生成モデルの人種バイアスを検出および対処するための不確実性の定量化メカニズムの改善も強調しています。

要約(オリジナル)

Racial bias in medicine, such as in dermatology, presents significant ethical and clinical challenges. This is likely to happen because there is a significant underrepresentation of darker skin tones in training datasets for machine learning models. While efforts to address bias in dermatology have focused on improving dataset diversity and mitigating disparities in discriminative models, the impact of racial bias on generative models remains underexplored. Generative models, such as Variational Autoencoders (VAEs), are increasingly used in healthcare applications, yet their fairness across diverse skin tones is currently not well understood. In this study, we evaluate the fairness of generative models in clinical dermatology with respect to racial bias. For this purpose, we first train a VAE with a perceptual loss to generate and reconstruct high-quality skin images across different skin tones. We utilize the Fitzpatrick17k dataset to examine how racial bias influences the representation and performance of these models. Our findings indicate that VAE performance is, as expected, influenced by representation, i.e. increased skin tone representation comes with increased performance on the given skin tone. However, we also observe, even independently of representation, that the VAE performs better for lighter skin tones. Additionally, the uncertainty estimates produced by the VAE are ineffective in assessing the model’s fairness. These results highlight the need for more representative dermatological datasets, but also a need for better understanding the sources of bias in such model, as well as improved uncertainty quantification mechanisms to detect and address racial bias in generative models for trustworthy healthcare technologies.

arxiv情報

著者 Miguel López-Pérez,Søren Hauberg,Aasa Feragen
発行日 2025-02-19 15:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Are generative models fair? A study of racial bias in dermatological image generation はコメントを受け付けていません

Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model

要約

シャノンの理論に基づいた伝統的な構文通信の大幅な進歩にもかかわらず、これらの方法は、特に困難な伝送条件下で、6G没入型通信の要件を満たすのに苦労しています。
生成人工知能(GENAI)の開発により、高レベルのセマンティック情報を使用して動画を再構築することにおいて進展がありました。
この論文では、高品質のビデオ再建を実現するために意味情報を抽出および送信するスケーラブルな生成ビデオセマンティックコミュニケーションフレームワークを提案します。
具体的には、送信機では、説明およびその他の条件信号(例:最初のフレーム、スケッチなど)がソースビデオから抽出され、それぞれテキストと構造セマンティクスとして機能します。
受信機では、拡散ベースのGenai大規模モデルを利用して、ビデオを再構築するための複数のモダリティのセマンティクスを融合します。
シミュレーション結果は、超低チャネル帯域幅比(CBR)で、私たちのスキームがセマンティック情報を効果的にキャプチャして、異なる信号対雑音比の下で人間の知覚に合ったビデオを再構築することを効果的にキャプチャします。
特に、提案された「最初のフレーム+DESC」。
スキームは、SNR> 0 dBでCBR = 0.0057で0.92を超えるクリップスコアを一貫して達成します。
これは、低SNR条件下でも堅牢なパフォーマンスを示しています。

要約(オリジナル)

Despite significant advancements in traditional syntactic communications based on Shannon’s theory, these methods struggle to meet the requirements of 6G immersive communications, especially under challenging transmission conditions. With the development of generative artificial intelligence (GenAI), progress has been made in reconstructing videos using high-level semantic information. In this paper, we propose a scalable generative video semantic communication framework that extracts and transmits semantic information to achieve high-quality video reconstruction. Specifically, at the transmitter, description and other condition signals (e.g., first frame, sketches, etc.) are extracted from the source video, functioning as text and structural semantics, respectively. At the receiver, the diffusion-based GenAI large models are utilized to fuse the semantics of the multiple modalities for reconstructing the video. Simulation results demonstrate that, at an ultra-low channel bandwidth ratio (CBR), our scheme effectively captures semantic information to reconstruct videos aligned with human perception under different signal-to-noise ratios. Notably, the proposed “First Frame+Desc.’ scheme consistently achieves CLIP score exceeding 0.92 at CBR = 0.0057 for SNR > 0 dB. This demonstrates its robust performance even under low SNR conditions.

arxiv情報

著者 Hang Yin,Li Qiao,Yu Ma,Shuo Sun,Kan Li,Zhen Gao,Dusit Niyato
発行日 2025-02-19 15:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, eess.IV, eess.SP, math.IT | Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model はコメントを受け付けていません

Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization

要約

データセット蒸留は、フルスケールのオリジナルに匹敵するパフォーマンスを備えた小さなデータセットを最適化することにより、メモリと計算コストを削減するための効率的な方法を提供します。
ただし、大規模なデータセットと複雑なディープネットワーク(例:ResNet-101を使用したImagenet-1K)の場合、広範な最適化スペースはパフォーマンスを制限し、その実用性を低下させます。
最近のアプローチでは、事前に訓練された拡散モデルを採用して、有益な画像を直接生成し、ピクセルレベルの最適化を回避し、顕著な結果を達成しています。
ただし、これらの方法は、多くの場合、事前に訓練されたモデルとターゲットデータセット間の分布シフトにより、さまざまな設定全体で複数の蒸留ステップが必要であるため、課題に直面しています。
これらの問題に対処するために、既存の拡散ベースの蒸留方法に直交する新しいフレームワークを提案し、生成ではなく選択のために拡散モデルを活用します。
私たちの方法は、入力画像とテキストプロンプトに基づいて拡散モデルによって生成されるノイズを予測することから始まります(ラベルテキストの有無にかかわらず)、各ペアの対応する損失を計算します。
損失の違いにより、元の画像の特徴的な領域を識別します。
さらに、多様性の制約を維持するために、選択したパッチでクラス内クラスタリングとランキングを実行します。
この合理化されたフレームワークは、単一ステップの蒸留プロセスを可能にし、広範な実験により、私たちのアプローチがさまざまなメトリックにわたって最新の方法を上回ることが示されています。

要約(オリジナル)

Dataset distillation offers an efficient way to reduce memory and computational costs by optimizing a smaller dataset with performance comparable to the full-scale original. However, for large datasets and complex deep networks (e.g., ImageNet-1K with ResNet-101), the extensive optimization space limits performance, reducing its practicality. Recent approaches employ pre-trained diffusion models to generate informative images directly, avoiding pixel-level optimization and achieving notable results. However, these methods often face challenges due to distribution shifts between pre-trained models and target datasets, along with the need for multiple distillation steps across varying settings. To address these issues, we propose a novel framework orthogonal to existing diffusion-based distillation methods, leveraging diffusion models for selection rather than generation. Our method starts by predicting noise generated by the diffusion model based on input images and text prompts (with or without label text), then calculates the corresponding loss for each pair. With the loss differences, we identify distinctive regions of the original images. Additionally, we perform intra-class clustering and ranking on selected patches to maintain diversity constraints. This streamlined framework enables a single-step distillation process, and extensive experiments demonstrate that our approach outperforms state-of-the-art methods across various metrics.

arxiv情報

著者 Xinhao Zhong,Shuoyang Sun,Xulin Gu,Zhaoyang Xu,Yaowei Wang,Jianlong Wu,Bin Chen
発行日 2025-02-19 16:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization はコメントを受け付けていません