Cross-Lingual IPA Contrastive Learning for Zero-Shot NER

要約

低リソース言語のゼロショットという名前のエンティティ認識(NER)に対する既存のアプローチは、主に機械翻訳に依存していましたが、より最近の方法は音素表現に焦点を変えています。
これに基づいて、同様の音声特性を持つ言語間のIPA転写の音素表現ギャップを減らすことにより、高リソース言語でトレーニングされたモデルが低リソース言語で効果的に機能する方法を調査します。
この作業では、10の頻繁に使用される言語ファミリからの10の英語と高リソースの言語IPAペアを含むIPA(CONLIPA)データセットを使用した対照的な学習を提案します。
また、CONLIPAデータセットを使用して、言語間IPAコントラスト学習方法(IPAC)を提案します。
さらに、提案されているデータセットと方法論は、最高のパフォーマンスのベースラインと比較した場合、かなりの平均増加を示します。

要約(オリジナル)

Existing approaches to zero-shot Named Entity Recognition (NER) for low-resource languages have primarily relied on machine translation, whereas more recent methods have shifted focus to phonemic representation. Building upon this, we investigate how reducing the phonemic representation gap in IPA transcription between languages with similar phonetic characteristics enables models trained on high-resource languages to perform effectively on low-resource languages. In this work, we propose CONtrastive Learning with IPA (CONLIPA) dataset containing 10 English and high resource languages IPA pairs from 10 frequently used language families. We also propose a cross-lingual IPA Contrastive learning method (IPAC) using the CONLIPA dataset. Furthermore, our proposed dataset and methodology demonstrate a substantial average gain when compared to the best performing baseline.

arxiv情報

著者 Jimin Sohn,David R. Mortensen
発行日 2025-03-10 11:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Cross-Lingual IPA Contrastive Learning for Zero-Shot NER はコメントを受け付けていません

The Majority Vote Paradigm Shift: When Popular Meets Optimal

要約

通常、データのラベル付けには、複数の人間の労働者からの注釈が必要です。
しかし、人間は完璧ではありません。
したがって、複数のアノテーターから収集されたラベルを集約して、真のラベルをより自信を持って推定することは一般的な慣行です。
多くの集約方法の中で、シンプルでよく知られている多数決(MV)は、最も多くの投票数を投票するクラスラベルを選択します。
しかし、その重要性にもかかわらず、MVのラベル集約の最適性は広く研究されていません。
MVがラベル推定誤差で理論的に最適な下限を達成する条件を特徴付けることにより、私たちの仕事のこのギャップに対処します。
私たちの結果は、MVが特定のクラス分布のラベルを最適に回復できる注釈ノイズの許容限界を捉えています。
この最適性証明書は、より高い専門家、ゴールドラベルなどを含む場合によっては、非常に多くの人間の不確実性と金銭的コストにもかかわらず、より高い専門家、ゴールドラベルなどを含む場合によっては、ラベル集約のモデル選択に対するより原則的なアプローチを提供します。
合成と現実世界の両方のデータに関する実験は、私たちの理論的発見を裏付けています。

要約(オリジナル)

Reliably labelling data typically requires annotations from multiple human workers. However, humans are far from being perfect. Hence, it is a common practice to aggregate labels gathered from multiple annotators to make a more confident estimate of the true label. Among many aggregation methods, the simple and well known Majority Vote (MV) selects the class label polling the highest number of votes. However, despite its importance, the optimality of MV’s label aggregation has not been extensively studied. We address this gap in our work by characterising the conditions under which MV achieves the theoretically optimal lower bound on label estimation error. Our results capture the tolerable limits on annotation noise under which MV can optimally recover labels for a given class distribution. This certificate of optimality provides a more principled approach to model selection for label aggregation as an alternative to otherwise inefficient practices that sometimes include higher experts, gold labels, etc., that are all marred by the same human uncertainty despite huge time and monetary costs. Experiments on both synthetic and real world data corroborate our theoretical findings.

arxiv情報

著者 Antonio Purificato,Maria Sofia Bucarelli,Anil Kumar Nelakanti,Andrea Bacciu,Fabrizio Silvestri,Amin Mantrach
発行日 2025-03-10 11:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | The Majority Vote Paradigm Shift: When Popular Meets Optimal はコメントを受け付けていません

RAG-Enhanced Collaborative LLM Agents for Drug Discovery

要約

大規模な言語モデル(LLM)の最近の進歩は、創薬を加速する大きな可能性を示しています。
ただし、生化学データの特殊な性質は、多くの場合、費用のかかるドメイン固有の微調整を必要とし、重要な課題を提起します。
まず、最先端の創薬タスクにおけるより柔軟な汎用LLMの適用を妨げます。
さらに重要なことは、実験と研究を通じて継続的に生成される膨大な量の科学データの迅速な統合を妨げることです。
これらの課題を調査するために、Drig Discovery Tasksに合わせて調整された検索された発電(RAG)容量のエージェントシステムであるCladdを提案します。
複数のLLMエージェントのコラボレーションを通じて、CLADDは生物医学的知識ベースから情報を動的に取得し、クエリ分子をコンテキスト化し、関連する証拠を統合して応答を生成します – すべてドメイン固有の微調整を必要とせずに。
重要なことに、データの不均一性、あいまいさ、マルチソースの統合など、生化学データにRAGワークフローを適用する際の重要な障害に取り組んでいます。
さまざまな創薬タスクにわたるこのフレームワークの柔軟性と有効性を実証し、汎用とドメイン固有のLLMS、および従来の深い学習アプローチよりも優れていることを示しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have shown great potential to accelerate drug discovery. However, the specialized nature of biochemical data often necessitates costly domain-specific fine-tuning, posing critical challenges. First, it hinders the application of more flexible general-purpose LLMs in cutting-edge drug discovery tasks. More importantly, it impedes the rapid integration of the vast amounts of scientific data continuously generated through experiments and research. To investigate these challenges, we propose CLADD, a retrieval-augmented generation (RAG)-empowered agentic system tailored to drug discovery tasks. Through the collaboration of multiple LLM agents, CLADD dynamically retrieves information from biomedical knowledge bases, contextualizes query molecules, and integrates relevant evidence to generate responses — all without the need for domain-specific fine-tuning. Crucially, we tackle key obstacles in applying RAG workflows to biochemical data, including data heterogeneity, ambiguity, and multi-source integration. We demonstrate the flexibility and effectiveness of this framework across a variety of drug discovery tasks, showing that it outperforms general-purpose and domain-specific LLMs as well as traditional deep learning approaches.

arxiv情報

著者 Namkyeong Lee,Edward De Brouwer,Ehsan Hajiramezanali,Tommaso Biancalani,Chanyoung Park,Gabriele Scalia
発行日 2025-03-10 12:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | RAG-Enhanced Collaborative LLM Agents for Drug Discovery はコメントを受け付けていません

SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

要約

大規模な言語モデル(LLM)の統合により、具体化されたエージェントは、複雑な自然言語の指示を理解して計画するための強力な能力を持っています。
しかし、予見可能な問題は、これらの具体化されたエージェントがいくつかの危険なタスクを完璧に実行し、現実世界で損害を引き起こす可能性があることです。
既存のベンチマークは、主に重大な安全リスクを見落とし、計画パフォーマンスのみに焦点を当てており、LLMSの安全認識を非対話的画像テキストデータのみで評価します。
このギャップに対処するために、SafeAgentbenchを提示します。これは、インタラクティブシミュレーション環境で具体化されたLLMエージェントの安全性を認識するタスク計画のための最初のベンチマークです。
SafeAgentBenchには、次のものが含まれます。(1)750のタスクの実行可能ファイル、多様な、および高品質のデータセットが含まれ、10の潜在的なハザードと3つのタスクタイプをカバーするために厳密にキュレーションされています。
(2)SafeAntenVは、低レベルのコントローラーを備えた普遍的な具体化された環境であり、8つの最先端のベースラインに対して17の高レベルアクションでマルチエージェント実行をサポートします。
(3)実行とセマンティックの両方の視点からの信頼できる評価方法。
実験結果は、異なる設計フレームワークに基づくエージェントがタスクの成功率に大きな違いを示すが、全体的な安全性の認識は弱いままであることを示しています。
最も安全に配慮したベースラインは、詳細な危険タスクに対して10 \%の拒否率のみを達成します。
さらに、エージェントを駆動するLLMを単純に交換しても、安全性の認識の顕著な改善につながることはありません。
詳細とコードは、https://github.com/shengyin1224/safeagentbenchで入手できます。

要約(オリジナル)

With the integration of large language models (LLMs), embodied agents have strong capabilities to understand and plan complicated natural language instructions. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in the real world. Existing benchmarks predominantly overlook critical safety risks, focusing solely on planning performance, while a few evaluate LLMs’ safety awareness only on non-interactive image-text data. To address this gap, we present SafeAgentBench-the first benchmark for safety-aware task planning of embodied LLM agents in interactive simulation environments. SafeAgentBench includes: (1) an executable, diverse, and high-quality dataset of 750 tasks, rigorously curated to cover 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that, although agents based on different design frameworks exhibit substantial differences in task success rates, their overall safety awareness remains weak. The most safety-conscious baseline achieves only a 10\% rejection rate for detailed hazardous tasks. Moreover, simply replacing the LLM driving the agent does not lead to notable improvements in safety awareness. More details and code are available at https://github.com/shengyin1224/SafeAgentBench.

arxiv情報

著者 Sheng Yin,Xianghe Pang,Yuanzhuo Ding,Menglan Chen,Yutong Bi,Yichen Xiong,Wenhao Huang,Zhen Xiang,Jing Shao,Siheng Chen
発行日 2025-03-10 12:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.RO | SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents はコメントを受け付けていません

CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting

要約

安全な自律運転(AD)には、正確なモーション予測が重要です。
この研究では、大規模な言語モデル(LLMS)を活用することによりモーション予測を強化する新しいアプローチと、考え方(COT)プロンプトの方法を提案します。
教師の学生の知識蒸留戦略を導入して、LLMSの高度なシーン理解機能を軽量言語モデル(LMS)に効果的に転送し、COTドライブが包括的なシーンの理解と一般化機能を維持しながら、エッジデバイスでリアルタイムで動作するようにします。
追加のトレーニングなしでLLMSのコットプロンプトテクニックを活用することにより、COT-driveは、複雑な交通環境の理解を大幅に改善するセマンティックな注釈を生成し、それにより予測の精度と堅牢性を高めます。
さらに、コンテキスト固有のセマンティックアノテーションを生成するために微調整する軽量LMS用に設計された、高速道路テキストと都市テキストの2つの新しいシーン説明データセットを提示します。
5つの実際のデータセットの包括的な評価は、COTドライブが既存のモデルを上回ることを示しており、複雑なトラフィックシナリオの処理におけるその有効性と効率性を強調しています。
全体として、この研究は、この分野でのLLMの実用化を考慮した最初の研究です。
モーション予測のための軽量LLM代理のトレーニングと使用を先駆けて、新しいベンチマークの設定、LLMSをADシステムに統合する可能性を紹介します。

要約(オリジナル)

Accurate motion forecasting is crucial for safe autonomous driving (AD). This study proposes CoT-Drive, a novel approach that enhances motion forecasting by leveraging large language models (LLMs) and a chain-of-thought (CoT) prompting method. We introduce a teacher-student knowledge distillation strategy to effectively transfer LLMs’ advanced scene understanding capabilities to lightweight language models (LMs), ensuring that CoT-Drive operates in real-time on edge devices while maintaining comprehensive scene understanding and generalization capabilities. By leveraging CoT prompting techniques for LLMs without additional training, CoT-Drive generates semantic annotations that significantly improve the understanding of complex traffic environments, thereby boosting the accuracy and robustness of predictions. Additionally, we present two new scene description datasets, Highway-Text and Urban-Text, designed for fine-tuning lightweight LMs to generate context-specific semantic annotations. Comprehensive evaluations of five real-world datasets demonstrate that CoT-Drive outperforms existing models, highlighting its effectiveness and efficiency in handling complex traffic scenarios. Overall, this study is the first to consider the practical application of LLMs in this field. It pioneers the training and use of a lightweight LLM surrogate for motion forecasting, setting a new benchmark and showcasing the potential of integrating LLMs into AD systems.

arxiv情報

著者 Haicheng Liao,Hanlin Kong,Bonan Wang,Chengyue Wang,Wang Ye,Zhengbing He,Chengzhong Xu,Zhenning Li
発行日 2025-03-10 12:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting はコメントを受け付けていません

LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation

要約

コンテンツモデレーションはグローバルな課題ですが、主要なハイテクプラットフォームは高リソース言語を優先し、低リソース言語にネイティブのモデレーターが不足しています。
効果的な節度はコンテキストキューの理解に依存するため、この不均衡は、非ネイティブモデレーターの限られた文化的理解により、不適切な節度のリスクを高めます。
ユーザー調査を通じて、非ネイティブのモデレーターは、ヘイトスピーチの節度における文化的特有の知識、感情、インターネット文化の解釈に苦労していることを特定します。
彼らを支援するために、3つのステップを持つ人間のllm共同パイプラインであるLLM-C3MODを提示します。
(2)初期LLMベースのモデレート。
(3)LLMコンセンサスを欠いている症例の人間の標的をターゲットにした。
インドネシアおよびドイツの参加者と韓国のヘイトスピーチデータセットで評価されたこのシステムは、78%の精度(GPT-4oの71%のベースラインを上回る)を達成し、人間のワークロードを83.6%削減します。
特に、人間のモデレーターは、LLMSが苦労している微妙なコンテンツで優れています。
私たちの調査結果は、LLMSによって適切にサポートされている場合、非ネイティブモデレーターが異文化間のヘイトスピーチモデレートに効果的に貢献できることを示唆しています。

要約(オリジナル)

Content moderation is a global challenge, yet major tech platforms prioritize high-resource languages, leaving low-resource languages with scarce native moderators. Since effective moderation depends on understanding contextual cues, this imbalance increases the risk of improper moderation due to non-native moderators’ limited cultural understanding. Through a user study, we identify that non-native moderators struggle with interpreting culturally-specific knowledge, sentiment, and internet culture in the hate speech moderation. To assist them, we present LLM-C3MOD, a human-LLM collaborative pipeline with three steps: (1) RAG-enhanced cultural context annotations; (2) initial LLM-based moderation; and (3) targeted human moderation for cases lacking LLM consensus. Evaluated on a Korean hate speech dataset with Indonesian and German participants, our system achieves 78% accuracy (surpassing GPT-4o’s 71% baseline), while reducing human workload by 83.6%. Notably, human moderators excel at nuanced contents where LLMs struggle. Our findings suggest that non-native moderators, when properly supported by LLMs, can effectively contribute to cross-cultural hate speech moderation.

arxiv情報

著者 Junyeong Park,Seogyeong Jeong,Seyoung Song,Yohan Lee,Alice Oh
発行日 2025-03-10 12:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation はコメントを受け付けていません

MonoSOWA: Scalable monocular 3D Object detector Without human Annotations

要約

単一のRGBカメラからのオブジェクト3Dの位置と方向を推測することは、多くの重要なアプリケーションを備えたコンピュータービジョンの基本的なタスクです。
伝統的に、3Dオブジェクト検出方法は完全に監視されたセットアップでトレーニングされており、Lidarと膨大な量の人間の注釈が必要であり、面倒で費用がかかり、キャプチャされている量のデータとは十分にスケーリングしません。
ドメイン固有の人間の注釈なしで、単一のRGBカメラから3Dオブジェクト検出器をトレーニングする新しい方法を提示し、トレーニングに利用可能なより多くのデータを提供します。
このメソッドは、新たに提案されたローカルオブジェクトモーションモデルを使用して、後続のフレーム間でオブジェクトの移動ソースを解き放ち、以前の作業よりも約700倍高速であり、カメラの焦点距離の違いを複数のデータセットを集約するために補正します。
この方法は3つのパブリックデータセットで評価され、人間のラベルを使用していないにもかかわらず、事前の作業を大幅に上回ることができます。
また、完全に監視されたトレーニングのためのトレーニング前のツールとしての汎用性を示しており、複数のデータセットからの擬似ラベルを組み合わせることで、単一のデータセットからの人間のラベルを使用することに匹敵する精度が得られることを示しています。
ソースコードとモデルはまもなく公開されます。

要約(オリジナル)

Inferring object 3D position and orientation from a single RGB camera is a foundational task in computer vision with many important applications. Traditionally, 3D object detection methods are trained in a fully-supervised setup, requiring LiDAR and vast amounts of human annotations, which are laborious, costly, and do not scale well with the ever-increasing amounts of data being captured. We present a novel method to train a 3D object detector from a single RGB camera without domain-specific human annotations, making orders of magnitude more data available for training. The method uses newly proposed Local Object Motion Model to disentangle object movement source between subsequent frames, is approximately 700 times faster than previous work and compensates camera focal length differences to aggregate multiple datasets. The method is evaluated on three public datasets, where despite using no human labels, it outperforms prior work by a significant margin. It also shows its versatility as a pre-training tool for fully-supervised training and shows that combining pseudo-labels from multiple datasets can achieve comparable accuracy to using human labels from a single dataset. The source code and model will be published soon.

arxiv情報

著者 Jan Skvrna,Lukas Neumann
発行日 2025-03-10 12:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MonoSOWA: Scalable monocular 3D Object detector Without human Annotations はコメントを受け付けていません

AI-Driven Automated Tool for Abdominal CT Body Composition Analysis in Gastrointestinal Cancer Management

要約

胃腸がんの発生率は、特に中国では、正確な予後評価と効果的な治療戦略の重要性を強調しています。
研究では、腹部筋肉と脂肪組織の組成と患者の転帰との強い相関関係が示されています。
ただし、腹部組織組成を分析するための既存の手動方法は、時間がかかり、費用がかかるため、臨床研究のスケーラビリティが制限されています。
これらの課題に対処するために、腹部CTスキャンの自動分析のためのAI駆動型ツールを開発し、筋肉、皮下脂肪、および内臓脂肪を効果的に識別およびセグメント化しました。
当社のツールは、マルチビューローカリゼーションモデルと高精度2D NNUNETベースのセグメンテーションモデルを統合し、90%のローカリゼーション精度とセグメンテーションのために0.967のDICEスコア係数を示します。
さらに、臨床医がセグメンテーションの結果を改良できるようにするインタラクティブなインターフェイスを備えており、高品質の結果を効果的に保証します。
当社のツールは、臨界腹部組織を効果的に抽出するための標準化された方法を提供し、胃腸がんの管理と治療を潜在的に強化する可能性があります。
このコードは、https://github.com/nanxinyu/ai-tool4abdominal-seg.git} {https://github.com/nanxininyu/ai-tool4abdominal-seg.gitで入手できます。

要約(オリジナル)

The incidence of gastrointestinal cancers remains significantly high, particularly in China, emphasizing the importance of accurate prognostic assessments and effective treatment strategies. Research shows a strong correlation between abdominal muscle and fat tissue composition and patient outcomes. However, existing manual methods for analyzing abdominal tissue composition are time-consuming and costly, limiting clinical research scalability. To address these challenges, we developed an AI-driven tool for automated analysis of abdominal CT scans to effectively identify and segment muscle, subcutaneous fat, and visceral fat. Our tool integrates a multi-view localization model and a high-precision 2D nnUNet-based segmentation model, demonstrating a localization accuracy of 90% and a Dice Score Coefficient of 0.967 for segmentation. Furthermore, it features an interactive interface that allows clinicians to refine the segmentation results, ensuring high-quality outcomes effectively. Our tool offers a standardized method for effectively extracting critical abdominal tissues, potentially enhancing the management and treatment for gastrointestinal cancers. The code is available at https://github.com/NanXinyu/AI-Tool4Abdominal-Seg.git}{https://github.com/NanXinyu/AI-Tool4Abdominal-Seg.git.

arxiv情報

著者 Xinyu Nan,Meng He,Zifan Chen,Bin Dong,Lei Tang,Li Zhang
発行日 2025-03-10 12:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | AI-Driven Automated Tool for Abdominal CT Body Composition Analysis in Gastrointestinal Cancer Management はコメントを受け付けていません

COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition

要約

エゴセントリックビデオベースのモデルは、豊富なセマンティック情報をキャプチャし、人間の活動認識(HAR)で強力なパフォーマンスを実証しています。
ただし、高出力消費、プライバシーの懸念、照明条件への依存により、継続的なオンデバイス認識の実現可能性が制限されます。
対照的に、慣性測定ユニット(IMU)センサーは、エネルギー効率が高くプライバシーに基づいた代替品を提供しますが、それらは限られた大規模な注釈付きデータセットに苦しんでおり、下流タスクの一般化が弱くなっています。
このギャップを埋めるために、ラベル付きの注釈を必要とせずにビデオモダリティからIMUモダリティに豊富なセマンティック知識を転送するクロスモーダルの自己監視された蒸留フレームワークであるComodoを提案します。
Comodoは、動的なインスタンスキューを構築して、ビデオとIMUの埋め込みの機能分布を整列させて、動的なインスタンスキューを構築するために、前処理された凍結ビデオエンコーダーを活用します。
ビデオ表現から知識を蒸留することにより、私たちのアプローチにより、IMUエンコーダーは、実際のアプリケーションの効率を維持しながら、ビデオから豊富なセマンティック情報を継承することができます。
複数のエゴセントリックHARデータセットの実験は、COMODOが一貫してダウンストリーム分類パフォーマンスを改善し、完全に監視された微調整モデルに匹敵する、またはそれを超える結果を達成することを示しています。
さらに、Comodoは強力なクロスダタセットの一般化を示しています。
そのシンプルさの恩恵を受けて、私たちの方法は一般に、さまざまなビデオおよびタイムシリーズの事前訓練モデルにも適用でき、将来の研究でより強力な教師と学生の基礎モデルを活用する可能性を提供します。
このコードは、https://github.com/breezelled/comodoで入手できます。

要約(オリジナル)

Egocentric video-based models capture rich semantic information and have demonstrated strong performance in human activity recognition (HAR). However, their high power consumption, privacy concerns, and dependence on lighting conditions limit their feasibility for continuous on-device recognition. In contrast, inertial measurement unit (IMU) sensors offer an energy-efficient and privacy-preserving alternative, yet they suffer from limited large-scale annotated datasets, leading to weaker generalization in downstream tasks. To bridge this gap, we propose COMODO, a cross-modal self-supervised distillation framework that transfers rich semantic knowledge from the video modality to the IMU modality without requiring labeled annotations. COMODO leverages a pretrained and frozen video encoder to construct a dynamic instance queue, aligning the feature distributions of video and IMU embeddings. By distilling knowledge from video representations, our approach enables the IMU encoder to inherit rich semantic information from video while preserving its efficiency for real-world applications. Experiments on multiple egocentric HAR datasets demonstrate that COMODO consistently improves downstream classification performance, achieving results comparable to or exceeding fully supervised fine-tuned models. Moreover, COMODO exhibits strong cross-dataset generalization. Benefiting from its simplicity, our method is also generally applicable to various video and time-series pre-trained models, offering the potential to leverage more powerful teacher and student foundation models in future research. The code is available at https://github.com/Breezelled/COMODO .

arxiv情報

著者 Baiyu Chen,Wilson Wongso,Zechen Li,Yonchanok Khaokaew,Hao Xue,Flora Salim
発行日 2025-03-10 12:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition はコメントを受け付けていません

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

要約

テキストツーイメージ(T2I)モデルは、高品質の芸術作品と視覚的なコンテンツを生成することができます。
ただし、既存の研究と評価の基準は、主にイメージのリアリズムと浅いテキストイメージの調整に焦点を当てており、テキストから画像生成への複雑なセマンティック理解と世界知識の統合の包括的な評価が欠けています。
この課題に対処するために、$ \ textbf {w} $ orld knowledge-$ \ textbf {i} $ nformed $ \ textbf {s} $ emantic $ \ textbf {e} $ $ valuation用に特別に設計された最初のベンチマークである$ \ textbf {wise} $を提案します。
ワイズは、文化的常識、空間的推論、自然科学の25のサブドメインにわたって1000の綿密に作成されたプロンプトを備えた挑戦的なモデルで、単純なワードピクセルマッピングを超えて移動します。
従来のクリップメトリックの制限を克服するために、知識イメージアライメントを評価するための新しい定量的メトリックである$ \ textBf {wiscore} $を導入します。
25のサブドメインにまたがる1,000の構造化プロンプトを使用して、20のモデル(10の専用T2Iモデルと10の統一マルチモードモデル)の包括的なテストを通じて、我々の調査結果は、画像生成中に世界知識を効果的に統合および適用する能力に大きな制限を明らかにし、次世代T2Iモデルにおける知識の組み込みと応用を強化するための重要な経路を強調します。
コードとデータはhttps://github.com/pku-yuangroup/wiseで入手できます。

要約(オリジナル)

Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose $\textbf{WISE}$, the first benchmark specifically designed for $\textbf{W}$orld Knowledge-$\textbf{I}$nformed $\textbf{S}$emantic $\textbf{E}$valuation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce $\textbf{WiScore}$, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

arxiv情報

著者 Yuwei Niu,Munan Ning,Mengren Zheng,Bin Lin,Peng Jin,Jiaqi Liao,Kunpeng Ning,Bin Zhu,Li Yuan
発行日 2025-03-10 12:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation はコメントを受け付けていません