Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees

要約

回帰、条件付き確率推定、および不確実性の定量化の多くの現実世界の応用では、物理学またはジオメトリに根ざした対称性を悪用すると、一般化とサンプル効率が劇的に改善される可能性があります。
幾何学的な深い学習は、グループ理論構造を組み込むことにより大きな経験的進歩をもたらしましたが、統計学習保証にはあまり注意が払われていません。
このホワイトペーパーでは、回帰、条件付き確率推定、および不確実性の定量化に対処しながら、類似の非症状の統計学習保証を提供する同時に、同時に表現学習フレームワークを紹介します。
オペレーターとグループの表現理論に基づいて、我々のフレームワークは、条件付き期待演算子のスペクトル分解に近似し、独立した対称サブグループに沿って同等で解き放たれた構築表現を構築します。
合成データセットと実際のロボット工学アプリケーションに関する経験的評価は、当社のアプローチの可能性を確認し、既存の等縁事項ベースラインを回帰に一致またはアウトパフォームしながら、さらに適切に調整されたパラメトリックの不確実性推定値を提供します。

要約(オリジナル)

In many real-world applications of regression, conditional probability estimation, and uncertainty quantification, exploiting symmetries rooted in physics or geometry can dramatically improve generalization and sample efficiency. While geometric deep learning has made significant empirical advances by incorporating group-theoretic structure, less attention has been given to statistical learning guarantees. In this paper, we introduce an equivariant representation learning framework that simultaneously addresses regression, conditional probability estimation, and uncertainty quantification while providing first-of-its-kind non-asymptotic statistical learning guarantees. Grounded in operator and group representation theory, our framework approximates the spectral decomposition of the conditional expectation operator, building representations that are both equivariant and disentangled along independent symmetry subgroups. Empirical evaluations on synthetic datasets and real-world robotics applications confirm the potential of our approach, matching or outperforming existing equivariant baselines in regression while additionally providing well-calibrated parametric uncertainty estimates.

arxiv情報

著者 Daniel Ordoñez-Apraez,Vladimir Kostić,Alek Fröhlich,Vivien Brandt,Karim Lounici,Massimiliano Pontil
発行日 2025-05-27 13:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 43-06, cs.AI, cs.LG, cs.RO, I.2.6 | Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees はコメントを受け付けていません

Linear Bandits with Non-i.i.d. Noise

要約

線形確率的盗賊問題を研究し、標準的なi.i.d.をリラックスさせます。
観測ノイズの仮定。
この制限的な仮定に代わるものとして、ラウンド全体のノイズ項がサブガウスであるが相互依存的であり、依存関係が時間の経過とともに崩壊することを許可します。
この設定に対処するために、最近導入された削減スキームを順次確率割り当てして新しい信頼シーケンスを開発し、これらを使用して、不確実性に直面した楽観主義の原理に基づいて盗賊アルゴリズムを導き出します。
観測間の依存性の強度の減衰率の観点から表される、結果のアルゴリズムの後悔の境界を提供します。
他の結果の中でも、観測ノイズを幾何学的に混合するための混合時間の係数まで標準速度を回収することを示します。

要約(オリジナル)

We study the linear stochastic bandit problem, relaxing the standard i.i.d. assumption on the observation noise. As an alternative to this restrictive assumption, we allow the noise terms across rounds to be sub-Gaussian but interdependent, with dependencies that decay over time. To address this setting, we develop new confidence sequences using a recently introduced reduction scheme to sequential probability assignment, and use these to derive a bandit algorithm based on the principle of optimism in the face of uncertainty. We provide regret bounds for the resulting algorithm, expressed in terms of the decay rate of the strength of dependence between observations. Among other results, we show that our bounds recover the standard rates up to a factor of the mixing time for geometrically mixing observation noise.

arxiv情報

著者 Baptiste Abélès,Eugenio Clerico,Hamish Flynn,Gergely Neu
発行日 2025-05-27 09:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Linear Bandits with Non-i.i.d. Noise はコメントを受け付けていません

Transformers in Protein: A Survey

要約

タンパク質情報学が急速に進むにつれて、予測精度、構造分析、および機能的理解の向上の需要が強化されています。
強力な深い学習アーキテクチャとしての変圧器モデルは、タンパク質研究全体の多様な課題に対処する上で前例のない可能性を実証しています。
ただし、この分野でのトランスアプリケーションの包括的なレビューはまだ不足しています。
このペーパーは、100を超える研究を調査することにより、このギャップを橋渡しし、タンパク質関連のタスクにおける変圧器の実用的な実装と研究の進歩の詳細な分析を提供します。
私たちのレビューは、タンパク質構造の予測、機能予測、タンパク質 – タンパク質相互作用分析、機能的注釈、および創薬/ターゲットの識別など、重要なドメインを体系的にカバーしています。
さまざまなタンパク質ドメインでこれらの進歩を文脈化するために、ドメイン指向の分類システムを採用します。
最初に基本的な概念を紹介します:トランスアーキテクチャと注意メカニズム、タンパク質科学に合わせた変圧器のバリアントを分類し、本質的なタンパク質知識を要約します。
各研究ドメインについて、その目的と背景の概要を説明し、以前の方法とその制限を批判的に評価し、トランスモデルによって可能になった変革的貢献を強調します。
また、再現性とベンチマークを促進するために、重要なデータセットとオープンソースコードリソースをキュレートして要約します。
最後に、トランスをタンパク質情報学に適用する際の持続的な課題について説明し、将来の研究の方向性を提案します。
このレビューの目的は、変圧器とタンパク質の情報学の相乗的な統合のための統合された基盤を提供し、現場でのさらなる革新と拡大されたアプリケーションを促進することを目的としています。

要約(オリジナル)

As protein informatics advances rapidly, the demand for enhanced predictive accuracy, structural analysis, and functional understanding has intensified. Transformer models, as powerful deep learning architectures, have demonstrated unprecedented potential in addressing diverse challenges across protein research. However, a comprehensive review of Transformer applications in this field remains lacking. This paper bridges this gap by surveying over 100 studies, offering an in-depth analysis of practical implementations and research progress of Transformers in protein-related tasks. Our review systematically covers critical domains, including protein structure prediction, function prediction, protein-protein interaction analysis, functional annotation, and drug discovery/target identification. To contextualize these advancements across various protein domains, we adopt a domain-oriented classification system. We first introduce foundational concepts: the Transformer architecture and attention mechanisms, categorize Transformer variants tailored for protein science, and summarize essential protein knowledge. For each research domain, we outline its objectives and background, critically evaluate prior methods and their limitations, and highlight transformative contributions enabled by Transformer models. We also curate and summarize pivotal datasets and open-source code resources to facilitate reproducibility and benchmarking. Finally, we discuss persistent challenges in applying Transformers to protein informatics and propose future research directions. This review aims to provide a consolidated foundation for the synergistic integration of Transformer and protein informatics, fostering further innovation and expanded applications in the field.

arxiv情報

著者 Xiaowen Ling,Zhiqiang Li,Yanbin Wang,Zhuhong You
発行日 2025-05-27 10:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, q-bio.QM | Transformers in Protein: A Survey はコメントを受け付けていません

Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

要約

大規模な言語モデル(LLM)は、長鎖の推論を通じて複雑なタスクを処理する上で印象的な機能を示しています。
ただし、関連する広範な推論ステップは、計算コストを大幅に増加させる可能性があり、実際の展開の課題をもたらします。
最近の取り組みは、長さを認識した迅速なエンジニアリング、さまざまな長さのCOTデータの監視された微調整、長さのペナルティを備えた補強学習など、さまざまなアプローチを通じて、考え方(COT)の推論プロセスを短縮することにより、推論効率を最適化することに焦点を当てています。
これらの方法は効果的に推論長を短縮しますが、最初の推論段階が必要です。
より最近のアプローチでは、長鎖と短鎖の推論能力を単一のモデルに統合しようとしましたが、それでも短いベッドとロングコットを切り替えるために手動制御に依存しています。
この作業では、問題の複雑さに基づいて短い推論チェーンと長い推論チェーンを自律的に切り替える新しいアプローチを提案します。
私たちの方法は、長鎖と短鎖の推論能力の両方を装備するために、ベースモデルの監視された微調整から始まります。
次に、強化学習を採用して、短いCOTと長いCOTの生成のバランスをさらにバランスさせながら、2つの重要な戦略を維持します。まず、強化学習を長期的な適応型グループごとの報酬戦略と統合して、迅速な複雑さを評価し、対応する報酬を提供します。
第二に、モデルの最初のトークンの選択を最適化するためにロジットベースの推論モードの切り替えロスを実装し、それにより推論タイプの選択を導きます。
数学データセットの評価は、モデルがパフォーマンスを実質的に犠牲にすることなく、長鎖と短鎖の推論モードを動的に切り替えることができることを示しています。
この進歩は、実際のアプリケーションの大規模な言語モデルでの推論の実用性を高めます。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities in handling complex tasks through long-chain reasoning. However, the extensive reasoning steps involved can significantly increase computational costs, posing challenges for real-world deployment. Recent efforts have focused on optimizing reasoning efficiency by shortening the Chain-of-Thought (CoT) reasoning processes through various approaches, such as length-aware prompt engineering, supervised fine-tuning on CoT data with variable lengths, and reinforcement learning with length penalties. Although these methods effectively reduce reasoning length, they still necessitate an initial reasoning phase. More recent approaches have attempted to integrate long-chain and short-chain reasoning abilities into a single model, yet they still rely on manual control to toggle between short and long CoT. In this work, we propose a novel approach that autonomously switches between short and long reasoning chains based on problem complexity. Our method begins with supervised fine-tuning of the base model to equip both long-chain and short-chain reasoning abilities. We then employ reinforcement learning to further balance short and long CoT generation while maintaining accuracy through two key strategies: first, integrating reinforcement learning with a long-short adaptive group-wise reward strategy to assess prompt complexity and provide corresponding rewards; second, implementing a logit-based reasoning mode switching loss to optimize the model’s initial token choice, thereby guiding the selection of the reasoning type. Evaluations on mathematical datasets demonstrate that our model can dynamically switch between long-chain and short-chain reasoning modes without substantially sacrificing performance. This advancement enhances the practicality of reasoning in large language models for real-world applications.

arxiv情報

著者 Yunhao Wang,Yuhao Zhang,Tinghao Yu,Can Xu,Feng Zhang,Fengzong Lian
発行日 2025-05-27 12:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adaptive Deep Reasoning: Triggering Deep Thinking When Needed はコメントを受け付けていません

SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment

要約

科学研究の記事では、現在の研究と以前の研究との関係を強調しているため、引用は非常に重要です。
ただし、このプロセスは、多くの場合、研究者にとって時間がかかります。
この研究では、scirgc​​フレームワークを提案します。これは、引用記事を自動的に推奨し、記事内の引用場所の引用文を生成することを目的としています。
このフレームワークは、アカデミック引用生成における2つの重要な課題に対処します。1)著者の引用の意図を正確に特定し、関連する引用論文を見つける方法、および2)人間の好みに合わせた高品質の引用文を生成する方法。
引用ネットワークとセンチメントの意図を組み込むことにより、引用記事の推奨モジュールの引用推奨の精度を高め、元の記事抽象、ローカルコンテキスト、引用意図、および推奨記事を入力として使用して、引用文の生成モジュールで推論ベースの引用文を生成します。
さらに、生成された引用文の品質を公正に評価するための新しい評価メトリックを提案します。
ベースラインモデルとアブレーション実験との比較を通じて、SCIRGCフレームワークは、引用の推奨事項の精度と関連性を向上させるだけでなく、文脈で生成された引用文の適切性を保証し、学際的な研究者に貴重なツールを提供します。

要約(オリジナル)

Citations are crucial in scientific research articles as they highlight the connection between the current study and prior work. However, this process is often time-consuming for researchers. In this study, we propose the SciRGC framework, which aims to automatically recommend citation articles and generate citation sentences for citation locations within articles. The framework addresses two key challenges in academic citation generation: 1) how to accurately identify the author’s citation intent and find relevant citation papers, and 2) how to generate high-quality citation sentences that align with human preferences. We enhance citation recommendation accuracy in the citation article recommendation module by incorporating citation networks and sentiment intent, and generate reasoning-based citation sentences in the citation sentence generation module by using the original article abstract, local context, citation intent, and recommended articles as inputs. Additionally, we propose a new evaluation metric to fairly assess the quality of generated citation sentences. Through comparisons with baseline models and ablation experiments, the SciRGC framework not only improves the accuracy and relevance of citation recommendations but also ensures the appropriateness of the generated citation sentences in context, providing a valuable tool for interdisciplinary researchers.

arxiv情報

著者 Xiangyu Li,Jingqiang Chen
発行日 2025-05-27 14:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL | SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment はコメントを受け付けていません

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

要約

空間計画は、空間インテリジェンスの分野で重要な部分であり、空間の観点からのオブジェクトの配置に関する理解と計画が必要です。
空間計画能力を備えたAIエージェントは、ロボット操作、自動アセンブリ、都市計画など、さまざまな現実世界のアプリケーションにより適応することができます。最近の作品は、マルチモーダル大手言語モデル(MLLM)の空間インテリジェンスを評価するためのベンチマークを構築しようとしました。
それにもかかわらず、これらのベンチマークは、主に典型的な視覚的質問(VQA)フォームに基づいた空間的推論に焦点を当てており、抽象的な空間的理解と具体的なタスクの実行の間のギャップに苦しんでいます。
この作業では、MineanyBuildと呼ばれる包括的なベンチマークを構築するためにさらに一歩進んで、MinecraftゲームのオープンワールドAIエージェントの空間計画能力を評価することを目指しています。
具体的には、MineanyBuildは、特定のマルチモーダルの人間の指示に基づいて、エージェントが実行可能なアーキテクチャ構築計画を生成することを要求しています。
4,000のキュレーションされた空間計画タスクが含まれ、リッチなプレーヤーで生成されたコンテンツを利用することにより、無限に拡張可能なデータ収集のパラダイムも提供します。
MineAnyBuildは、空間的理解、空間推論、創造性、空間的コモンセンスの4つのコアサポート次元を通じて空間計画を評価します。
MineanyBuildに基づいて、既存のMLLMベースのエージェントに対して包括的な評価を実行し、空間計画能力における深刻な制限があるが大きな可能性を明らかにしています。
私たちのMineanyBuildは、空間インテリジェンスの評価のための新しい道を開き、空間計画が可能なオープンワールドAIエージェントのさらなる開発を促進するのに役立つと考えています。

要約(オリジナル)

Spatial Planning is a crucial part in the field of spatial intelligence, which requires the understanding and planning about object arrangements in space perspective. AI agents with the spatial planning ability can better adapt to various real-world applications, including robotic manipulation, automatic assembly, urban planning etc. Recent works have attempted to construct benchmarks for evaluating the spatial intelligence of Multimodal Large Language Models (MLLMs). Nevertheless, these benchmarks primarily focus on spatial reasoning based on typical Visual Question-Answering (VQA) forms, which suffers from the gap between abstract spatial understanding and concrete task execution. In this work, we take a step further to build a comprehensive benchmark called MineAnyBuild, aiming to evaluate the spatial planning ability of open-world AI agents in the Minecraft game. Specifically, MineAnyBuild requires an agent to generate executable architecture building plans based on the given multi-modal human instructions. It involves 4,000 curated spatial planning tasks and also provides a paradigm for infinitely expandable data collection by utilizing rich player-generated content. MineAnyBuild evaluates spatial planning through four core supporting dimensions: spatial understanding, spatial reasoning, creativity, and spatial commonsense. Based on MineAnyBuild, we perform a comprehensive evaluation for existing MLLM-based agents, revealing the severe limitations but enormous potential in their spatial planning abilities. We believe our MineAnyBuild will open new avenues for the evaluation of spatial intelligence and help promote further development for open-world AI agents capable of spatial planning.

arxiv情報

著者 Ziming Wei,Bingqian Lin,Zijian Jiao,Yunshuang Nie,Liang Ma,Yuecheng Liu,Yuzheng Zhuang,Xiaodan Liang
発行日 2025-05-27 13:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents はコメントを受け付けていません

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

要約

大規模な言語モデル(LLM)がデリケートなワークフローに統合されると、懸念は機密情報を漏らす可能性に懸念が高まっています。
TrojanStegoは、敵対的なコンテキスト情報を言語のステガノグラフィを介して自然な外観の出力に埋め込むためのLLMを微調整する新しい脅威モデルであり、推論入力を明示的に制御する必要はありません。
妥協したLLMSのリスク要因を概説する分類法を導入し、それを使用して脅威のリスクプロファイルを評価します。
TrojanStegoを実装するために、微調整を介してLLMSが学習可能な語彙分割に基づいて実用的なエンコードスキームを提案します。
実験結果は、侵害されたモデルが保有プロンプトで87%の精度で32ビットの秘密を確実に送信し、3世代にわたって過半数の投票を使用して97%以上の精度に達することを示しています。
さらに、彼らは高い効用を維持し、人間の検出を回避し、一貫性を維持することができます。
これらの結果は、受動的、秘密、実用的で、危険なLLMデータの新しいクラスの排出攻撃を強調しています。

要約(オリジナル)

As large language models (LLMs) become integrated into sensitive workflows, concerns grow over their potential to leak confidential information. We propose TrojanStego, a novel threat model in which an adversary fine-tunes an LLM to embed sensitive context information into natural-looking outputs via linguistic steganography, without requiring explicit control over inference inputs. We introduce a taxonomy outlining risk factors for compromised LLMs, and use it to evaluate the risk profile of the threat. To implement TrojanStego, we propose a practical encoding scheme based on vocabulary partitioning learnable by LLMs via fine-tuning. Experimental results show that compromised models reliably transmit 32-bit secrets with 87% accuracy on held-out prompts, reaching over 97% accuracy using majority voting across three generations. Further, they maintain high utility, can evade human detection, and preserve coherence. These results highlight a new class of LLM data exfiltration attacks that are passive, covert, practical, and dangerous.

arxiv情報

著者 Dominik Meier,Jan Philip Wahle,Paul Röttger,Terry Ruas,Bela Gipp
発行日 2025-05-27 07:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent はコメントを受け付けていません

Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning

要約

入力の長さが増加するにつれてパフォーマンスの劣化により、高度なLLM-A-A-Judgeメソッドであっても、長期のモデル生成テキストの品質を評価することは困難です。
この問題に対処するために、包括的な評価タスクを一連のローカライズされたスコアリングタスクに分解し、最終的なグローバル評価が続く分割統治アプローチを提案します。
この戦略により、より詳細で管理しやすい評価が可能になり、テキストの各セグメントが一貫性と品質の両方で単独で評価され、ピース全体の全体的な構造と一貫性を占めます。
さらに、人間の注釈を活用してローカルおよびグローバルな評価の両方のパフォーマンスを向上させるハイブリッド内コンテキスト学習アプローチを紹介します。
この方法により、人間が生成したフィードバックを評価プロセスに直接組み込むことにより、モデルが人間の判断とより適合することができます。
最後に、人間の注釈のためにデータサンプルを効率的に選択する不確実性ベースのアクティブ学習アルゴリズムを開発し、それにより実際のシナリオで注釈コストを削減します。
実験結果は、提案された評価フレームワークがいくつかの代表的なベースラインよりも優れていることを示しており、アプローチの有効性を強調しています。

要約(オリジナル)

Assessing the quality of long-form, model-generated text is challenging, even with advanced LLM-as-a-Judge methods, due to performance degradation as input length increases. To address this issue, we propose a divide-and-conquer approach, which breaks down the comprehensive evaluation task into a series of localized scoring tasks, followed by a final global assessment. This strategy allows for more granular and manageable evaluations, ensuring that each segment of the text is assessed in isolation for both coherence and quality, while also accounting for the overall structure and consistency of the entire piece. Moreover, we introduce a hybrid in-context learning approach that leverages human annotations to enhance the performance of both local and global evaluations. By incorporating human-generated feedback directly into the evaluation process, this method allows the model to better align with human judgment. Finally, we develop an uncertainty-based active learning algorithm that efficiently selects data samples for human annotation, thereby reducing annotation costs in practical scenarios. Experimental results show that the proposed evaluation framework outperforms several representative baselines, highlighting the effectiveness of our approach.

arxiv情報

著者 Xiaorong Wang,Ting Yang,Zhu Zhang,Shuo Wang,Zihan Zhou,Liner Yang,Zhiyuan Liu,Maosong Sun
発行日 2025-05-27 02:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning はコメントを受け付けていません

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

要約

効果的な人間との相互作用は、人間の感情を正確に認識して解釈するAIの能力に依存しています。
ビジョンおよびビジョン言語モデルの現在のベンチマークは厳しく制限されており、微妙な状態(苦味、中毒など)を見下ろす狭い感情的なスペクトルを提供し、関連する感情の微妙な違いを区別できません(例:恥と恥ずかしさ)。
また、既存のデータセットは、閉塞された顔と人口統計の多様性を欠いている制御されていない画像を使用して、重要なバイアスを危険にさらします。
これらの重要なギャップに対処するために、包括的なベンチマークスイートであるEmonet Faceを紹介します。
Emonet Faceの特徴:(1)人間の感情的経験のより細かい詳細を捉えるために、基礎研究から細心の注意を払って派生した40カテゴリーの感情分類法。
(2)明示的なフルフェースの表現と、民族性、年齢、性別にわたる明示的なフルフェースの表現と制御された人口統計のバランスを備えた3つの大規模なAI生成データセット(Emonet HQ、Biry、およびBig)。
(3)トレーニングと忠実度の高い評価のための厳格なマルチ専門家の注釈。
(4)私たちは、ベンチマークで人間の専門レベルのパフォーマンスを達成するモデルである共感感の顔を構築しました。
公開されたEmonet Face Suite(分類法、データセット、モデル)は、人間の感情をより深く理解してAIシステムを開発および評価するための堅牢な基盤を提供します。

要約(オリジナル)

Effective human-AI interaction relies on AI’s ability to accurately perceive and interpret human emotions. Current benchmarks for vision and vision-language models are severely limited, offering a narrow emotional spectrum that overlooks nuanced states (e.g., bitterness, intoxication) and fails to distinguish subtle differences between related feelings (e.g., shame vs. embarrassment). Existing datasets also often use uncontrolled imagery with occluded faces and lack demographic diversity, risking significant bias. To address these critical gaps, we introduce EmoNet Face, a comprehensive benchmark suite. EmoNet Face features: (1) A novel 40-category emotion taxonomy, meticulously derived from foundational research to capture finer details of human emotional experiences. (2) Three large-scale, AI-generated datasets (EmoNet HQ, Binary, and Big) with explicit, full-face expressions and controlled demographic balance across ethnicity, age, and gender. (3) Rigorous, multi-expert annotations for training and high-fidelity evaluation. (4) We built EmpathicInsight-Face, a model achieving human-expert-level performance on our benchmark. The publicly released EmoNet Face suite – taxonomy, datasets, and model – provides a robust foundation for developing and evaluating AI systems with a deeper understanding of human emotions.

arxiv情報

著者 Christoph Schuhmann,Robert Kaczmarczyk,Gollam Rabby,Felix Friedrich,Maurice Kraus,Krishna Kalyan,Kourosh Nadi,Huu Nguyen,Kristian Kersting,Sören Auer
発行日 2025-05-27 07:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition はコメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

要約

エンドツーエンドの自律運転に関する研究の関心は、モジュラータスク、つまり、究極の目標を追求する最適化を可能にする、モジュラータスク、つまり知覚、予測、および計画を統合する完全な設計により急増しています。
エンドツーエンドのパラダイムの大きな可能性にもかかわらず、既存の方法は、複雑な現実世界のシナリオにおける高価なBEV(鳥瞰図)の計算、アクションの多様性、最適な決定など、いくつかの側面に苦しんでいます。
これらの課題に対処するために、diff-vlaと呼ばれるビジョン言語モデル(VLM)によって権限を与えられた、新しいハイブリッドスパース密度の高い拡散ポリシーを提案します。
効率的なマルチモーダル駆動行動のためのスパース拡散表現を探ります。
さらに、VLMの運転決定の有効性を再考し、エージェント、マップインスタンス、VLM出力を介した深い相互作用を通じて軌道生成ガイダンスを改善します。
私たちの方法は、挑戦的な現実的で反応性のある合成シナリオを含む自律的なグランドチャレンジ2025の優れたパフォーマンスを示しています。
私たちの方法は45.0 PDMSを達成します。

要約(オリジナル)

Research interest in end-to-end autonomous driving has surged owing to its fully differentiable design integrating modular tasks, i.e. perception, prediction and planing, which enables optimization in pursuit of the ultimate goal. Despite the great potential of the end-to-end paradigm, existing methods suffer from several aspects including expensive BEV (bird’s eye view) computation, action diversity, and sub-optimal decision in complex real-world scenarios. To address these challenges, we propose a novel hybrid sparse-dense diffusion policy, empowered by a Vision-Language Model (VLM), called Diff-VLA. We explore the sparse diffusion representation for efficient multi-modal driving behavior. Moreover, we rethink the effectiveness of VLM driving decision and improve the trajectory generation guidance through deep interaction across agent, map instances and VLM output. Our method shows superior performance in Autonomous Grand Challenge 2025 which contains challenging real and reactive synthetic scenarios. Our methods achieves 45.0 PDMS.

arxiv情報

著者 Anqing Jiang,Yu Gao,Zhigang Sun,Yiru Wang,Jijun Wang,Jinghao Chai,Qian Cao,Yuweng Heng,Hao Jiang,Zongzheng Zhang,Xianda Guo,Hao Sun,Hao Zhao
発行日 2025-05-27 06:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving はコメントを受け付けていません