Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

要約

状態空間モデル(SSM)は、人気のある変圧器ベースのモデルの有望な代替品として浮上しており、ますます注目を集めています。
トランスと比較して、SSMSは順次データまたはより長いコンテキストを備えたタスクで優れており、有意な効率性の高いパフォーマンスを示しています。
この調査では、理論的動機、数学的定式化、既存のモデルクラスとの比較、さまざまなアプリケーションなど、SSMのコヒーレントで体系的な概要を提供します。
SSMシリーズを3つの主要なセクションに分割し、元のSSM、S4で表される構造化されたSSM、およびMAMBAに代表される選択的SSMの詳細な紹介を提供します。
技術に重点を置き、SSMの有効性と効率に対処するために導入されたさまざまな重要な技術を強調します。
この原稿が、研究者がSSMの理論的基盤を探求するための紹介として役立つことを願っています。

要約(オリジナル)

State Space Models (SSMs) have emerged as a promising alternative to the popular transformer-based models and have been increasingly gaining attention. Compared to transformers, SSMs excel at tasks with sequential data or longer contexts, demonstrating comparable performances with significant efficiency gains. In this survey, we provide a coherent and systematic overview for SSMs, including their theoretical motivations, mathematical formulations, comparison with existing model classes, and various applications. We divide the SSM series into three main sections, providing a detailed introduction to the original SSM, the structured SSM represented by S4, and the selective SSM typified by Mamba. We put an emphasis on technicality, and highlight the various key techniques introduced to address the effectiveness and efficiency of SSMs. We hope this manuscript serves as an introduction for researchers to explore the theoretical foundations of SSMs.

arxiv情報

著者 Xingtai Lv,Youbang Sun,Kaiyan Zhang,Shang Qu,Xuekai Zhu,Yuchen Fan,Yi Wu,Ermo Hua,Xinwei Long,Ning Ding,Bowen Zhou
発行日 2025-03-14 09:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models はコメントを受け付けていません

Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment

要約

大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォーマンスを実証しています。
このホワイトペーパーでは、発音評価タスクにおけるその可能性を調査し、特にGPT-4O、特にGPT-4Oの生成的なトレーニングトランス変圧器(GPT)モデルの能力を評価することに特に焦点を当てています。
私たちの研究では、フィードバックの生成とスコアリングに重点を置いて、複数のレベルの粒度と寸法にわたって発音評価のために音声と音声を処理する能力を調査しています。
実験には、公開されているspeechocean762データセットを使用します。
評価は、マルチレベルのスコアリングと生成されたフィードバックの実用性の2つの重要な側面に焦点を当てています。
スコアリングの結果は、Speechocean762データセットで提供される手動スコアと比較されますが、フィードバックの品質は大手言語モデル(LLMS)を使用して評価されます。
この調査結果は、LMMを発音評価のための従来の方法と統合し、モデルの強みに関する洞察を提供し、さらなる改善のための領域を特定する有効性を強調しています。

要約(オリジナル)

Large Multimodal Models (LMMs) have demonstrated exceptional performance across a wide range of domains. This paper explores their potential in pronunciation assessment tasks, with a particular focus on evaluating the capabilities of the Generative Pre-trained Transformer (GPT) model, specifically GPT-4o. Our study investigates its ability to process speech and audio for pronunciation assessment across multiple levels of granularity and dimensions, with an emphasis on feedback generation and scoring. For our experiments, we use the publicly available Speechocean762 dataset. The evaluation focuses on two key aspects: multi-level scoring and the practicality of the generated feedback. Scoring results are compared against the manual scores provided in the Speechocean762 dataset, while feedback quality is assessed using Large Language Models (LLMs). The findings highlight the effectiveness of integrating LMMs with traditional methods for pronunciation assessment, offering insights into the model’s strengths and identifying areas for further improvement.

arxiv情報

著者 Ke Wang,Lei He,Kun Liu,Yan Deng,Wenning Wei,Sheng Zhao
発行日 2025-03-14 09:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment はコメントを受け付けていません

PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders

要約

大規模な言語モデル(LLMS)は、自然言語処理において顕著な能力を実証していますが、個人を特定できる情報(PII)を記憶して漏らすことにより、大きなプライバシーリスクをもたらします。
差別的なプライバシーやニューロンレベルの介入などの既存の緩和戦略は、モデルの有用性を低下させるか、漏れを効果的に防止できないことがよくあります。
この課題に対処するために、パフォーマンスを維持しながらPIIの漏れを特定して軽減するためにLLM解釈性技術を活用する新しいプライバシーを提供するフレームワークであるPrivacyscalpelを紹介します。
Privacyscalpelは3つの重要なステップで構成されています。(1)PIIが豊富な表現をコードするモデルのレイヤーを識別する機能プロービング、(2)スパース自動エンコード、K-Sparse Autoencoder(K-sae)disentanglesおよび分離プライバシーに敏感な機能、および(3)標的beced bected afl afl and afl afl able and abl abliationを採用します。
Enronデータセットで微調整されたGemma2-2BとLlama2-7Bに関する経験的評価は、Privacyscalpelが5.15 \%から0.0 \%の低い電子メールの漏れを大幅に削減し、元のモデルの効力の99.4 \%を超えて維持することを示しています。
特に、私たちの方法は、プライバシー – 有効性のトレードオフにおけるニューロンレベルの介入よりも優れているため、まばらで単調な特徴に作用することは、ポリマンティックニューロンを操作するよりも効果的であることを示しています。
LLMプライバシーの改善を超えて、私たちのアプローチは、PIIの暗記の根底にあるメカニズムに関する洞察を提供し、モデルの解釈可能性と安全なAI展開のより広い分野に貢献しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language processing but also pose significant privacy risks by memorizing and leaking Personally Identifiable Information (PII). Existing mitigation strategies, such as differential privacy and neuron-level interventions, often degrade model utility or fail to effectively prevent leakage. To address this challenge, we introduce PrivacyScalpel, a novel privacy-preserving framework that leverages LLM interpretability techniques to identify and mitigate PII leakage while maintaining performance. PrivacyScalpel comprises three key steps: (1) Feature Probing, which identifies layers in the model that encode PII-rich representations, (2) Sparse Autoencoding, where a k-Sparse Autoencoder (k-SAE) disentangles and isolates privacy-sensitive features, and (3) Feature-Level Interventions, which employ targeted ablation and vector steering to suppress PII leakage. Our empirical evaluation on Gemma2-2b and Llama2-7b, fine-tuned on the Enron dataset, shows that PrivacyScalpel significantly reduces email leakage from 5.15\% to as low as 0.0\%, while maintaining over 99.4\% of the original model’s utility. Notably, our method outperforms neuron-level interventions in privacy-utility trade-offs, demonstrating that acting on sparse, monosemantic features is more effective than manipulating polysemantic neurons. Beyond improving LLM privacy, our approach offers insights into the mechanisms underlying PII memorization, contributing to the broader field of model interpretability and secure AI deployment.

arxiv情報

著者 Ahmed Frikha,Muhammad Reza Ar Razi,Krishna Kanth Nakka,Ricardo Mendes,Xue Jiang,Xuebing Zhou
発行日 2025-03-14 09:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders はコメントを受け付けていません

Concise and Organized Perception Facilitates Reasoning in Large Language Models

要約

推論に取り組むために大規模な言語モデル(LLM)を利用することで、注目が高まっています。
コンテキスト内の多くの施設を特徴とする複雑な論理的問題で満足のいく結果を達成することは依然として非常に困難なままです。
特に、LLMSの推論能力は、障害と注意散漫に脆いです。
この作業では、最初に情報の流れの観点からメカニズムを調べ、LLMSが推論タスクにおいて無秩序で無関係なコンテンツを扱う際に人間のような認知バイアスに似た困難に直面することを明らかにします。
しかし、LLMとは対照的に、人間は最も関連性の高い情報を蒸留し、彼らの思考を体系的に整理する傾向があり、質問に応答する際に彼らの支援を支援するため、人間は人間のパフォーマンスを大幅に低下させることはありません。
COPは、指定されたステートメントを慎重に分析して、最も適切な情報を特定しながら、冗長性を効率的に排除します。
次に、モデルの推論プロセスに適応する、より組織化されたフォームでLLMSを促します。
簡潔で組織化されたコンテキストを知覚することにより、LLMSの推論能力をより良く引き出すことができます。
いくつかの一般的な論理ベンチマーク(ProofWriter、Prontoqa、Prontoqa-Oood、およびFolio)と数学ベンチマーク(DI-GSM)に関する広範な実験結果は、COPが以前の最先端の方法を大幅に上回ることを示しています。

要約(オリジナル)

Exploiting large language models (LLMs) to tackle reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex logical problems, characterized by plenty of premises within the context and requiring multi-hop reasoning. In particular, the reasoning capabilities of LLMs are brittle to disorder and distractibility. In this work, we first examine the mechanism from the perspective of information flow and reveal that LLMs confront difficulties akin to human-like cognitive biases when dealing with disordered and irrelevant content in reasoning tasks. However, in contrast to LLMs, disordered and irrelevant content does not significantly decrease human performance, as humans have a propensity to distill the most relevant information and systematically organize their thoughts, aiding them in responding to questions.Stem from that, we further propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to identify the most pertinent information while eliminating redundancy efficiently. It then prompts the LLMs in a more organized form that adapts to the model’s inference process. By perceiving concise and organized context, the reasoning abilities of LLMs can be better elicited. Extensive experimental results on several popular logical benchmarks (ProofWriter, PrOntoQA, PrOntoQA-OOD, and FOLIO) and mathematical benchmark (DI-GSM) show that COP significantly outperforms previous state-of-the-art methods.

arxiv情報

著者 Junjie Liu,Shaotian Yan,Chen Shen,Zhengdong Xiao,Liang Xie,Wenxiao Wang,Jieping Ye
発行日 2025-03-14 09:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Concise and Organized Perception Facilitates Reasoning in Large Language Models はコメントを受け付けていません

Collaboration is all you need: LLM Assisted Safe Code Translation

要約

このペーパーでは、複数のコンパクトなLLM間の共同の努力としてコード翻訳を再想像する先見の明のあるフレームワークであるUnitranslatorを紹介します。
特殊なエージェントの相互作用を調整することにより、それぞれが翻訳プロセスのさまざまな側面に焦点を当て、プログラミングの概念を深く理解することに基づいて、より大きなモノリシックモデルに匹敵する精度と効率のレベルを達成します。
予備的な評価は、既存のアプローチの制限を克服し、複雑なコード翻訳タスクのより小さなLLMの力を解き放つユニットランスレーターの可能性を示しています。
低リソース言語を含む多様な言語ペアの処理、および自然言語推論(NLI)の接地および反復フィードバックメカニズムの使用によるコードアーティファクトや幻覚などの一般的な問題の緩和におけるこの動的なマルチエージェントパラダイムの有効性を探ります。

要約(オリジナル)

This paper introduces UniTranslator, a visionary framework that re-imagines code translation as a collaborative endeavor among multiple, compact LLMs. By orchestrating the interaction of specialized agents, each focused on different aspects of the translation process and grounded in a deep understanding of programming concepts, UniTranslator achieves a level of accuracy and efficiency that rivals larger, monolithic models. Our preliminary evaluation demonstrates the potential of UniTranslator to overcome the limitations of existing approaches and unlock the power of smaller LLMs for complex code translation tasks. We explore the effectiveness of this dynamic multi-agent paradigm in handling diverse language pairs, including low-resource languages, and in mitigating common issues such as code artifacts and hallucinations through the use of Natural Language Inference (NLI) grounding and iterative feedback mechanisms

arxiv情報

著者 Rabimba Karanjai,Sam Blackshear,Lei Xu,Weidong Shi
発行日 2025-03-14 09:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Collaboration is all you need: LLM Assisted Safe Code Translation はコメントを受け付けていません

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art

要約

NLPの「文化」への関心の急増は最近の研究に影響を与えていますが、「文化」の共通の理解は不明のままであり、この新興地域での進歩を評価することは困難です。
NLPおよび関連分野での以前の研究に基づいて、研究の進歩を分析および理解するための体系的なフレームワークを提供できる文化の要素のきめの細かい分類法を提案します。
分類法を使用して、NLPを文化的に認識し、適応させるための既存のリソースと方法を調査し、最新技術とまだ満たす必要がある研究ギャップの概要を提供します。

要約(オリジナル)

The surge of interest in ‘culture’ in NLP has inspired much recent research, but a shared understanding of ‘culture’ remains unclear, making it difficult to evaluate progress in this emerging area. Drawing on prior research in NLP and related fields, we propose a fine-grained taxonomy of elements in culture that can provide a systematic framework for analyzing and understanding research progress. Using the taxonomy, we survey existing resources and methods for culturally aware and adapted NLP, providing an overview of the state of the art and the research gaps that still need to be filled.

arxiv情報

著者 Chen Cecilia Liu,Iryna Gurevych,Anna Korhonen
発行日 2025-03-14 09:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art はコメントを受け付けていません

Reasoning-Grounded Natural Language Explanations for Language Models

要約

推論プロセスで説明を接地することにより、忠実な自然言語の説明を得るための大規模な言語モデルの説明手法を提案します。
一連のトークンに変換されると、推論プロセスの出力はモデルコンテキストの一部になり、モデルが最終回答または説明のいずれかを生成するため、後で自然言語に解読できます。
説明の忠実さを改善するために、説明が回答に依存せず、逆に依存することなく、推論シーケンスから答えと説明が直接推測される共同予測と説明のアプローチを使用することを提案します。
いくつかの問題ドメインで回答と説明の間の高い整合を達成することにより、提案された手法の妥当性を実証し、言語モデルが多くの場合、推論シーケンスから最終的な回答または説明に部分的な決定を単純にコピーすることを観察します。
さらに、推論の提案された使用は、回答の品質を改善できることを示しています。

要約(オリジナル)

We propose a large language model explainability technique for obtaining faithful natural language explanations by grounding the explanations in a reasoning process. When converted to a sequence of tokens, the outputs of the reasoning process can become part of the model context and later be decoded to natural language as the model produces either the final answer or the explanation. To improve the faithfulness of the explanations, we propose to use a joint predict-explain approach, in which the answers and explanations are inferred directly from the reasoning sequence, without the explanations being dependent on the answers and vice versa. We demonstrate the plausibility of the proposed technique by achieving a high alignment between answers and explanations in several problem domains, observing that language models often simply copy the partial decisions from the reasoning sequence into the final answers or explanations. Furthermore, we show that the proposed use of reasoning can also improve the quality of the answers.

arxiv情報

著者 Vojtech Cahlik,Rodrigo Alves,Pavel Kordik
発行日 2025-03-14 10:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Reasoning-Grounded Natural Language Explanations for Language Models はコメントを受け付けていません

Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model

要約

テキストと画像の両方の入力に基づいて最大102フレームのビデオを生成できる30Bパラメーターを備えた最先端のテキスト駆動型画像からビデオへの生成モデルであるStep-Video-Ti2Vを提示します。
このデータセットを使用して、テキスト駆動型の画像からビデオへの新しいベンチマークとしてステップバイド-Ti2V-Evalを構築し、Step-Video-Ti2Vをオープンソースと市販のTI2Vエンジンと比較します。
実験結果は、画像からビデオへの生成タスクにおけるStep-Video-Ti2Vの最先端のパフォーマンスを示しています。
step-video-ti2vとstep-video-ti2v-evalの両方は、https://github.com/stepfun-ai/step-video-ti2vで入手できます。

要約(オリジナル)

We present Step-Video-TI2V, a state-of-the-art text-driven image-to-video generation model with 30B parameters, capable of generating videos up to 102 frames based on both text and image inputs. We build Step-Video-TI2V-Eval as a new benchmark for the text-driven image-to-video task and compare Step-Video-TI2V with open-source and commercial TI2V engines using this dataset. Experimental results demonstrate the state-of-the-art performance of Step-Video-TI2V in the image-to-video generation task. Both Step-Video-TI2V and Step-Video-TI2V-Eval are available at https://github.com/stepfun-ai/Step-Video-TI2V.

arxiv情報

著者 Haoyang Huang,Guoqing Ma,Nan Duan,Xing Chen,Changyi Wan,Ranchen Ming,Tianyu Wang,Bo Wang,Zhiying Lu,Aojie Li,Xianfang Zeng,Xinhao Zhang,Gang Yu,Yuhe Yin,Qiling Wu,Wen Sun,Kang An,Xin Han,Deshan Sun,Wei Ji,Bizhu Huang,Brian Li,Chenfei Wu,Guanzhe Huang,Huixin Xiong,Jiaxin He,Jianchang Wu,Jianlong Yuan,Jie Wu,Jiashuai Liu,Junjing Guo,Kaijun Tan,Liangyu Chen,Qiaohui Chen,Ran Sun,Shanshan Yuan,Shengming Yin,Sitong Liu,Wei Chen,Yaqi Dai,Yuchu Luo,Zheng Ge,Zhisheng Guan,Xiaoniu Song,Yu Zhou,Binxing Jiao,Jiansheng Chen,Jing Li,Shuchang Zhou,Xiangyu Zhang,Yi Xiu,Yibo Zhu,Heung-Yeung Shum,Daxin Jiang
発行日 2025-03-14 10:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model はコメントを受け付けていません

Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries

要約

LLMSがより強力になるにつれて、彼らの最も深い成果は、「私は知らない」と言うことを認識することかもしれません。
LLMの自己知識に関する既存の研究は、人間が定義された実現可能性の概念によって主に制約されており、LLMによる未回答性の背後にある理由を無視し、不十分な種類の自己認識を研究していないことがよくあります。
この研究の目的は、新しい方法論を使用して、さまざまなタイプのLLM自己知識に関する本質的な洞察を得ることを目的としています。独自の実現可能性の境界を設定する柔軟性を可能にし、これらの制限の一貫性を分析することです。
GPT-4OやMistral Largeのようなフロンティアモデルでさえ、80%以上の能力がわからず、反応に対する信頼性の重大な欠如を強調していることがわかります。
LLMSの信頼バランスの分析は、モデルがタスクカテゴリに応じて、実現可能性の境界で自信過剰と保守主義の間を振り回し、最も重要な自己知識の弱点は時間的認識と文脈的理解にあることを示しています。
コンテキストの理解におけるこれらの困難は、さらにモデルが運用上の境界に疑問を投げかけることにつながり、LLMSの自己認識内でかなりの混乱をもたらします。
コードと結果をhttps://github.com/knowledge-verse-ai/llm-self_knowledge_evalで公開しています

要約(オリジナル)

As LLMs grow more powerful, their most profound achievement may be recognising when to say ‘I don’t know’. Existing studies on LLM self-knowledge have been largely constrained by human-defined notions of feasibility, often neglecting the reasons behind unanswerability by LLMs and failing to study deficient types of self-knowledge. This study aims to obtain intrinsic insights into different types of LLM self-knowledge with a novel methodology: allowing them the flexibility to set their own feasibility boundaries and then analysing the consistency of these limits. We find that even frontier models like GPT-4o and Mistral Large are not sure of their own capabilities more than 80% of the time, highlighting a significant lack of trustworthiness in responses. Our analysis of confidence balance in LLMs indicates that models swing between overconfidence and conservatism in feasibility boundaries depending on task categories and that the most significant self-knowledge weaknesses lie in temporal awareness and contextual understanding. These difficulties in contextual comprehension additionally lead models to question their operational boundaries, resulting in considerable confusion within the self-knowledge of LLMs. We make our code and results available publicly at https://github.com/knowledge-verse-ai/LLM-Self_Knowledge_Eval

arxiv情報

著者 Sahil Kale,Vijaykant Nadadur
発行日 2025-03-14 10:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries はコメントを受け付けていません

OASIS: Order-Augmented Strategy for Improved Code Search

要約

コード埋め込みは、コードのセマンティック表現をキャプチャし、コード検索などのさまざまなコード関連の大手言語モデル(LLM)アプリケーションにとって重要です。
以前のトレーニングは、主に、ポジティブな自然言語(NL)コードペアとバッチ内のネガを比較することにより、Infonceの損失を最適化することに依存しています。
ただし、コードコンテキストのまばらな性質のため、肯定的なペアとネガティブペアの主要な違いを比較することによってのみトレーニングは、より深いセマンティックニュアンスをキャプチャできない場合があります。
この問題に対処するために、改善されたコード検索(OASIS)のための新しい注文編成戦略を提案します。
注文ベースの類似性ラベルを活用して、ネガティブペア間の類似性の微妙な違いをキャプチャするモデルをトレーニングします。
広範なベンチマーク評価は、OASISモデルが、主要な肯定的な違いのみに焦点を当てた以前の最先端モデルを大幅に上回ることを示しています。
効果的なコード埋め込みトレーニングのために、負のペア間で微妙な違いを微妙なペア間で活用することの価値を強調しています。

要約(オリジナル)

Code embeddings capture the semantic representations of code and are crucial for various code-related large language model (LLM) applications, such as code search. Previous training primarily relies on optimizing the InfoNCE loss by comparing positive natural language (NL)-code pairs with in-batch negatives. However, due to the sparse nature of code contexts, training solely by comparing the major differences between positive and negative pairs may fail to capture deeper semantic nuances. To address this issue, we propose a novel order-augmented strategy for improved code search (OASIS). It leverages order-based similarity labels to train models to capture subtle differences in similarity among negative pairs. Extensive benchmark evaluations demonstrate that our OASIS model significantly outperforms previous state-of-the-art models focusing solely on major positive-negative differences. It underscores the value of exploiting subtle differences among negative pairs with order labels for effective code embedding training.

arxiv情報

著者 Zuchen Gao,Zizheng Zhan,Xianming Li,Erxin Yu,Haotian Zhang,Bin Chen,Yuqun Zhang,Jing Li
発行日 2025-03-14 10:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | OASIS: Order-Augmented Strategy for Improved Code Search はコメントを受け付けていません