Small Models Struggle to Learn from Strong Reasoners

要約

大規模な言語モデル(LLM)は複雑な推論タスクに優れており、推論機能をより小さなモデルに蒸留することが有望であることを示しています。
ただし、興味深い現象を明らかにします。これは、小さなモデルの学習性ギャップと呼ばれます。小さなモデル($ \ leq $ 3bパラメーター)は、長い考え方(COT)の推論またはより大きなモデルからの蒸留から一貫して恩恵を受けません。
代わりに、彼らの固有の学習能力とよりよく整合する、より短く、よりシンプルな推論チェーンで微調整されると、彼らはより良くパフォーマンスを発揮します。
これに対処するために、ミックス蒸留を提案します。これは、大規模なモデルと小さなモデルの両方から長いCOTの例や推論を組み合わせることにより、推論の複雑さのバランスをとるシンプルで効果的な戦略です。
私たちの実験は、混合蒸留により、いずれかのデータだけでのトレーニングと比較して、小さなモデル推論パフォーマンスが大幅に向上することを示しています。
これらの調査結果は、直接的な強力なモデルの蒸留の制限を強調し、効果的な推論能力転送のために推論の複雑さを適応させることの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) excel in complex reasoning tasks, and distilling their reasoning capabilities into smaller models has shown promise. However, we uncover an interesting phenomenon, which we term the Small Model Learnability Gap: small models ($\leq$3B parameters) do not consistently benefit from long chain-of-thought (CoT) reasoning or distillation from larger models. Instead, they perform better when fine-tuned on shorter, simpler reasoning chains that better align with their intrinsic learning capacity. To address this, we propose Mix Distillation, a simple yet effective strategy that balances reasoning complexity by combining long and short CoT examples or reasoning from both larger and smaller models. Our experiments demonstrate that Mix Distillation significantly improves small model reasoning performance compared to training on either data alone. These findings highlight the limitations of direct strong model distillation and underscore the importance of adapting reasoning complexity for effective reasoning capability transfer.

arxiv情報

著者 Yuetai Li,Xiang Yue,Zhangchen Xu,Fengqing Jiang,Luyao Niu,Bill Yuchen Lin,Bhaskar Ramasubramanian,Radha Poovendran
発行日 2025-02-17 18:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Small Models Struggle to Learn from Strong Reasoners はコメントを受け付けていません

Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control

要約

検索された生成(RAG)は、外部知識の検索を組み込むことにより、大規模な言語モデル(LLM)の幻覚を緩和するための強力なアプローチとして浮上しました。
ただし、既存のRAGフレームワークは、しばしば無差別に検索を適用し、不必要な場合、または複雑な推論に必要な場合に繰り返し回収できない場合は、非効率性を回復させます。
最近の適応的検索戦略は、これらの検索戦略を適応的にナビゲートしますが、クエリの複雑さに基づいてのみ予測され、ユーザー駆動型の柔軟性が欠けているため、多様なユーザーアプリケーションのニーズに合わせて実行不可能になります。
この論文では、精度コストのトレードオフの動的な調整を可能にする新しいユーザー制御可能なRAGフレームワークを紹介します。
私たちのアプローチは、2つの分類器を活用しています。1つは精度を優先するように訓練され、もう1つは検索効率を優先するためにトレーニングしました。
解釈可能な制御パラメーター$ \ alpha $を介して、ユーザーは特定の要件に基づいて最小コストの検索と高精度の検索の間でシームレスにナビゲートできます。
当社のアプローチは、精度、検索コスト、およびユーザー制御性のバランスを効果的にバランスさせ、実際のアプリケーション向けの実用的で適応性のあるソリューションになることを経験的に実証します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as a powerful approach to mitigate large language model (LLM) hallucinations by incorporating external knowledge retrieval. However, existing RAG frameworks often apply retrieval indiscriminately,leading to inefficiencies-over-retrieving when unnecessary or failing to retrieve iteratively when required for complex reasoning. Recent adaptive retrieval strategies, though adaptively navigates these retrieval strategies, predict only based on query complexity and lacks user-driven flexibility, making them infeasible for diverse user application needs. In this paper, we introduce a novel user-controllable RAG framework that enables dynamic adjustment of the accuracy-cost trade-off. Our approach leverages two classifiers: one trained to prioritize accuracy and another to prioritize retrieval efficiency. Via an interpretable control parameter $\alpha$, users can seamlessly navigate between minimal-cost retrieval and high-accuracy retrieval based on their specific requirements. We empirically demonstrate that our approach effectively balances accuracy, retrieval cost, and user controllability, making it a practical and adaptable solution for real-world applications.

arxiv情報

著者 Jinyan Su,Jennifer Healey,Preslav Nakov,Claire Cardie
発行日 2025-02-17 18:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control はコメントを受け付けていません

HARBOR: Exploring Persona Dynamics in Multi-Agent Competition

要約

LLMエージェントの競争力のあるマルチエージェント環境での成功に貢献する要因を調査し、エージェントが利益を最大化するために入札するテストベッドとしてオークションを使用します。
エージェントには、入札ドメインの知識、アイテムの好みを反映する明確なペルソナ、およびオークション履歴の記憶が装備されています。
私たちの仕事は、複数のエージェントが家に入札し、サイズ、場所、予算などの側面を比較検討して、最も望ましい家を最低価格で確保する現実的な環境を作成することにより、古典的なオークションシナリオを拡張します。
特に、3つの重要な質問を調査します。(a)ペルソナは競争力のある設定でエージェントの行動にどのように影響しますか?
(b)エージェントは、オークション中に競合他社の行動を効果的にプロファイルできますか?
(c)心の理論などの戦略を使用して、ペルソナプロファイリングを活用するためにどのように活用できますか?
一連の実験を通じて、LLMエージェントの行動を分析し、新しい発見に光を当てます。
ハーバーと呼ばれる私たちのテストベッドは、競争力のある環境でのマルチエージェントワークフローの理解を深めるための貴重なプラットフォームを提供します。

要約(オリジナル)

We investigate factors contributing to LLM agents’ success in competitive multi-agent environments, using auctions as a testbed where agents bid to maximize profit. The agents are equipped with bidding domain knowledge, distinct personas that reflect item preferences, and a memory of auction history. Our work extends the classic auction scenario by creating a realistic environment where multiple agents bid on houses, weighing aspects such as size, location, and budget to secure the most desirable homes at the lowest prices. Particularly, we investigate three key questions: (a) How does a persona influence an agent’s behavior in a competitive setting? (b) Can an agent effectively profile its competitors’ behavior during auctions? (c) How can persona profiling be leveraged to create an advantage using strategies such as theory of mind? Through a series of experiments, we analyze the behaviors of LLM agents and shed light on new findings. Our testbed, called HARBOR, offers a valuable platform for deepening our understanding of multi-agent workflows in competitive environments.

arxiv情報

著者 Kenan Jiang,Li Xiong,Fei Liu
発行日 2025-02-17 18:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | HARBOR: Exploring Persona Dynamics in Multi-Agent Competition はコメントを受け付けていません

3D Gaussian Inpainting with Depth-Guided Cross-View Consistency

要約

ニューラル放射輝度フィールド(NERF)や3Dガウススプラッティング(3DG)などの新規ビューレンダリング方法を使用して3Dのインペインティングを実行する場合、カメラビュー全体でテクスチャとジオメトリの一貫性を実現する方法が課題になりました。
この論文では、クロスビューの一貫した3Dインペインティングのための深さ誘導クロスビューの一貫性(3DGIC)を使用して、3Dガウスのインペインティングのフレームワークを提案します。
各トレーニングビューからレンダリングされた深度情報に導かれ、3DGICエクスプロイトバックグラウンドピクセルが異なるビューに表示され、入力マスクを更新するために、インポインティングの目的で3DGSを改良することができます。
定量的および定性的に最先端の3Dのインパインティング方法。

要約(オリジナル)

When performing 3D inpainting using novel-view rendering methods like Neural Radiance Field (NeRF) or 3D Gaussian Splatting (3DGS), how to achieve texture and geometry consistency across camera views has been a challenge. In this paper, we propose a framework of 3D Gaussian Inpainting with Depth-Guided Cross-View Consistency (3DGIC) for cross-view consistent 3D inpainting. Guided by the rendered depth information from each training view, our 3DGIC exploits background pixels visible across different views for updating the inpainting mask, allowing us to refine the 3DGS for inpainting purposes.Through extensive experiments on benchmark datasets, we confirm that our 3DGIC outperforms current state-of-the-art 3D inpainting methods quantitatively and qualitatively.

arxiv情報

著者 Sheng-Yu Huang,Zi-Ting Chou,Yu-Chiang Frank Wang
発行日 2025-02-17 13:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | 3D Gaussian Inpainting with Depth-Guided Cross-View Consistency はコメントを受け付けていません

BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments

要約

大規模な言語モデル(LLM)は多数のアプリケーションに革命をもたらしましたが、それらの展開は、ローカルデバイスのメモリの制約によって依然として挑戦されています。
スケーリング法はLLM機能が強化されていますが、主要なボトルネックは\ textit {capability}から\ textit {availability}にシフトし、効率的なメモリ管理の必要性を強調しました。
量子化などの従来の圧縮方法には、多くの場合、事前定義された圧縮比と各設定の個別の圧縮プロセスが必要であり、可変メモリ環境での展開を複雑にします。
このホワイトペーパーでは、メモリの使用とモデルのパフォーマンスの間のメガバイトレベルのトレードオフを可能にする斬新でトレーニングフリーの重量圧縮アプローチである\ textBf {BitStack}を紹介します。
重量分解を活用することにより、BitStackは、ランニングメモリとストレージデバイスの間の最小限の伝送でモデルサイズを動的に調整できます。
私たちのアプローチは、各パラメーターの有意性を考慮しながら、重量マトリックスを繰り返し分解し、各分解反復でパラメーターあたりの残差ブロックあたり約1ビットになります。
これらのブロックは、ソートされ、ストレージに積み重ねられており、基本的な伝送ユニットとして積み重ねられており、現在のメモリの可用性に基づいて異なる数量がロードされています。
幅広いタスクにわたる広範な実験では、きめの細かいサイズ制御を提供しているにもかかわらず、ビットスタックは特に極端な圧縮比で強力な量子化ベースラインと一貫して一致または上回ることが示されています。
私たちの知る限り、これは、量子化のような実用的な圧縮技術とのギャップを効果的に橋渡しする最初の分解ベースの方法です。
コードはhttps://github.com/xinghaow99/bitstackで入手できます。

要約(オリジナル)

Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from \textit{capability} to \textit{availability}, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce \textbf{BitStack}, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.

arxiv情報

著者 Xinghao Wang,Pengyu Wang,Bo Wang,Dong Zhang,Yunhua Zhou,Xipeng Qiu
発行日 2025-02-17 13:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments はコメントを受け付けていません

Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling

要約

ディープニューラルネットワーク(DNNS)は、バランスの取れたトレーニングデータ条件下であっても、オブジェクト認識中に特定のカテゴリにバイアスを示すことがよくあります。
これらのバイアスの根底にある固有のメカニズムは不明のままです。
オブジェクトのマニホールドを階層処理を介してオブジェクト認識を実現する人間の視覚システムに触発され、DNNSのクラス固有の知覚マニホールドの幾何学的複雑さをモデル化する幾何学的複雑さをリンクする幾何学的分析フレームワークを提案します。
私たちの調査結果は、幾何学的な複雑さの違いが、カテゴリ全体で認識能力が変化し、バイアスが導入される可能性があることを明らかにしています。
この分析をサポートするために、知覚マニホールドの幾何学的特性を計算するために設計された知覚マニホールドジオメトリライブラリを提示します。

要約(オリジナル)

Deep neural networks (DNNs) often exhibit biases toward certain categories during object recognition, even under balanced training data conditions. The intrinsic mechanisms underlying these biases remain unclear. Inspired by the human visual system, which decouples object manifolds through hierarchical processing to achieve object recognition, we propose a geometric analysis framework linking the geometric complexity of class-specific perceptual manifolds in DNNs to model bias. Our findings reveal that differences in geometric complexity can lead to varying recognition capabilities across categories, introducing biases. To support this analysis, we present the Perceptual-Manifold-Geometry library, designed for calculating the geometric properties of perceptual manifolds.

arxiv情報

著者 Yanbiao Ma,Bowei Liu,Wei Dai,Jiayi Chen,Shuo Li
発行日 2025-02-17 13:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling はコメントを受け付けていません

Towards Scalable Insect Monitoring: Ultra-Lightweight CNNs as On-Device Triggers for Insect Camera Traps

要約

AIと組み合わせたカメラトラップは、自動化されたスケーラブルな生物多様性監視を実現する方法として浮上しています。
ただし、カメラトラップをトリガーするパッシブ赤外線(PIR)センサーは、昆虫などの小さな動きのある外洋を検出するのに適していません。
昆虫はすべての動物種の半分以上を構成し、生態系と農業の重要な要素です。
適切でスケーラブルな昆虫カメラトラップの必要性は、昆虫集団の減少の報告を受けて重要です。
この研究では、PIRトリガーの代替手段を提案しています。低電力ハードウェアで実行されている超軽量畳み込み型畳み込みニューラルネットワークは、キャプチャされた画像の連続ストリームで昆虫を検出します。
昆虫の画像を背景と区別するために、一連のモデルを訓練します。
当社のデザインは、トリガーと画像キャプチャの間でゼロレイテンシを実現します。
私たちのモデルは厳密にテストされており、検証データで91.8%から96.4%のAUC、およびトレーニング中に見えない分布からのデータで87%を超えるAUCの範囲の高精度を達成します。
モデルの特異性が高いため、誤った陽性画像を最小限に抑え、展開ストレージ効率を最大化します。
高いリコールスコアは、最小の偽陰性率を示し、昆虫の検出を最大化します。
顕著性マップを使用したさらなる分析は、スプリアスな背景機能への依存度が低いため、モデルの学習された表現が堅牢であることを示しています。
また、私たちのシステムは、300MW未満の最大電力抽選を消費する、既製の低電力マイクロコントローラーユニットに展開された動作も示されています。
これにより、安価で容易に利用できるバッテリーコンポーネントを使用して、より長い展開時間が可能になります。
全体的に、昆虫モニタリングのコスト、効率、範囲のステップ変更を提供します。
挑戦的なトリガーの問題を解決すると、既存の設計や予算の電力と帯域幅よりもはるかに長く展開できるシステムを実証し、一般的な昆虫カメラトラップに向かって移動します。

要約(オリジナル)

Camera traps, combined with AI, have emerged as a way to achieve automated, scalable biodiversity monitoring. However, the passive infrared (PIR) sensors that trigger camera traps are poorly suited for detecting small, fast-moving ectotherms such as insects. Insects comprise over half of all animal species and are key components of ecosystems and agriculture. The need for an appropriate and scalable insect camera trap is critical in the wake of concerning reports of declines in insect populations. This study proposes an alternative to the PIR trigger: ultra-lightweight convolutional neural networks running on low-powered hardware to detect insects in a continuous stream of captured images. We train a suite of models to distinguish insect images from backgrounds. Our design achieves zero latency between trigger and image capture. Our models are rigorously tested and achieve high accuracy ranging from 91.8% to 96.4% AUC on validation data and >87% AUC on data from distributions unseen during training. The high specificity of our models ensures minimal saving of false positive images, maximising deployment storage efficiency. High recall scores indicate a minimal false negative rate, maximising insect detection. Further analysis with saliency maps shows the learned representation of our models to be robust, with low reliance on spurious background features. Our system is also shown to operate deployed on off-the-shelf, low-powered microcontroller units, consuming a maximum power draw of less than 300mW. This enables longer deployment times using cheap and readily available battery components. Overall we offer a step change in the cost, efficiency and scope of insect monitoring. Solving the challenging trigger problem, we demonstrate a system which can be deployed for far longer than existing designs and budgets power and bandwidth effectively, moving towards a generic insect camera trap.

arxiv情報

著者 Ross Gardiner,Sareh Rowands,Benno I. Simmons
発行日 2025-02-17 14:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | Towards Scalable Insect Monitoring: Ultra-Lightweight CNNs as On-Device Triggers for Insect Camera Traps はコメントを受け付けていません

Intuitive physics understanding emerges from self-supervised pretraining on natural videos

要約

私たちは、自然なビデオの仮面領域を予測するために訓練された一般的な深い神経ネットワークモデルにおける直感的な物理学の理解の出現を調査します。
除外違反のフレームワークを活用して、学習した表現空間の結果を予測するために訓練されたビデオ予測モデルは、オブジェクトの永続性や形状の一貫性などのさまざまな直感的な物理特性の理解を示していることがわかります。
対照的に、ピクセル空間とマルチモーダルの大規模な言語モデルのビデオ予測は、テキストを通じて偶然に近いパフォーマンスを実現します。
これらのアーキテクチャの比較は、予測的なコーディングに似た感覚入力の欠落部分を予測しながら抽象表現空間を共同で学習し、直感的な物理学の理解を得るのに十分であり、ユニークなビデオの1週間で訓練されたモデルでさえ偶然を超えるモデルを達成することでさえ、
パフォーマンス。
これは、世界を理解するのに役立つ生来のシステムのセットであるコア知識が、直感的な物理学を理解するためにハードワイヤードする必要があるという考えに挑戦しています。

要約(オリジナル)

We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge — a set of innate systems to help understand the world — needs to be hardwired to develop an understanding of intuitive physics.

arxiv情報

著者 Quentin Garrido,Nicolas Ballas,Mahmoud Assran,Adrien Bardes,Laurent Najman,Michael Rabbat,Emmanuel Dupoux,Yann LeCun
発行日 2025-02-17 14:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Intuitive physics understanding emerges from self-supervised pretraining on natural videos はコメントを受け付けていません

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

要約

コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報の検索の重要なタスクとして機能します。
オーディオコード認識システムは、小さな語彙(たとえば、メジャー/マイナーコード)に対してかなりの精度を達成していますが、大規模な弦の認識は依然として困難な問題です。
この複雑さは、ほとんどのデータセットで希少なコードタイプが過小評価されているコードの固有の長期尾の分布からも発生し、トレーニングサンプルが不十分です。
効果的なコード認識には、オーディオシーケンスからのコンテキスト情報を活用する必要がありますが、畳み込みニューラルネットワークの組み合わせ、双方向の長期メモリネットワーク、双方向変圧器の組み合わせなど、既存のモデルは、長期依存関係をキャプチャし、大規模なパフォーマンスを示す上位のパフォーマンスを示す必要があります。
語彙コード認識タスク。
この作品は、大きな語彙のための構造的コード認識(トライアド、ベース、セブンス)に取り組むように設計された新しい配座異性体ベースのアーキテクチャであるChordformerを提案します。
CHORDFORMERは、コンボリューションニューラルネットワークを変圧器と統合するコンフォーマーブロックをレバレッジするため、モデルがローカルパターンとグローバル依存関係の両方を効果的にキャプチャできるようにします。
再重み付けされた損失関数と構造化されたコード表現を介したクラスの不均衡などの課題に対処することにより、Chordformerは最先端のモデルよりも優れており、フレームごとの精度の2%の改善と、クラスごとの精度の6%の増加を達成します。
-vocabulary Chordデータセット。
さらに、Chordformerはクラスの不均衡の取り扱いに優れており、コードタイプ全体で堅牢でバランスの取れた認識を提供します。
このアプローチは、理論的な音楽知識と実用的なアプリケーションの間のギャップを埋め、大規模なコード認識の分野を進めます。

要約(オリジナル)

Chord recognition serves as a critical task in music information retrieval due to the abstract and descriptive nature of chords in music analysis. While audio chord recognition systems have achieved significant accuracy for small vocabularies (e.g., major/minor chords), large-vocabulary chord recognition remains a challenging problem. This complexity also arises from the inherent long-tail distribution of chords, where rare chord types are underrepresented in most datasets, leading to insufficient training samples. Effective chord recognition requires leveraging contextual information from audio sequences, yet existing models, such as combinations of convolutional neural networks, bidirectional long short-term memory networks, and bidirectional transformers, face limitations in capturing long-term dependencies and exhibit suboptimal performance on large-vocabulary chord recognition tasks. This work proposes ChordFormer, a novel conformer-based architecture designed to tackle structural chord recognition (e.g., triads, bass, sevenths) for large vocabularies. ChordFormer leverages conformer blocks that integrate convolutional neural networks with transformers, thus enabling the model to capture both local patterns and global dependencies effectively. By addressing challenges such as class imbalance through a reweighted loss function and structured chord representations, ChordFormer outperforms state-of-the-art models, achieving a 2% improvement in frame-wise accuracy and a 6% increase in class-wise accuracy on large-vocabulary chord datasets. Furthermore, ChordFormer excels in handling class imbalance, providing robust and balanced recognition across chord types. This approach bridges the gap between theoretical music knowledge and practical applications, advancing the field of large-vocabulary chord recognition.

arxiv情報

著者 Muhammad Waseem Akram,Stefano Dettori,Valentina Colla,Giorgio Carlo Buttazzo
発行日 2025-02-17 14:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.SD | ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition はコメントを受け付けていません

Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions

要約

視覚的な音声認識は、視覚的なあいまいさ、スピーカー間の人間間変動、沈黙の複雑なモデリングなど、聴覚的な意味を分配することによって、さまざまな課題を考慮する必要があるオープンな研究問題のままです。
それにもかかわらず、大規模なデータベースの利用可能性と強力な注意メカニズムの使用により、最近の顕著な結果がこの分野で達成されています。
その上、英語を除いて複数の言語は最近では興味深いものです。
このペーパーでは、スペイン語の自動連続リップリーディングの顕著な進歩を示しています。
まず、ハイブリッドCTC/注意アーキテクチャに基づくエンドツーエンドシステムが提示されます。
実験は、異なる性質の2つのコーパスで行われ、両方のデータベースでこれまでに得られた最高のパフォーマンスを大幅に改善する最先端の結果に達します。
さらに、徹底的なアブレーション研究が実施され、アーキテクチャを形成するさまざまなコンポーネントが音声認識の質にどのように影響するかを研究されています。
次に、自動システムの学習に影響を与える可能性のあるさまざまな要因を調査するために、厳密なエラー分析が実行されます。
最後に、新しいスペインのリップリーディングベンチマークが統合されます。
コードモデルと訓練されたモデルは、https://github.com/david-gimeno/evaluating-end2end-spanish-lipreadingで入手できます。

要約(オリジナル)

Visual speech recognition remains an open research problem where different challenges must be considered by dispensing with the auditory sense, such as visual ambiguities, the inter-personal variability among speakers, and the complex modeling of silence. Nonetheless, recent remarkable results have been achieved in the field thanks to the availability of large-scale databases and the use of powerful attention mechanisms. Besides, multiple languages apart from English are nowadays a focus of interest. This paper presents noticeable advances in automatic continuous lipreading for Spanish. First, an end-to-end system based on the hybrid CTC/Attention architecture is presented. Experiments are conducted on two corpora of disparate nature, reaching state-of-the-art results that significantly improve the best performance obtained to date for both databases. In addition, a thorough ablation study is carried out, where it is studied how the different components that form the architecture influence the quality of speech recognition. Then, a rigorous error analysis is carried out to investigate the different factors that could affect the learning of the automatic system. Finally, a new Spanish lipreading benchmark is consolidated. Code and trained models are available at https://github.com/david-gimeno/evaluating-end2end-spanish-lipreading.

arxiv情報

著者 David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2025-02-17 14:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions はコメントを受け付けていません