Lightweight Operations for Visual Speech Recognition

要約

ビデオデータから話し言葉を解読する視覚音声認識(VSR)は、特にオーディオが利用できない場合に大きな利点を提供します。
ただし、ビデオデータの高次元は、強力なハードウェアを要求する法外な計算コストにつながり、リソース制約のデバイスでのVSR展開を制限します。
この作業は、軽量VSRアーキテクチャを開発することにより、この制限に対処します。
効率的な操作設計パラダイムを活用すると、リソース要件が削減され、精度損失が最小限のコンパクトで強力なモデルが作成されます。
ビデオシーケンスからの単語を認識するために、大規模なパブリックデータセットでモデルをトレーニングおよび評価し、実用的なアプリケーションの有効性を示しています。
また、各モデルのサイズと複雑さを徹底的に分析するために、広範なアブレーション実験を実施します。
コードと訓練されたモデルは公開されます。

要約(オリジナル)

Visual speech recognition (VSR), which decodes spoken words from video data, offers significant benefits, particularly when audio is unavailable. However, the high dimensionality of video data leads to prohibitive computational costs that demand powerful hardware, limiting VSR deployment on resource-constrained devices. This work addresses this limitation by developing lightweight VSR architectures. Leveraging efficient operation design paradigms, we create compact yet powerful models with reduced resource requirements and minimal accuracy loss. We train and evaluate our models on a large-scale public dataset for recognition of words from video sequences, demonstrating their effectiveness for practical applications. We also conduct an extensive array of ablative experiments to thoroughly analyze the size and complexity of each model. Code and trained models will be made publicly available.

arxiv情報

著者 Iason Ioannis Panagos,Giorgos Sfikas,Christophoros Nikou
発行日 2025-02-07 11:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Lightweight Operations for Visual Speech Recognition はコメントを受け付けていません

Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models

要約

Go-Exploreは、発見された状態をアーカイブする原則に基づいて構築され、最も有望な州から繰り返し戻って探索するという原則に基づいて構築されたハードエクスポレーションの問題を解決するために設計されたアルゴリズムの強力なファミリーです。
このアプローチは、Atariゲームやロボット制御など、さまざまな挑戦的な問題にわたる超人的なパフォーマンスにつながりましたが、探査を導くためにヒューリスティックを手動で設計する必要があります(つまり、どの状態を保存および探索するか、次に考慮するアクションを決定します)。
一般的に時間がかかり、実行不可能です。
これを解決するために、これらの手作りのヒューリスティックを巨大な前処理された基礎モデル(FMS)によって捕らえられた興味深い知性と内在化された人間の概念に置き換えることにより、元のGo-Exploreの範囲を大きく拡張するインテリジェントなGo-Explore(IGE)を提案します。
これにより、IGEは、ヒューリスティックを定義するのが難しい複雑な環境であっても、新しい状態がどれほど興味深いまたは約束されているか(例えば、新しいオブジェクト、場所、または行動を発見する)かを本能的に特定する人間のような能力を提供します。
さらに、IGEは、偶然の発見を認識し、資本化するエキサイティングな機会を提供します。これは、探査中に探求中に遭遇した状態を、人間のユーザーによって予想されていなかった場合です。
検索と探索を必要とする多様な言語とビジョンベースのタスクに関するアルゴリズムを評価します。
これらのタスク全体で、IGEは古典的な強化学習とグラフ検索ベースラインを強く超えており、リフレクションのような最先端のFMエージェントが完全に失敗した場合にも成功します。
全体的に、インテリジェントなGo-Exploreは、FMSと強力なGo-Exploreアルゴリズムの途方もない強みを組み合わせており、印象的な探索機能を備えたより一般的な有能なエージェントの作成に関する新しいフロンティアを開きます。

要約(オリジナル)

Go-Explore is a powerful family of algorithms designed to solve hard-exploration problems built on the principle of archiving discovered states, and iteratively returning to and exploring from the most promising states. This approach has led to superhuman performance across a wide variety of challenging problems including Atari games and robotic control, but requires manually designing heuristics to guide exploration (i.e., determine which states to save and explore from, and what actions to consider next), which is time-consuming and infeasible in general. To resolve this, we propose Intelligent Go-Explore (IGE) which greatly extends the scope of the original Go-Explore by replacing these handcrafted heuristics with the intelligence and internalized human notions of interestingness captured by giant pretrained foundation models (FMs). This provides IGE with a human-like ability to instinctively identify how interesting or promising any new state is (e.g., discovering new objects, locations, or behaviors), even in complex environments where heuristics are hard to define. Moreover, IGE offers the exciting opportunity to recognize and capitalize on serendipitous discoveries — states encountered during exploration that are valuable in terms of exploration, yet where what makes them interesting was not anticipated by the human user. We evaluate our algorithm on a diverse range of language and vision-based tasks that require search and exploration. Across these tasks, IGE strongly exceeds classic reinforcement learning and graph search baselines, and also succeeds where prior state-of-the-art FM agents like Reflexion completely fail. Overall, Intelligent Go-Explore combines the tremendous strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-02-07 11:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models はコメントを受け付けていません

From Instance Training to Instruction Learning: Task Adapters Generation from Instructions

要約

大規模な言語モデル(LLMS)は、命令Finetuning(IFT)を利用することにより、一般的なタスクを解決する機能を獲得しました。
ただし、IFTは依然として広範なタスクデータのインスタンストレーニングに大きく依存しているため、LLMの適応性は、ラベルが付いたタスクインスタンスが希少で広いタスクの一般化が最重要になる現実世界のシナリオに大きく制限されます。
LLMSとは反対に、人間は繰り返しの実践だけでなく、教育ガイドラインを理解し、従うことによって、スキルと完全なタスクを獲得します。
この論文は、インスタンストレーニングの欠点に対処するために人間の学習をシミュレートすることに専念し、クロスタスクの一般化を強化するための指導学習に焦点を当てています。
このコンテキスト内で、目的(TAGI)からタスクアダプターの生成を導入します。これは、目に見えないタスクの再訓練なしに、指定されたタスク命令に基づいてパラメーター生成方法でタスク固有のモデルを自動的に構築します。
具体的には、知識の蒸留を利用して、ラベル、出力ロジット、およびそれらの間のアダプターパラメーターを調整することにより、インスタンスとともにトレーニングを通じて開発された命令とタスク固有のモデルを使用して学習を通じて開発されたTAGI間の一貫性を高めます。
Tagiには、ハイパーネットワークの事前トレーニングや微調整を含む2段階のトレーニングプロセスを通じて、クロスタスク一般化機能が備わっています。
超自然な指示とP3データセットでTAGIを評価します。
実験結果は、TAGIが従来のメタトレーニングモデルやその他のハイパーネットワークモデルに一致したり、アウトパフォームしたりしながら、計算要件を大幅に削減できることを示しています。

要約(オリジナル)

Large language models (LLMs) have acquired the ability to solve general tasks by utilizing instruction finetuning (IFT). However, IFT still relies heavily on instance training of extensive task data, which greatly limits the adaptability of LLMs to real-world scenarios where labeled task instances are scarce and broader task generalization becomes paramount. Contrary to LLMs, humans acquire skills and complete tasks not merely through repeated practice but also by understanding and following instructional guidelines. This paper is dedicated to simulating human learning to address the shortcomings of instance training, focusing on instruction learning to enhance cross-task generalization. Within this context, we introduce Task Adapters Generation from Instructions (TAGI), which automatically constructs the task-specific model in a parameter generation manner based on the given task instructions without retraining for unseen tasks. Specifically, we utilize knowledge distillation to enhance the consistency between TAGI developed through Learning with Instruction and task-specific models developed through Training with Instance, by aligning the labels, output logits, and adapter parameters between them. TAGI is endowed with cross-task generalization capabilities through a two-stage training process that includes hypernetwork pretraining and finetuning. We evaluate TAGI on the Super-Natural Instructions and P3 datasets. The experimental results demonstrate that TAGI can match or even outperform traditional meta-trained models and other hypernetwork models, while significantly reducing computational requirements.

arxiv情報

著者 Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Yanchao Hao,Shengping Liu,Kang Liu,Jun Zhao
発行日 2025-02-07 11:37:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Instance Training to Instruction Learning: Task Adapters Generation from Instructions はコメントを受け付けていません

Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

要約

この論文では、$ \ textbf {ne} $ ural-$ \ textbf {sy} $ mbolic $ \ textbf {c} $ ollaborative $ \ textbf {d} $ intillation($ \ textbf {nesycd} $)、aを提案します。
大規模な言語モデルの複雑な推論能力を学習するための新しい知識蒸留方法(LLM、\ TextGreater 13b)。
これらのタスクは一般的な認知能力だけでなく、これらの神経ベースのSLMにとってまばらで困難な場合が多い専門的な知識も必要とするため、複雑な推論タスクは小言語モデル(SLM、$ \ leq $ 7b)にとって困難であると主張します。
効果的にキャプチャする。
したがって、NESYCDは、異なるマナーを使用して、LLMの一般的な能力と専門知識を蒸留します。
一方では、教師LLMSからパラメーター化されたニューラルネットワークの学生SLMに一般的な能力のみを蒸留します。
一方、複雑な推論タスクの専門的な能力と珍しい知識のために、象徴的な知識蒸留アプローチを採用して、象徴的な知識ベース(KB)内で専門知識を取得して保存します。
一般的な機能と専門的な機能を切り離すことにより、提案されたNESYCDは、より小さなモデルを利用し、パラメーター化されたニューラルネットワークをシンボリックKBとブレンディングすることで、コスト効率が高く優れたパフォーマンスを達成できます。
さらに、専門のKBはよく一般化され、人間によって理解され操作されています。
私たちの実験は、NESYCDが領域内(BBH、GSM8K)およびドメイン外(Agieval、ARC)データセットのSLMSの複雑な推論パフォーマンスを大幅に向上させることを示しています。
特に、私たちのアプローチにより、Llama3-8BとQWEN2-7BがパフォーマンスでGPT-3.5ターボを上回り、ラマ3-70Bのマッチングに近づくことができました。
私たちのコードは、https://github.com/xnhyacinth/nesycdで入手できます。

要約(オリジナル)

In this paper, we propose $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation ($\textbf{NesyCD}$), a novel knowledge distillation method for learning the complex reasoning abilities of Large Language Models (LLMs, e.g., \textgreater 13B). We argue that complex reasoning tasks are difficult for Small Language Models (SLMs, e.g., $\leq$ 7B), as these tasks demand not only general cognitive abilities but also specialized knowledge, which is often sparse and difficult for these neural-based SLMs to effectively capture. Therefore, NesyCD distills the general capabilities and specialized knowledge in LLMs using different manners. On the one hand, we distill only general abilities from teacher LLMs into the student SLMs of parameterized neural networks. On the other hand, for the specialized abilities and uncommon knowledge of a complex reasoning task, we employ a symbolic knowledge distillation approach to obtain and store the specialized knowledge within a symbolic knowledge base (KB). By decoupling general and specialized capabilities, the proposed NesyCD can achieve superior performance cost-effectively, utilizing smaller models and blending parameterized neural networks with symbolic KB. Moreover, the specialized KB generalizes well and is comprehended and manipulated by humans. Our experiments show that NesyCD significantly boosts SLMs’ complex reasoning performance on in-domain (BBH, GSM8K) and out-of-domain (AGIEval, ARC) datasets. Notably, our approach enabled the LLaMA3-8B and Qwen2-7B to surpass GPT-3.5-turbo in performance and come close to matching LLaMA3-70B, despite the latter having nine times more parameters. Our code will be available at https://github.com/Xnhyacinth/NesyCD.

arxiv情報

著者 Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Kang Liu,Jun Zhao
発行日 2025-02-07 11:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks はコメントを受け付けていません

Enhancing Disinformation Detection with Explainable AI and Named Entity Replacement

要約

偽情報の自動検出は、自然言語処理の分野で重要な課題を提示します。
このタスクは、データ駆動型アルゴリズムを介して一般的な言語パターンの識別を超えて拡張するアプローチが必要な多面的な社会的およびコミュニケーションの問題に対処します。
この研究作業では、テキスト分類方法は偽情報のニュアンスを捉えることができず、しばしば余分な特徴で決定を根付かせることができないと仮定します。
したがって、分類モデルに大きな影響を与えるスプリアス要素を特定するために、事後説明可能性方法(SHAP、Shapley Additive説明)を適用します。
私たちの調査結果は、非情報的な要素(URLや絵文字など)を削除し、モデルのバイアスを回避し、一般化能力を向上させるためにトレーニングする前に、エンティティ(例えば、ルワンダ)を擬似匿名化する必要があることを示しています。
拡張データの前処理と名前​​付きエンティティ交換を適用する前後の内部データセットと外部データセットでこの方法論を評価します。
結果は、私たちの提案が、内部テストのパフォーマンスを大幅に減らすことなく、65.78%の外部テストデータを使用して、平均して平均化分類方法のパフォーマンスを強化することを示しています。

要約(オリジナル)

The automatic detection of disinformation presents a significant challenge in the field of natural language processing. This task addresses a multifaceted societal and communication issue, which needs approaches that extend beyond the identification of general linguistic patterns through data-driven algorithms. In this research work, we hypothesise that text classification methods are not able to capture the nuances of disinformation and they often ground their decision in superfluous features. Hence, we apply a post-hoc explainability method (SHAP, SHapley Additive exPlanations) to identify spurious elements with high impact on the classification models. Our findings show that non-informative elements (e.g., URLs and emoticons) should be removed and named entities (e.g., Rwanda) should be pseudo-anonymized before training to avoid models’ bias and increase their generalization capabilities. We evaluate this methodology with internal dataset and external dataset before and after applying extended data preprocessing and named entity replacement. The results show that our proposal enhances on average the performance of a disinformation classification method with external test data in 65.78% without a significant decrease of the internal test performance.

arxiv情報

著者 Santiago González-Silot,Andrés Montoro-Montarroso,Eugenio Martínez Cámara,Juan Gómez-Romero
発行日 2025-02-07 12:01:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Disinformation Detection with Explainable AI and Named Entity Replacement はコメントを受け付けていません

Tethering Broken Themes: Aligning Neural Topic Models with Labels and Authors

要約

トピックモデルは、大規模なドキュメントコレクションからセマンティック情報を抽出するための一般的なアプローチです。
ただし、最近の研究では、これらのモデルによって生成されたトピックは、しばしば人間の意図とうまく整合していないことが示唆されています。
ラベルや著者情報などのメタデータは利用可能ですが、神経トピックモデルにはまだ効果的に組み込まれていません。
このギャップに対処するために、神経トピックモデルをラベルと著者情報の両方に合わせる新しい方法であるFantomを紹介します。
Fantomは、利用可能な場合にこのメタデータを含めることを可能にし、各トピックの解釈可能なトピックと著者分布を作成します。
私たちのアプローチは、ラベル、トピック、著者の間のアライメントを学習することにより、従来のトピックモデルよりも大きな表現力を示しています。
実験結果は、Fantomがトピックの品質とアラインメントの両方の観点から既存のモデルを改善することを示しています。
さらに、著者の関心と類似性を特定します。

要約(オリジナル)

Topic models are a popular approach for extracting semantic information from large document collections. However, recent studies suggest that the topics generated by these models often do not align well with human intentions. Although metadata such as labels and authorship information are available, it has not yet been effectively incorporated into neural topic models. To address this gap, we introduce FANToM, a novel method to align neural topic models with both labels and authorship information. FANToM allows for the inclusion of this metadata when available, producing interpretable topics and author distributions for each topic. Our approach demonstrates greater expressiveness than conventional topic models by learning the alignment between labels, topics, and authors. Experimental results show that FANToM improves existing models in terms of both topic quality and alignment. Additionally, it identifies author interests and similarities.

arxiv情報

著者 Mayank Nagda,Phil Ostheimer,Sophie Fellenz
発行日 2025-02-07 12:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Tethering Broken Themes: Aligning Neural Topic Models with Labels and Authors はコメントを受け付けていません

Train Once for All: A Transitional Approach for Efficient Aspect Sentiment Triplet Extraction

要約

アスペクトオピニオンペア抽出(AOP)およびアスペクトセンチメントトリプレット抽出(ASTE)は、NLPで注目を集めています。
ただし、ほとんどの既存のアプローチは、アスペクトと意見を独立して抽出し、オプションでペアワイズ関係を追加し、多くの場合、エラーの伝播と高時間の複雑さにつながります。
これらの課題に対処し、遷移ベースの依存関係解析に触発されるために、アスペクトと意見抽出を共同で実行するAOPEとASTEの最初の遷移ベースのモデルを提案します。
バイアス。
コントラストの高い最適化を統合することにより、モデルはより正確なアクション予測を提供し、線形時間で個別のサブタスクを共同で最適化します。
一般的に使用されている4つのASTE/AOPEデータセットでの広範な実験は、以前のモデルよりも単一のデータセットでトレーニングされた場合に悪化している間、私たちのモデルは、組み合わせたデータセットでトレーニングされた場合、ASTEとAOPEの両方で最高のパフォーマンスを達成し、以前のモデルの最強のモデルをアウトパフォームすることを示しています。
F1測定(多くの場合、大きなマージンによる)。
これは、複数のデータセットとドメインからの移行アクションを学習するモデルの能力によるものであると仮定します。
私たちのコードは、https://anonymous.4open.science/r/trans_aste-8fcfで入手できます。

要約(オリジナル)

Aspect-Opinion Pair Extraction (AOPE) and Aspect Sentiment Triplet Extraction (ASTE) have drawn growing attention in NLP. However, most existing approaches extract aspects and opinions independently, optionally adding pairwise relations, often leading to error propagation and high time complexity. To address these challenges and being inspired by transition-based dependency parsing, we propose the first transition-based model for AOPE and ASTE that performs aspect and opinion extraction jointly, which also better captures position-aware aspect-opinion relations and mitigates entity-level bias. By integrating contrastive-augmented optimization, our model delivers more accurate action predictions and jointly optimizes separate subtasks in linear time. Extensive experiments on 4 commonly used ASTE/AOPE datasets show that, while performing worse when trained on a single dataset than some previous models, our model achieves the best performance on both ASTE and AOPE if trained on combined datasets, outperforming the strongest previous models in F1-measures (often by a large margin). We hypothesize that this is due to our model’s ability to learn transition actions from multiple datasets and domains. Our code is available at https://anonymous.4open.science/r/trans_aste-8FCF.

arxiv情報

著者 Xinmeng Hou,Lingyue Fu,Chenhao Meng,Kounianhua Du,Wuqi Wang,Hai Hu
発行日 2025-02-07 12:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Train Once for All: A Transitional Approach for Efficient Aspect Sentiment Triplet Extraction はコメントを受け付けていません

Self-seeding and Multi-intent Self-instructing LLMs for Generating Intent-aware Information-Seeking dialogs

要約

情報を求めるダイアログでユーザーの意図を特定することは、システムがユーザーの情報ニーズを満たすために重要です。
意図予測(IP)は挑戦的であり、トレーニングのための人間に標識された意図を持つ十分な対話を要求します。
ただし、意図を手動で注視することはリソース集約型です。
大規模な言語モデル(LLM)は合成データの生成に効果的であることが示されていますが、LLMを使用して意図的な情報を求めるダイアログを生成する研究はありません。
この論文では、大規模、オープンドメイン、意図的な情報を求めるダイアログのゼロショット生成のためのLLMの活用に焦点を当てています。
私たちは、斬新な自己注入と多様性の自己導入スキームを備えたSolidを提案します。
前者は、LLM独自の知識範囲を使用してダイアログ生成を開始することにより、生成品質を向上させます。
後者は、LLMに発話を順番に生成するよう促し、複雑なマルチインテント発話を生成するときにLLMに迅速な指示を自律的に適応させるように依頼することにより、手動迅速な設計の必要性を軽減します。
さらに、Solid-RLを提案します。これは、Solidによって生成されたデータの1つのステップでダイアログを生成するためにさらに訓練されています。
固体RLのトレーニングプロセス中の品質に基づいて、さまざまな重みを固体生成ダイアログに割り当てるための長さベースの品質推定メカニズムを提案します。
既存のデータセットのサイズを超えて、SolidおよびSolid-RLを使用して30万を超える意図的なダイアログを生成します。
実験では、SolidおよびSolid-RLによって生成されたダイアログでトレーニングされたIPメソッドが、人間が生成したダイアログでトレーニングされたダイアログよりも優れたIP品質を達成することを示しています。

要約(オリジナル)

Identifying user intents in information-seeking dialogs is crucial for a system to meet user’s information needs. Intent prediction (IP) is challenging and demands sufficient dialogs with human-labeled intents for training. However, manually annotating intents is resource-intensive. While large language models (LLMs) have been shown to be effective in generating synthetic data, there is no study on using LLMs to generate intent-aware information-seeking dialogs. In this paper, we focus on leveraging LLMs for zero-shot generation of large-scale, open-domain, and intent-aware information-seeking dialogs. We propose SOLID, which has novel self-seeding and multi-intent self-instructing schemes. The former improves the generation quality by using the LLM’s own knowledge scope to initiate dialog generation; the latter prompts the LLM to generate utterances sequentially, and mitigates the need for manual prompt design by asking the LLM to autonomously adapt its prompt instruction when generating complex multi-intent utterances. Furthermore, we propose SOLID-RL, which is further trained to generate a dialog in one step on the data generated by SOLID. We propose a length-based quality estimation mechanism to assign varying weights to SOLID-generated dialogs based on their quality during the training process of SOLID-RL. We use SOLID and SOLID-RL to generate more than 300k intent-aware dialogs, surpassing the size of existing datasets. Experiments show that IP methods trained on dialogs generated by SOLID and SOLID-RL achieve better IP quality than ones trained on human-generated dialogs.

arxiv情報

著者 Arian Askari,Roxana Petcu,Chuan Meng,Mohammad Aliannejadi,Amin Abolghasemi,Evangelos Kanoulas,Suzan Verberne
発行日 2025-02-07 12:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-seeding and Multi-intent Self-instructing LLMs for Generating Intent-aware Information-Seeking dialogs はコメントを受け付けていません

pytopicgram: A library for data extraction and topic modeling from Telegram channels

要約

Telegramは、パブリックコミュニケーションに人気のあるプラットフォームであり、チャネルを通じて大量のメッセージを生成します。
Pytopicgramは、研究者がこれらの電報メッセージを収集、整理、分析するのに役立つPythonライブラリです。
ライブラリは、Easyメッセージの取得、詳細なチャネル情報、エンゲージメントメトリック、高度なモデリング手法を使用したトピック識別などの重要な機能を提供します。
データの抽出と分析を簡素化することにより、PytopicGramを使用すると、ユーザーはコンテンツの広がりとテレグラムでの視聴者の相互作用を理解できます。
このペーパーでは、\ pytopicgramのデザイン、主な機能、および実用的な使用について説明し、電報での公開会話を研究するための有効性を紹介します。

要約(オリジナル)

Telegram is a popular platform for public communication, generating large amounts of messages through its channels. pytopicgram is a Python library that helps researchers collect, organize, and analyze these Telegram messages. The library offers key features such as easy message retrieval, detailed channel information, engagement metrics, and topic identification using advanced modeling techniques. By simplifying data extraction and analysis, pytopicgram allows users to understand how content spreads and how audiences interact on Telegram. This paper describes the design, main features, and practical uses of \pytopicgram, showcasing its effectiveness for studying public conversations on Telegram.

arxiv情報

著者 J. Gómez-Romero,J. Cantón Correa,R. Pérez Mercado,F. Prados Abad,M. Molina-Solana,W. Fajardo
発行日 2025-02-07 12:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | pytopicgram: A library for data extraction and topic modeling from Telegram channels はコメントを受け付けていません

Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance

要約

低リソース言語の自動音声認識(ASR)パフォーマンスは、十分なラベル付きデータが不足しているため、英語などの高度なリソース言語のパフォーマンスにはかなり遅れています。
最先端のメソッドは、大量のデータで事前に訓練されたモデルがターゲットの低リソース言語で小さなラベル付きデータを使用して微調整される自己監視転送学習を展開します。
この論文では、フリジアンとその地域の方言(クレイ・フリジアン、ウッド・フリジアン、南フリジアン)のパフォーマンスを改善するために、SSLベースのモデルを微調整する方法を提示して検討します。
多言語(フリジア、オランダ語、英語、ドイツ語)の微調整データと補助言語識別タスクを使用することで、フリジアのASRパフォーマンスを改善できることを示します。
さらに、我々の調査結果は、方言の音声のパフォーマンスが大幅に苦しんでおり、重要なことに、この効果は方言データの収集に使用される誘発アプローチによって緩和されることを示しています。
また、私たちの調査結果は、ASR評価のための標準的な言語データのみに依存することで、特に方言の変動が大きくなる言語では、現実世界のパフォーマンスを過小評価する可能性があることを示唆しています。

要約(オリジナル)

Automatic Speech Recognition (ASR) performance for low-resource languages is still far behind that of higher-resource languages such as English, due to a lack of sufficient labeled data. State-of-the-art methods deploy self-supervised transfer learning where a model pre-trained on large amounts of data is fine-tuned using little labeled data in a target low-resource language. In this paper, we present and examine a method for fine-tuning an SSL-based model in order to improve the performance for Frisian and its regional dialects (Clay Frisian, Wood Frisian, and South Frisian). We show that Frisian ASR performance can be improved by using multilingual (Frisian, Dutch, English and German) fine-tuning data and an auxiliary language identification task. In addition, our findings show that performance on dialectal speech suffers substantially, and, importantly, that this effect is moderated by the elicitation approach used to collect the dialectal data. Our findings also particularly suggest that relying solely on standard language data for ASR evaluation may underestimate real-world performance, particularly in languages with substantial dialectal variation.

arxiv情報

著者 Reihaneh Amooie,Wietse de Vries,Yun Hao,Jelske Dijkstra,Matt Coler,Martijn Wieling
発行日 2025-02-07 12:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance はコメントを受け付けていません