Chameleon: A MatMul-Free Temporal Convolutional Network Accelerator for End-to-End Few-Shot and Continual Learning from Sequential Data

要約

エッジでのデバイス上の学習により、長期的な堅牢性が向上し、メンテナンスコストが削減された低遅延の個人的なパーソナライズが可能になります。
しかし、特に限られた数の例を備えた現実世界のシーケンシャルデータから、スケーラブルで低電力のエンドツーエンドのオンチップ学習を達成することは、オープンな課題です。
実際、エラーをサポートするアクセラレータは、推論の効率を犠牲にしてパフォーマンスを学習するために最適化しますが、単純化された学習アルゴリズムは許容可能な精度ターゲットに到達できないことがよくあります。
この作業では、カメレオンを提示し、これらの課題を解決するために3つの重要な貢献を活用しています。
(i)統一された学習および推論アーキテクチャは、推論ロジックにわずか0.5%エリアオーバーヘッドでの少数のショット学習(FSL)、継続的な学習(CL)、および推論をサポートします。
(ii)長い時間依存性は、時間的畳み込みネットワーク(TCNS)で効率的にキャプチャされ、16 kHzの生のオーディオでの順次データと推論に関するエンドツーエンドのオンチップFSLとCLの最初のデモを可能にします。
(iii)デュアルモード、マトリックスマルチプロテーションのないコンピューテアレイにより、最先端の推論のみのキーワードスポッティング(KWS)アクセラレータの電力消費と一致するか、$ 4.3 \ Times $ Higher Peak Gopsを有効にすることができます。
40 nmのCMOSで製造されたChameleonは、エンドツーエンドのオンチップFSL(96.8%、5ウェイ1ショット、98.8%、5ウェイ5ショット)およびCL(10ショットでの250クラスの学習250クラスの最終精度82.2%の最終精度)のためにオムニグロットに新しい精度記録を設定します。
3.1 $ \ mu $ wの予算。

要約(オリジナル)

On-device learning at the edge enables low-latency, private personalization with improved long-term robustness and reduced maintenance costs. Yet, achieving scalable, low-power end-to-end on-chip learning, especially from real-world sequential data with a limited number of examples, is an open challenge. Indeed, accelerators supporting error backpropagation optimize for learning performance at the expense of inference efficiency, while simplified learning algorithms often fail to reach acceptable accuracy targets. In this work, we present Chameleon, leveraging three key contributions to solve these challenges. (i) A unified learning and inference architecture supports few-shot learning (FSL), continual learning (CL) and inference at only 0.5% area overhead to the inference logic. (ii) Long temporal dependencies are efficiently captured with temporal convolutional networks (TCNs), enabling the first demonstration of end-to-end on-chip FSL and CL on sequential data and inference on 16-kHz raw audio. (iii) A dual-mode, matrix-multiplication-free compute array allows either matching the power consumption of state-of-the-art inference-only keyword spotting (KWS) accelerators or enabling $4.3\times$ higher peak GOPS. Fabricated in 40-nm CMOS, Chameleon sets new accuracy records on Omniglot for end-to-end on-chip FSL (96.8%, 5-way 1-shot, 98.8%, 5-way 5-shot) and CL (82.2% final accuracy for learning 250 classes with 10 shots), while maintaining an inference accuracy of 93.3% on the 12-class Google Speech Commands dataset at an extreme-edge power budget of 3.1 $\mu$W.

arxiv情報

著者 Douwe den Blanken,Charlotte Frenkel
発行日 2025-05-30 17:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG, I.2.6 | Chameleon: A MatMul-Free Temporal Convolutional Network Accelerator for End-to-End Few-Shot and Continual Learning from Sequential Data はコメントを受け付けていません

Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking

要約

最近のマスク拡散モデル(MDMS)は、言語モデリングの自己回帰モデル(ARMS)と比較して競争力のあるパフォーマンスを示しています。
ほとんどの文献は、パフォーマンスのサンプリング手順の向上に焦点を当てていますが、MDMSからの効率的なサンプリングはほとんど調査されていません。
しばしば、特定のマスクされたトークンの特定のシーケンスが決定論的に複数の未知のトークンの値を決定するという観察を行います。つまり、マスクされたモデルの単一の予測は、標準サンプリング手順で未使用の追加情報を保持します。
この観察結果に基づいて、既存のサンプラーの単純なドロップイン交換であるEB-Samplerを導入し、事前に定義された近似誤差耐性を備えた1つの関数評価で複数のトークンを動的にマスクするエントロピー境界のないアンマスキング手順を利用します。
私たちは、アルゴリズムの選択を動機付けるエラー分析を提供する幅広い適応サンプラーの一部としてeB-samplerを策定します。
EB-Samplerは、パフォーマンスを損なうことなく、標準コーディングおよび数学推論ベンチマークで、現在の最新MDMSからのサンプリングを約2〜3倍に加速します。
また、同じ手順を検証し、迷路のナビゲーションやSudokuなどの小さな推論タスクでうまく機能します。

要約(オリジナル)

Recent masked diffusion models (MDMs) have shown competitive performance compared to autoregressive models (ARMs) for language modeling. While most literature has focused on performance enhancing sampling procedures, efficient sampling from MDMs has been scarcely explored. We make the observation that often a given sequence of partially masked tokens determines the values of multiple unknown tokens deterministically, meaning that a single prediction of a masked model holds additional information unused by standard sampling procedures. Based on this observation, we introduce EB-Sampler, a simple drop-in replacement for existing samplers, utilizing an Entropy Bounded unmasking procedure that dynamically unmasks multiple tokens in one function evaluation with predefined approximate error tolerance. We formulate the EB-Sampler as part of a broad family of adaptive samplers for which we provide an error analysis that motivates our algorithmic choices. EB-Sampler accelerates sampling from current state of the art MDMs by roughly 2-3x on standard coding and math reasoning benchmarks without loss in performance. We also validate the same procedure works well on smaller reasoning tasks including maze navigation and Sudoku, tasks ARMs often struggle with.

arxiv情報

著者 Heli Ben-Hamu,Itai Gat,Daniel Severo,Niklas Nolte,Brian Karrer
発行日 2025-05-30 17:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking はコメントを受け付けていません

The Road to Generalizable Neuro-Symbolic Learning Should be Paved with Foundation Models

要約

ニューロシンボリック学習は、解釈可能性、信頼性、効率の追加の利点を備えた複雑な推論タスクのために、ニューラルネットワークをトレーニングする課題に対処するために提案されました。
ニューロシンボリック学習方法は、伝統的に象徴的なプログラムと連携してニューラルモデルを訓練していましたが、単純な問題に制限する重要な課題に直面しています。
一方、純粋に神経質な基礎モデルは、トレーニングではなくプロンプトを通じて最先端のパフォーマンスに到達しましたが、しばしば信頼できず、解釈性が欠けています。
私たちがニューロ・シンボリックプロンプトと呼ぶシンボリックプログラムで基礎モデルを補充することは、複雑な推論タスクにこれらのモデルを使用する方法を提供します。
そうすることで疑問が提起されます。神経協力学習の一部としての専門的なモデルトレーニングは、基礎モデルの時代にどのような役割を果たしていますか?
この質問を調査するために、一般化の問題につながる計算、データ、およびプログラムに関して、伝統的な神経 – 神経調節学習の3つの落とし穴を強調します。
このポジションペーパーでは、基礎モデルは一般化可能な神経腫瘍ソリューションを可能にし、トレーニングのマイナス面なしで神経免疫学習の元の目標を達成するための道を提供すると主張しています。

要約(オリジナル)

Neuro-symbolic learning was proposed to address challenges with training neural networks for complex reasoning tasks with the added benefits of interpretability, reliability, and efficiency. Neuro-symbolic learning methods traditionally train neural models in conjunction with symbolic programs, but they face significant challenges that limit them to simplistic problems. On the other hand, purely-neural foundation models now reach state-of-the-art performance through prompting rather than training, but they are often unreliable and lack interpretability. Supplementing foundation models with symbolic programs, which we call neuro-symbolic prompting, provides a way to use these models for complex reasoning tasks. Doing so raises the question: What role does specialized model training as part of neuro-symbolic learning have in the age of foundation models? To explore this question, we highlight three pitfalls of traditional neuro-symbolic learning with respect to the compute, data, and programs leading to generalization problems. This position paper argues that foundation models enable generalizable neuro-symbolic solutions, offering a path towards achieving the original goals of neuro-symbolic learning without the downsides of training from scratch.

arxiv情報

著者 Adam Stein,Aaditya Naik,Neelay Velingker,Mayur Naik,Eric Wong
発行日 2025-05-30 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The Road to Generalizable Neuro-Symbolic Learning Should be Paved with Foundation Models はコメントを受け付けていません

HESEIA: A community-based dataset for evaluating social biases in large language models, co-designed in real school settings in Latin America

要約

大規模な言語モデルの社会的バイアスを評価するためのほとんどのリソースは、これらのバイアスの影響を受けたコミュニティからの共同設計なしで開発され、参加型アプローチはめったに含まれません。
HeSeiaは、専門開発コースで作成された46,499の文のデータセットを紹介します。
このコースには、189人のラテンアメリカの学校から370人の高校教師と5,370人の生徒が含まれていました。
既存のベンチマークとは異なり、HeSeiaは複数の人口統計軸や学校の科目にわたって交差バイアスをキャプチャします。
それは、生きた経験と教育者の教育学的専門知識を通して地元の文脈を反映しています。
教師は最小限のペアを使用して、学校の科目やコミュニティに関連するステレオタイプを表現する文を作成しました。
表現された人口統計軸という点で、および含まれる知識領域の観点からデータセットの多様性を示します。
データセットには、以前のデータセットよりも現在のLLMによって認識されていないより多くのステレオタイプが含まれていることを実証します。
HeSeiaは、教育コミュニティに基づいたバイアス評価をサポートするために利用できます。

要約(オリジナル)

Most resources for evaluating social biases in Large Language Models are developed without co-design from the communities affected by these biases, and rarely involve participatory approaches. We introduce HESEIA, a dataset of 46,499 sentences created in a professional development course. The course involved 370 high-school teachers and 5,370 students from 189 Latin-American schools. Unlike existing benchmarks, HESEIA captures intersectional biases across multiple demographic axes and school subjects. It reflects local contexts through the lived experience and pedagogical expertise of educators. Teachers used minimal pairs to create sentences that express stereotypes relevant to their school subjects and communities. We show the dataset diversity in term of demographic axes represented and also in terms of the knowledge areas included. We demonstrate that the dataset contains more stereotypes unrecognized by current LLMs than previous datasets. HESEIA is available to support bias assessments grounded in educational communities.

arxiv情報

著者 Guido Ivetta,Marcos J. Gomez,Sofía Martinelli,Pietro Palombini,M. Emilia Echeveste,Nair Carolina Mazzeo,Beatriz Busaniche,Luciana Benotti
発行日 2025-05-30 15:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | HESEIA: A community-based dataset for evaluating social biases in large language models, co-designed in real school settings in Latin America はコメントを受け付けていません

Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification

要約

アラビア語の方言識別(ADI)システムは、アラビア語の品種のための包括的な音声技術の開発を可能にする大規模なデータ収集パイプラインに不可欠です。
ただし、現在のADIシステムの信頼性は、一般化が不十分なドメインスピーチに制限されています。
この論文では、最先端のパフォーマンスを達成し、クロスドメインシナリオの堅牢性を大幅に改善するADIモデルのトレーニングの音声変換に基づいた効果的なアプローチを提示します。
4つの異なるドメインにまたがる新しく収集された実世界のテストセットで評価されたこのアプローチは、ドメイン全体の精度が最大34.1%の一貫した改善をもたらします。
さらに、アプローチの分析を提示し、音声変換がADIデータセットのスピーカーバイアスを緩和するのに役立つことを実証します。
堅牢なADIモデルとクロスドメイン評価データセットをリリースして、アラビア語の包括的音声技術の開発をサポートします。

要約(オリジナル)

Arabic dialect identification (ADI) systems are essential for large-scale data collection pipelines that enable the development of inclusive speech technologies for Arabic language varieties. However, the reliability of current ADI systems is limited by poor generalization to out-of-domain speech. In this paper, we present an effective approach based on voice conversion for training ADI models that achieves state-of-the-art performance and significantly improves robustness in cross-domain scenarios. Evaluated on a newly collected real-world test set spanning four different domains, our approach yields consistent improvements of up to +34.1% in accuracy across domains. Furthermore, we present an analysis of our approach and demonstrate that voice conversion helps mitigate the speaker bias in the ADI dataset. We release our robust ADI model and cross-domain evaluation dataset to support the development of inclusive speech technologies for Arabic.

arxiv情報

著者 Badr M. Abdullah,Matthew Baas,Bernd Möbius,Dietrich Klakow
発行日 2025-05-30 15:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification はコメントを受け付けていません

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

要約

マルチモーダル大手言語モデル(MLLM)は、近年急速な発展を経験しています。
ただし、財務ドメインでは、効果的で特殊なマルチモーダル評価データセットが顕著に不足しています。
FinanceドメインでのMLLMの開発を進めるために、Finmmeを導入し、18の金融ドメインと6つの資産クラスにわたって11,000を超える高品質の金融研究サンプルを含み、10の主要なチャートタイプと21のサブタイプを備えています。
20のアノテーターと慎重に設計された検証メカニズムを通じてデータ品質を確保します。
さらに、幻覚のペナルティと多次元能力評価を組み込んだ評価システムであるFinScoreを開発して、公平な評価を提供します。
広範な実験結果は、GPT-4oのような最先端のモデルでさえ、Finmmeで不十分なパフォーマンスを示すことを示しており、その挑戦的な性質を強調しています。
ベンチマークは、異なるプロンプトの下で1%未満のままで予測の変動を伴う高い堅牢性を示し、既存のデータセットと比較して優れた信頼性を示しています。
データセットと評価プロトコルは、https://huggingface.co/datasets/luojunyu/finmmeおよびhttps://github.com/luo-junyu/finmmeで入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.

arxiv情報

著者 Junyu Luo,Zhizhuo Kou,Liming Yang,Xiao Luo,Jinsheng Huang,Zhiping Xiao,Jingshu Peng,Chengzhong Liu,Jiaming Ji,Xuanzhe Liu,Sirui Han,Ming Zhang,Yike Guo
発行日 2025-05-30 15:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation はコメントを受け付けていません

Krikri: Advancing Open Large Language Models for Greek

要約

メタのラマ3.1-8Bに基づいて構築されたギリシャ語に合わせた最先端の大きな言語モデルであるLlama-Krikri-8Bを紹介します。
Llama-Krikri-8Bは、言語的ニュアンスへの優れた適応を確保するために、高品質のギリシャのデータについて広範囲に訓練されています。
80億のパラメーターを備えたパラメーターは、効率的な計算パフォーマンスを維持しながら、高度な機能を提供します。
Llama-Krikri-8Bは、現代のギリシャ語と英語の両方をサポートしており、ポリトンのテキストと古代ギリシャ語を処理するためにも装備されています。
Llama-Krikri-8Bのチャットバージョンは、Magpieなどの技術を適用することにより、人間と合成の両方の指導と優先データを利用して、マルチステージ後のトレーニング後のパイプラインを備えています。
さらに、評価のために、ギリシャ語の3つの新しいパブリックベンチマークを提案します。
既存および提案されたベンチマークに関する当社の評価は、自然言語の理解と生成、コード生成の両方において、同等のギリシャ語および多言語LLMよりも顕著な改善を示しています。

要約(オリジナル)

We introduce Llama-Krikri-8B, a cutting-edge Large Language Model tailored for the Greek language, built on Meta’s Llama 3.1-8B. Llama-Krikri-8B has been extensively trained on high-quality Greek data to ensure superior adaptation to linguistic nuances. With 8 billion parameters, it offers advanced capabilities while maintaining efficient computational performance. Llama-Krikri-8B supports both Modern Greek and English, and is also equipped to handle polytonic text and Ancient Greek. The chat version of Llama-Krikri-8B features a multi-stage post-training pipeline, utilizing both human and synthetic instruction and preference data, by applying techniques such as MAGPIE. In addition, for evaluation, we propose three novel public benchmarks for Greek. Our evaluation on existing as well as the proposed benchmarks shows notable improvements over comparable Greek and multilingual LLMs in both natural language understanding and generation as well as code generation.

arxiv情報

著者 Dimitris Roussis,Leon Voukoutis,Georgios Paraskevopoulos,Sokratis Sofianopoulos,Prokopis Prokopidis,Vassilis Papavasileiou,Athanasios Katsamanis,Stelios Piperidis,Vassilis Katsouros
発行日 2025-05-30 15:44:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Krikri: Advancing Open Large Language Models for Greek はコメントを受け付けていません

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

要約

自己反省と強化学習を通じて、大規模な言語モデルのパフォーマンスを改善する方法を探ります。
モデルが誤って回答したときにより良い自己反省を生成するためにモデルをインセンティブ化することにより、合成データを生成することが実行不可能でバイナリフィードバックのみが利用可能である場合でも、複雑で検証可能なタスクを解決するモデルの能力を強化できることを実証します。
私たちのフレームワークは2つの段階で動作します。まず、特定のタスクに失敗すると、モデルは以前の試みを分析する自己反射的な解説を生成します。
第二に、モデルには、コンテキストで自己反映を伴うタスクに対する別の試みが与えられます。
その後の試みが成功した場合、自己反射段階で生成されたトークンは報われます。
私たちの実験結果は、数学方程式の書き込みで34.7%の改善と、関数呼び出しで18.1%の改善で、さまざまなモデルアーキテクチャにわたる大幅なパフォーマンスの向上を示しています。
特に、小さな微調整モデル(15億から70億のパラメーター)は、10倍大きい同じファミリのモデルを上回ります。
したがって、私たちの小説のパラダイムは、限られた外部フィードバックを備えた挑戦的なタスクで自己改善できる、より有用で信頼できる言語モデルへの刺激的な経路です。

要約(オリジナル)

We explore a method for improving the performance of large language models through self-reflection and reinforcement learning. By incentivizing the model to generate better self-reflections when it answers incorrectly, we demonstrate that a model’s ability to solve complex, verifiable tasks can be enhanced even when generating synthetic data is infeasible and only binary feedback is available. Our framework operates in two stages: first, upon failing a given task, the model generates a self-reflective commentary analyzing its previous attempt; second, the model is given another attempt at the task with the self-reflection in context. If the subsequent attempt succeeds, the tokens generated during the self-reflection phase are rewarded. Our experimental results show substantial performance gains across a variety of model architectures, as high as 34.7% improvement at math equation writing and 18.1% improvement at function calling. Notably, smaller fine-tuned models (1.5 billion to 7 billion parameters) outperform models in the same family that are 10 times larger. Our novel paradigm is thus an exciting pathway to more useful and reliable language models that can self-improve on challenging tasks with limited external feedback.

arxiv情報

著者 Shelly Bensal,Umar Jamil,Christopher Bryant,Melisa Russak,Kiran Kamble,Dmytro Mozolevskyi,Muayad Ali,Waseem AlShikh
発行日 2025-05-30 15:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning はコメントを受け付けていません

Circuit Stability Characterizes Language Model Generalization

要約

(大)言語モデルの機能を広く評価することは困難です。
最先端のモデルの急速な発展により、ベンチマークの飽和が誘発されますが、より挑戦的なデータセットを作成することは労働集約的です。
メカニズムの解釈可能性の最近の開発に触発されて、モデルのパフォーマンスを評価する新しい方法として回路の安定性を紹介します。
回路の安定性とは、一貫した推論プロセス、つまりさまざまな入力にアクセスする回路回路を適用するモデルの能力を指します。
回路の安定性と回路の等価性を数学的に形式化します。
次に、3つのケーススタディを通じて、回路の安定性とその欠如が一般化のさまざまな側面を特徴付けて予測できることを経験的に示します。
私たちの提案された方法は、モデルの一般性をその解釈可能性に厳密に関連付けるための一歩を提供します。

要約(オリジナル)

Extensively evaluating the capabilities of (large) language models is difficult. Rapid development of state-of-the-art models induce benchmark saturation, while creating more challenging datasets is labor-intensive. Inspired by the recent developments in mechanistic interpretability, we introduce circuit stability as a new way to assess model performance. Circuit stability refers to a model’s ability to apply a consistent reasoning process-its circuit-across various inputs. We mathematically formalize circuit stability and circuit equivalence. Then, through three case studies, we empirically show that circuit stability and the lack thereof can characterize and predict different aspects of generalization. Our proposed methods offer a step towards rigorously relating the generality of models to their interpretability.

arxiv情報

著者 Alan Sun
発行日 2025-05-30 15:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Circuit Stability Characterizes Language Model Generalization はコメントを受け付けていません

‘Dyadosyncrasy’, Idiosyncrasy and Demographic Factors in Turn-Taking

要約

対話のターンテイクは、普遍的な制約に従いますが、大きく異なります。
この研究では、英語の会話(フィッシャー)の大規模なデータセットを使用して、人口統計(性別、年齢、教育)と個々の要因がどのようにターンテイキングを形成するかを調べます。
遷移フロアオフセット(TFO)を分析し、顕著なスピーカー間変動を見つけます。
性と年齢は小さくても大きな影響を及ぼし、女性の話者と高齢者はわずかに短いオフセットを示しますが、教育には効果がありません。
軽いトピックは、より短いTFOと相関しています。
しかし、個人差は大きな影響を与え、強い特異性とさらに強い「二ヤドシンクティック」コンポーネント – ダイアドのスピーカーは、異なるダイアドで自分自身に似ているよりも互いに似ています。
これは、ダイアディックの関係と関節活動がTFOの最も強力な決定要因であり、人口統計上の影響を上回っていることを示唆しています。

要約(オリジナル)

Turn-taking in dialogue follows universal constraints but also varies significantly. This study examines how demographic (sex, age, education) and individual factors shape turn-taking using a large dataset of US English conversations (Fisher). We analyze Transition Floor Offset (TFO) and find notable interspeaker variation. Sex and age have small but significant effects female speakers and older individuals exhibit slightly shorter offsets – while education shows no effect. Lighter topics correlate with shorter TFOs. However, individual differences have a greater impact, driven by a strong idiosyncratic and an even stronger ‘dyadosyncratic’ component – speakers in a dyad resemble each other more than they resemble themselves in different dyads. This suggests that the dyadic relationship and joint activity are the strongest determinants of TFO, outweighing demographic influences.

arxiv情報

著者 Julio Cesar Cavalcanti,Gabriel Skantze
発行日 2025-05-30 15:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | ‘Dyadosyncrasy’, Idiosyncrasy and Demographic Factors in Turn-Taking はコメントを受け付けていません