TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

要約

大規模な言語モデル(LLM)は、テキストベースの自然言語処理タスクに優れていますが、テキストの入力と出力への依存によって制約されたままです。
より自然な人間との相互作用を可能にするために、最近の進歩は、音声を聞くだけでなく発生することができる音声言語モデル(SLM)の導出に焦点を合わせています。
これを達成するために、有望な方向性は、音声テキストジョイントモデリングを実施することです。
ただし、最近のSLMは、モダリティの不一致により、Text LLMに遅れをとっています。
1つの重要な不一致は、音声トークンとテキストトークンの間のシーケンス長です。
これに対処するために、テキストに合わせた音声トークン化と埋め込み(味)を紹介します。これは、トークン化段階で音声トークンを対応するテキスト転写と整列させることにより、モダリティギャップに直接対処する方法です。
特別な集約メカニズムを通じて、トレーニングの目的として音声再構成を通じてこれを達成できる方法を提案します。
私たちは広範な実験を実施し、味が本質的な麻痺情報を維持しながら、トークンシーケンスの長さを劇的に削減できることを示しています。
さらに、味を活用することにより、テキストベースのLLMを、低ランク適応(LORA)などのパラメーター効率の高い微調整技術を使用して、効果的なSLMに適応させることができます。
サーモンやストーリークロゼを含むベンチマークタスクの実験結果は、味覚ベースのSLMが以前のフルフィネット方法と同様に機能することを示しています。
私たちの知る限り、Tasteは、再構成の目的を利用して、テキストに整列した音声トークン化と埋め込みの音声言語モデリングに自動的に学習する最初のエンドツーエンドアプローチです。
デモ、コード、およびモデルは、https://github.com/mtkresearch/taste sphokenlmで公開されています。

要約(オリジナル)

Large Language Models (LLMs) excel in text-based natural language processing tasks but remain constrained by their reliance on textual inputs and outputs. To enable more natural human-LLM interaction, recent progress have focused on deriving a spoken language model (SLM) that can not only listen but also generate speech. To achieve this, a promising direction is to conduct speech-text joint modeling. However, recent SLM still lag behind text LLM due to the modality mismatch. One significant mismatch can be the sequence lengths between speech and text tokens. To address this, we introduce Text-Aligned Speech Tokenization and Embedding (TASTE), a method that directly addresses the modality gap by aligning speech token with the corresponding text transcription during the tokenization stage. We propose a method that can achieve this through the special aggregation mechanism and with speech reconstruction as the training objective. We conduct extensive experiments and show that TASTE can preserve essential paralinguistic information while dramatically reducing the token sequence length. Furthermore, by leveraging TASTE, we can adapt text-based LLMs into effective SLMs with parameter-efficient fine-tuning techniques such as Low-Rank Adaptation (LoRA). Experimental results on benchmark tasks, including SALMON and StoryCloze, demonstrate that TASTE-based SLMs perform similarly to previous full-finetuning methods. To our knowledge, TASTE is the first end-to-end approach that utilizes a reconstruction objective to automatically learn a text-aligned speech tokenization and embedding suitable for spoken language modeling. Our demo, code, and models are publicly available at https://github.com/mtkresearch/TASTE-SpokenLM.

arxiv情報

著者 Liang-Hsuan Tseng,Yi-Chang Chen,Kuan-Yi Lee,Da-Shan Shiu,Hung-yi Lee
発行日 2025-04-09 17:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling はコメントを受け付けていません

A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models

要約

個々のユーザーの好みに合わせてLLMを調整するプロセスである大規模な言語モデル(LLMS)のパーソナライズされた優先アライメントは、NLPとパーソナライズの領域にまたがる新たな研究方向です。
この調査では、LLMSの個別のアラインメントとモデリングに関する研究の分析を提示します。
トレーニング時間、推論時間、さらにユーザーモデリングベースの方法など、優先順位アライメント手法の分類法を紹介します。
テクニックの各グループの長所と制限に関する分析と議論を提供し、その後、フィールドのオープンな問題だけでなく、評価、ベンチマーク、およびカバーします。

要約(オリジナル)

Personalized preference alignment for large language models (LLMs), the process of tailoring LLMs to individual users’ preferences, is an emerging research direction spanning the area of NLP and personalization. In this survey, we present an analysis of works on personalized alignment and modeling for LLMs. We introduce a taxonomy of preference alignment techniques, including training time, inference time, and additionally, user-modeling based methods. We provide analysis and discussion on the strengths and limitations of each group of techniques and then cover evaluation, benchmarks, as well as open problems in the field.

arxiv情報

著者 Zhouhang Xie,Junda Wu,Yiran Shen,Yu Xia,Xintong Li,Aaron Chang,Ryan Rossi,Sachin Kumar,Bodhisattwa Prasad Majumder,Jingbo Shang,Prithviraj Ammanabrolu,Julian McAuley
発行日 2025-04-09 17:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models はコメントを受け付けていません

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

要約

推論は、学術研究所と産業研究所の両方から急速な進歩を遂げ、言語モデル(LMS)の次の主要なフロンティアとして浮上しています。
ただし、この進歩はしばしば方法論的な厳密さを上回り、多くの評価が透明性、堅牢性、または統計的接地を欠くベンチマークプラクティスに依存しています。
この作業では、包括的な経験的研究を実施し、現在の数学的推論ベンチマークは、デコードパラメーター、ランダムシード、迅速なフォーマット、さらにはハードウェアおよびソフトウェアフレームワークの構成など、微妙な実装の選択に非常に敏感であることがわかります。
最近の研究で報告されているパフォーマンスの向上は、不明確な比較または報告されていない分散源に頻繁にかかっています。
これらの問題に対処するために、明確に定義されたベストプラクティスと報告基準を備えた標準化された評価フレームワークを提案します。
このフレームワークを使用して、最近の方法を再評価し、強化学習(RL)が近づいていること(以前の請求をはるかに下回るだけでなく、特にAIME24のような小規模なベンチマークで過度に適合する傾向があることがわかります。
対照的に、監視された微調整(SFT)メソッドは、一貫してより強力な一般化を示しています。
再現性を促進するために、ベンチマークを推論するために、すべてのコード、プロンプト、モデルの出力をリリースし、将来の作業のためにより厳格な基盤を確立します。

要約(オリジナル)

Reasoning has emerged as the next major frontier for language models (LMs), with rapid advances from both academic and industrial labs. However, this progress often outpaces methodological rigor, with many evaluations relying on benchmarking practices that lack transparency, robustness, or statistical grounding. In this work, we conduct a comprehensive empirical study and find that current mathematical reasoning benchmarks are highly sensitive to subtle implementation choices – including decoding parameters, random seeds, prompt formatting, and even hardware and software-framework configurations. Performance gains reported in recent studies frequently hinge on unclear comparisons or unreported sources of variance. To address these issues, we propose a standardized evaluation framework with clearly defined best practices and reporting standards. Using this framework, we reassess recent methods and find that reinforcement learning (RL) approaches yield only modest improvements – far below prior claims – and are prone to overfitting, especially on small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT) methods show consistently stronger generalization. To foster reproducibility, we release all code, prompts, and model outputs, for reasoning benchmarks, establishing more rigorous foundations for future work.

arxiv情報

著者 Andreas Hochlehnert,Hardik Bhatnagar,Vishaal Udandarao,Samuel Albanie,Ameya Prabhu,Matthias Bethge
発行日 2025-04-09 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility はコメントを受け付けていません

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

要約

OlmoTraceを提示します。これは、言語モデルの出力を完全な数兆トークントレーニングデータにリアルタイムで追跡する最初のシステムです。
OlmoTraceは、言語モデルの出力のセグメントとトレーニングテキストコーパのドキュメント間で逐語的な一致を見つけて表示します。
拡張バージョンのInfini-Gram(Liu et al。、2024)を搭載したこのシステムは、数秒以内にトレース結果を返します。
OlmoTraceは、トレーニングデータのレンズを介して言語モデルの動作をユーザーに理解するのに役立ちます。
言語モデルのファクトチェック、幻覚、および創造性を探求するためにそれを使用する方法を紹介します。
OlmoTraceは公開されており、完全にオープンソースです。

要約(オリジナル)

We present OLMoTrace, the first system that traces the outputs of language models back to their full, multi-trillion-token training data in real time. OLMoTrace finds and shows verbatim matches between segments of language model output and documents in the training text corpora. Powered by an extended version of infini-gram (Liu et al., 2024), our system returns tracing results within a few seconds. OLMoTrace can help users understand the behavior of language models through the lens of their training data. We showcase how it can be used to explore fact checking, hallucination, and the creativity of language models. OLMoTrace is publicly available and fully open-source.

arxiv情報

著者 Jiacheng Liu,Taylor Blanton,Yanai Elazar,Sewon Min,YenSung Chen,Arnavi Chheda-Kothary,Huy Tran,Byron Bischoff,Eric Marsh,Michael Schmitz,Cassidy Trier,Aaron Sarnat,Jenna James,Jon Borchardt,Bailey Kuehl,Evie Cheng,Karen Farley,Sruthi Sreeram,Taira Anderson,David Albright,Carissa Schoenick,Luca Soldaini,Dirk Groeneveld,Rock Yuren Pang,Pang Wei Koh,Noah A. Smith,Sophie Lebrecht,Yejin Choi,Hannaneh Hajishirzi,Ali Farhadi,Jesse Dodge
発行日 2025-04-09 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens はコメントを受け付けていません

LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input

要約

ペットを失うことはペットの飼い主にとって非常に苦痛を伴う可能性があり、失われたペットを見つけることはしばしば挑戦的で時間がかかります。
人工知能ベースのアプリケーションは、失われたペットを見つけることの速度と精度を大幅に改善できます。
このようなアプリケーションを容易にするために、この研究では、ペットの画像を正確に区別できる対照的なニューラルネットワークモデルを導入します。
このモデルは、犬の画像の大きなデータセットでトレーニングされ、3倍の交差検証で評価されました。
350のトレーニングのエポックに続いて、モデルは90%のテスト精度を達成しました。
さらに、テストの精度がトレーニングの精度に密接に一致するため、過剰適合は回避されました。
私たちの調査結果は、対照的なニューラルネットワークモデルが失われたペットを見つけるためのツールとして有望であることを示唆しています。
このペーパーでは、ユーザーが行方不明のペットを見つけるのを支援するように設計された潜在的なWebアプリケーションの基礎フレームワークを紹介します。
このアプリケーションを使用すると、ユーザーは紛失したペットの画像をアップロードし、画像データベース内で一致する画像が識別されると通知を提供できます。
この機能は、ペットの飼い主が最愛の動物を検索して再会できる効率と精度を高めることを目的としています。

要約(オリジナル)

Losing pets can be highly distressing for pet owners, and finding a lost pet is often challenging and time-consuming. An artificial intelligence-based application can significantly improve the speed and accuracy of finding lost pets. To facilitate such an application, this study introduces a contrastive neural network model capable of accurately distinguishing between images of pets. The model was trained on a large dataset of dog images and evaluated through 3-fold cross-validation. Following 350 epochs of training, the model achieved a test accuracy of 90%. Furthermore, overfitting was avoided, as the test accuracy closely matched the training accuracy. Our findings suggest that contrastive neural network models hold promise as a tool for locating lost pets. This paper presents the foundational framework for a potential web application designed to assist users in locating their missing pets. The application will allow users to upload images of their lost pets and provide notifications when matching images are identified within its image database. This functionality aims to enhance the efficiency and accuracy with which pet owners can search for and reunite with their beloved animals.

arxiv情報

著者 Andrei Voinea,Robin Kock,Maruf A. Dhali
発行日 2025-04-09 11:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input はコメントを受け付けていません

Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring

要約

舗装表面の状態の効果的かつ迅速な評価は、メンテナンスに優先順位を付け、輸送の安全性を確保し、車両の摩耗と裂傷を最小限に抑えるために重要です。
従来の手動検査には主観性がありますが、既存の機械学習ベースの方法は、大規模で高品質のラベル付きデータセットに依存することによって制約されています。
大規模な言語モデル(LLMS)の革命的な進歩は、これらの課題を克服する重要な可能性を提示します。
この研究では、道路状況を効果的に評価するためにLLMの画像認識と自然言語理解能力を活用する革新的な自動化されたゼロショット学習アプローチを提案します。
複数のLLMベースの評価モデルが開発され、舗装表面条件指数(PSCI)標準に合わせた迅速なエンジニアリング戦略を採用しました。
これらのモデルの精度と信頼性は、最終的に最終的に選択された公式のPSCI結果に対して評価されました。
広範なテストは、Google Street View Roadの画像を使用して、さまざまなレベルの専門家からの評価に対して最適化されたモデルをベンチマークしました。
結果は、LLMベースのアプローチが道路条件を効果的に評価できることを明らかにし、最適化されたモデルを雇用して構造化された迅速なエンジニアリング戦略を実行し、高精度と一貫性を達成することでよりシンプルな構成を実行し、さらには専門家の評価を上回ります。
さらに、最適化されたモデルをGoogle Street View画像に正常に適用することは、将来の都市規模の展開の可能性を示しています。
これらの調査結果は、道路損傷の評価を自動化する際のLLMSの変革の可能性を強調し、信頼できる評価を達成する上で詳細な迅速なエンジニアリングの極めて重要な役割を強調しています。

要約(オリジナル)

Effective and rapid evaluation of pavement surface condition is critical for prioritizing maintenance, ensuring transportation safety, and minimizing vehicle wear and tear. While conventional manual inspections suffer from subjectivity, existing machine learning-based methods are constrained by their reliance on large and high-quality labeled datasets, which require significant resources and limit adaptability across varied road conditions. The revolutionary advancements in Large Language Models (LLMs) present significant potential for overcoming these challenges. In this study, we propose an innovative automated zero-shot learning approach that leverages the image recognition and natural language understanding capabilities of LLMs to assess road conditions effectively. Multiple LLM-based assessment models were developed, employing prompt engineering strategies aligned with the Pavement Surface Condition Index (PSCI) standards. These models’ accuracy and reliability were evaluated against official PSCI results, with an optimized model ultimately selected. Extensive tests benchmarked the optimized model against evaluations from various levels experts using Google Street View road images. The results reveal that the LLM-based approach can effectively assess road conditions, with the optimized model -employing comprehensive and structured prompt engineering strategies -outperforming simpler configurations by achieving high accuracy and consistency, even surpassing expert evaluations. Moreover, successfully applying the optimized model to Google Street View images demonstrates its potential for future city-scale deployments. These findings highlight the transformative potential of LLMs in automating road damage evaluations and underscore the pivotal role of detailed prompt engineering in achieving reliable assessments.

arxiv情報

著者 Shuoshuo Xu,Kai Zhao,James Loney,Zili Li,Andrea Visentin
発行日 2025-04-09 11:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring はコメントを受け付けていません

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

要約

Openai-O1やDeepseek-R1などの大規模な言語モデル(RLLM)を使用した推論の最近の進歩は、数学やコーディングなどの複雑なドメインで印象的な能力を実証しています。
彼らの成功の中心的な要因は、推論能力を高め、複雑な問題の解決を可能にする長い考え方(長いCOT)特性の適用にあります。
ただし、これらの開発にもかかわらず、長いCOTに関する包括的な調査はまだ不足しており、従来の短いチェーン(短いCOT)との区別についての理解を制限し、「考え直し」や「テストタイムスケーリング」などの問題に関する継続的な議論を複雑にしています。
この調査では、長いCOTに関する統一された視点を提供することにより、このギャップを埋めようとしています。
(1)最初に長いベッドベッドと短いCOTを区別し、現在の推論パラダイムを分類するための新しい分類法を導入します。
(2)次に、長いCOTの重要な特性を調査します。深い推論、広範な探求、および実現可能な反射を調査します。これにより、モデルはより複雑なタスクを処理し、より浅い短いCOTと比較してより効率的でコヒーレントな結果を生成できます。
(3)次に、長いCOTの出現などの重要な現象を調査し、考え直しやテスト時間スケーリングを含むこれらの特性を備えており、これらのプロセスが実際にどのように現れるかについての洞察を提供します。
(4)最後に、重要な研究ギャップを特定し、マルチモーダル推論の統合、効率の改善、強化された知識フレームワークなど、有望な将来の方向性を強調します。
構造化された概要を提供することにより、この調査は、将来の研究を促し、人工知能における論理的推論の開発を促進することを目的としています。

要約(オリジナル)

Recent advancements in reasoning with large language models (RLLMs), such as OpenAI-O1 and DeepSeek-R1, have demonstrated their impressive capabilities in complex domains like mathematics and coding. A central factor in their success lies in the application of long chain-of-thought (Long CoT) characteristics, which enhance reasoning abilities and enable the solution of intricate problems. However, despite these developments, a comprehensive survey on Long CoT is still lacking, limiting our understanding of its distinctions from traditional short chain-of-thought (Short CoT) and complicating ongoing debates on issues like ‘overthinking’ and ‘test-time scaling.’ This survey seeks to fill this gap by offering a unified perspective on Long CoT. (1) We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms. (2) Next, we explore the key characteristics of Long CoT: deep reasoning, extensive exploration, and feasible reflection, which enable models to handle more complex tasks and produce more efficient, coherent outcomes compared to the shallower Short CoT. (3) We then investigate key phenomena such as the emergence of Long CoT with these characteristics, including overthinking, and test-time scaling, offering insights into how these processes manifest in practice. (4) Finally, we identify significant research gaps and highlight promising future directions, including the integration of multi-modal reasoning, efficiency improvements, and enhanced knowledge frameworks. By providing a structured overview, this survey aims to inspire future research and further the development of logical reasoning in artificial intelligence.

arxiv情報

著者 Qiguang Chen,Libo Qin,Jinhao Liu,Dengyun Peng,Jiannan Guan,Peng Wang,Mengkang Hu,Yuhang Zhou,Te Gao,Wanxiang Che
発行日 2025-04-09 11:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models はコメントを受け付けていません

International Scientific Report on the Safety of Advanced AI (Interim Report)

要約

これは、高度なAIの安全性に関する最初の国際科学報告書の暫定出版物です。
このレポートは、リスクの理解と管理に焦点を当てて、汎用AI(さまざまなタスクを実行できるAI)の科学的理解を統合しています。
75のAI専門家の多様なグループが、30か国、EU、および国連が指名した国際的な専門家諮問委員会を含むこのレポートに貢献しました。
椅子に率いられて、これらの独立した専門家は、レポートのコンテンツに対して完全に裁量権を持っていました。
最終レポートは、ARXIV:2501.17805で入手できます

要約(オリジナル)

This is the interim publication of the first International Scientific Report on the Safety of Advanced AI. The report synthesises the scientific understanding of general-purpose AI — AI that can perform a wide variety of tasks — with a focus on understanding and managing its risks. A diverse group of 75 AI experts contributed to this report, including an international Expert Advisory Panel nominated by 30 countries, the EU, and the UN. Led by the Chair, these independent experts collectively had full discretion over the report’s content. The final report is available at arXiv:2501.17805

arxiv情報

著者 Yoshua Bengio,Sören Mindermann,Daniel Privitera,Tamay Besiroglu,Rishi Bommasani,Stephen Casper,Yejin Choi,Danielle Goldfarb,Hoda Heidari,Leila Khalatbari,Shayne Longpre,Vasilios Mavroudis,Mantas Mazeika,Kwan Yee Ng,Chinasa T. Okolo,Deborah Raji,Theodora Skeadas,Florian Tramèr,Bayo Adekanmbi,Paul Christiano,David Dalrymple,Thomas G. Dietterich,Edward Felten,Pascale Fung,Pierre-Olivier Gourinchas,Nick Jennings,Andreas Krause,Percy Liang,Teresa Ludermir,Vidushi Marda,Helen Margetts,John A. McDermid,Arvind Narayanan,Alondra Nelson,Alice Oh,Gopal Ramchurn,Stuart Russell,Marietje Schaake,Dawn Song,Alvaro Soto,Lee Tiedrich,Gaël Varoquaux,Andrew Yao,Ya-Qin Zhang
発行日 2025-04-09 11:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | International Scientific Report on the Safety of Advanced AI (Interim Report) はコメントを受け付けていません

Learning in Spiking Neural Networks with a Calcium-based Hebbian Rule for Spike-timing-dependent Plasticity

要約

生物学的ニューラルネットワークが局所的な可塑性メカニズムを介してどのように形成されるかを理解することは、エネルギー効率の高い自己適応性情報処理システムにつながる可能性があり、エッジコンピューティングシステムの現在の障害の一部を軽減することを約束します。
生物学はスパイクを使用して、シナプス強度を調節するためにスパイクのタイミングと平均発火率の両方をシームレスに使用しますが、ほとんどのモデルは2つのうちの1つに焦点を当てています。
この作業では、シナプスの修飾がニューロン活動を追跡する関数としてシナプスの修飾をモデル化するヘビアのローカル学習ルールを提示します。
ルールが、神経科学的研究からのスパイク時間とスパイクレートプロトコルからの結果をどのように再現するかを示します。
さらに、モデルを使用して、MNIST Digit認識でスパイクニューラルネットワークをトレーニングして、実際のパターンを学習するために必要なメカニズムを表示および説明します。
私たちのモデルが相関スパイキング活動にどのように敏感であり、これにより、ニューロンの平均発火率や学習ルールの著名計を変更せずにネットワークの学習率を変調する方法を示します。
私たちの知る限り、これはスパイクのタイミングとレートがスパイクニューラルネットワークの接続性を形作る役割において補完的になる方法を示す最初の作業です。

要約(オリジナル)

Understanding how biological neural networks are shaped via local plasticity mechanisms can lead to energy-efficient and self-adaptive information processing systems, which promises to mitigate some of the current roadblocks in edge computing systems. While biology makes use of spikes to seamless use both spike timing and mean firing rate to modulate synaptic strength, most models focus on one of the two. In this work, we present a Hebbian local learning rule that models synaptic modification as a function of calcium traces tracking neuronal activity. We show how the rule reproduces results from spike time and spike rate protocols from neuroscientific studies. Moreover, we use the model to train spiking neural networks on MNIST digit recognition to show and explain what sort of mechanisms are needed to learn real-world patterns. We show how our model is sensitive to correlated spiking activity and how this enables it to modulate the learning rate of the network without altering the mean firing rate of the neurons nor the hyparameters of the learning rule. To the best of our knowledge, this is the first work that showcases how spike timing and rate can be complementary in their role of shaping the connectivity of spiking neural networks.

arxiv情報

著者 Willian Soares Girão,Nicoletta Risi,Elisabetta Chicca
発行日 2025-04-09 11:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Learning in Spiking Neural Networks with a Calcium-based Hebbian Rule for Spike-timing-dependent Plasticity はコメントを受け付けていません

Unraveling Human-AI Teaming: A Review and Outlook

要約

人工知能(AI)は前例のないペースで前進しており、意思決定と生産性を高める可能性が明確になります。
しかし、人間とAIの間の共同の意思決定プロセスは未発達のままであり、しばしばその変革的可能性に達していません。
このペーパーでは、受動的なツールから人間のチームの積極的な協力者へのAIエージェントの進化を探り、複雑な環境で自律的に学習、適応、および運用する能力を強調します。
このパラダイムは、新しいインタラクションプロトコル、委任戦略、責任分布フレームワークを必要とする従来のチームのダイナミクスに挑戦します。
チームの状況認識(SA)理論に基づいて、現在のヒューマンAIチームの研究における2つの重要なギャップを特定します。AIエージェントを人間の価値と目的に合わせることの難しさと、AIの能力が本物のチームメンバーとして十分に活用されています。
これらのギャップに対処するために、私たちは、策定、調整、メンテナンス、およびトレーニングの4つの重要な側面を中心とした構造化された研究の見通しを提案します。
私たちのフレームワークは、共有されたメンタルモデル、信頼構築、紛争解決、および効果的なチーム化のためのスキル適応の重要性を強調しています。
さらに、さまざまなチーム構成、目標、複雑さによってもたらされる独自の課題について説明します。
このペーパーでは、将来の研究と、持続可能で高性能な人間チームの実践的な設計の基礎アジェンダを提供します。

要約(オリジナル)

Artificial Intelligence (AI) is advancing at an unprecedented pace, with clear potential to enhance decision-making and productivity. Yet, the collaborative decision-making process between humans and AI remains underdeveloped, often falling short of its transformative possibilities. This paper explores the evolution of AI agents from passive tools to active collaborators in human-AI teams, emphasizing their ability to learn, adapt, and operate autonomously in complex environments. This paradigm shifts challenges traditional team dynamics, requiring new interaction protocols, delegation strategies, and responsibility distribution frameworks. Drawing on Team Situation Awareness (SA) theory, we identify two critical gaps in current human-AI teaming research: the difficulty of aligning AI agents with human values and objectives, and the underutilization of AI’s capabilities as genuine team members. Addressing these gaps, we propose a structured research outlook centered on four key aspects of human-AI teaming: formulation, coordination, maintenance, and training. Our framework highlights the importance of shared mental models, trust-building, conflict resolution, and skill adaptation for effective teaming. Furthermore, we discuss the unique challenges posed by varying team compositions, goals, and complexities. This paper provides a foundational agenda for future research and practical design of sustainable, high-performing human-AI teams.

arxiv情報

著者 Bowen Lou,Tian Lu,T. S. Raghu,Yingjie Zhang
発行日 2025-04-09 12:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, econ.GN, q-fin.EC | Unraveling Human-AI Teaming: A Review and Outlook はコメントを受け付けていません