psifx — Psychological and Social Interactions Feature Extraction Package

要約

psifx は、プラグアンドプレイのマルチモーダル特徴抽出ツールキットであり、人間科学研究における最先端の機械学習技術の使用を促進し、民主化することを目的としています。
これは、次のニーズによって動機付けられています。(a) データ注釈プロセスを自動化および標準化する。そうしないと、オーディオおよびビデオ ソースからの動作変化の転写やコーディングなど、高価で時間がかかり、一貫性のない人間の労働が伴います。
(b) オープンソースのコミュニティ主導の心理学研究ソフトウェアを開発および配布する。
(c) 大規模なアクセスと、専門家以外のユーザーの使いやすさを可能にする。
このフレームワークには、話者ダイアライゼーション、字幕の文字起こし、音声からの翻訳、体、手、顔のポーズ推定やビデオからの視線追跡などのタスク用の一連のツールが含まれています。
このパッケージはモジュール式のタスク指向のアプローチで設計されており、コミュニティが新しいツールを簡単に追加または更新できるようにします。
私たちは、このパッケージが心理学者に、音声とビデオからさまざまな音声、言語、視覚の特徴を効率的に取得するためのシンプルで実用的なソリューションを提供し、それによってリアルタイムの行動現象を詳細に研究する新たな機会を生み出すことを強く望んでいます。

要約(オリジナル)

psifx is a plug-and-play multi-modal feature extraction toolkit, aiming to facilitate and democratize the use of state-of-the-art machine learning techniques for human sciences research. It is motivated by a need (a) to automate and standardize data annotation processes, otherwise involving expensive, lengthy, and inconsistent human labor, such as the transcription or coding of behavior changes from audio and video sources; (b) to develop and distribute open-source community-driven psychology research software; and (c) to enable large-scale access and ease of use to non-expert users. The framework contains an array of tools for tasks, such as speaker diarization, closed-caption transcription and translation from audio, as well as body, hand, and facial pose estimation and gaze tracking from video. The package has been designed with a modular and task-oriented approach, enabling the community to add or update new tools easily. We strongly hope that this package will provide psychologists a simple and practical solution for efficiently a range of audio, linguistic, and visual features from audio and video, thereby creating new opportunities for in-depth study of real-time behavioral phenomena.

arxiv情報

著者 Guillaume Rochette,Matthew J. Vowels
発行日 2024-07-16 09:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク