The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas

要約

倫理的意思決定は人間の判断の重要な側面であり、意思決定サポートシステムでのLLMの使用の増加は、彼らの道徳的推論能力の厳密な評価を必要とします。
ただし、既存の評価は主にシングルステップ評価に依存しており、モデルが進化する倫理的課題にどのように適応するかを把握できません。
このギャップに対処するには、3,302の5段階ジレンマでLLMの進化する道徳的判断を評価するために特別に構築された最初のデータセットであるマルチステップモラルジレンマ(MMDS)を導入します。
このフレームワークにより、LLMSがエスカレートするジレンマ全体で道徳的推論をどのように調整するかについてのきめの細かい動的な分析を可能にします。
9つの広く使用されているLLMの評価は、ジレンマが進行するにつれて価値の好みが大きく変化することを明らかにしており、モデルがシナリオの複雑さに基づいて道徳的判断を再調整することを示しています。
さらに、ペアワイズの値の比較は、LLMがしばしばケアの価値を優先することが多いが、この値は特定のコンテキストでの公平性に置き換えることがあり、LLMの倫理的推論の動的でコンテキスト依存的な性質を強調することがあることを示しています。
私たちの調査結果は、LLMSのより人間に整合し、価値に敏感な開発のための道を開いて、動的でコンテキストを意識した評価パラダイムへの移行を求めています。

要約(オリジナル)

Ethical decision-making is a critical aspect of human judgment, and the growing use of LLMs in decision-support systems necessitates a rigorous evaluation of their moral reasoning capabilities. However, existing assessments primarily rely on single-step evaluations, failing to capture how models adapt to evolving ethical challenges. Addressing this gap, we introduce the Multi-step Moral Dilemmas (MMDs), the first dataset specifically constructed to evaluate the evolving moral judgments of LLMs across 3,302 five-stage dilemmas. This framework enables a fine-grained, dynamic analysis of how LLMs adjust their moral reasoning across escalating dilemmas. Our evaluation of nine widely used LLMs reveals that their value preferences shift significantly as dilemmas progress, indicating that models recalibrate moral judgments based on scenario complexity. Furthermore, pairwise value comparisons demonstrate that while LLMs often prioritize the value of care, this value can sometimes be superseded by fairness in certain contexts, highlighting the dynamic and context-dependent nature of LLM ethical reasoning. Our findings call for a shift toward dynamic, context-aware evaluation paradigms, paving the way for more human-aligned and value-sensitive development of LLMs.

arxiv情報

著者 Ya Wu,Qiang Sheng,Danding Wang,Guang Yang,Yifan Sun,Zhengjia Wang,Yuyan Bu,Juan Cao
発行日 2025-05-23 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas はコメントを受け付けていません

Fourier-Based 3D Multistage Transformer for Aberration Correction in Multicellular Specimens

要約

高解像度の組織イメージングは​​、分解能とコントラストを分解するサンプル誘導光学異常によってしばしば損なわれます。
波面センサーベースの適応光学系(AO)はこれらの異常を測定できますが、このようなハードウェアソリューションは通常、実装が複雑で高価であり、大きな視野で空間的に変化する異常をマッピングすると遅くなります。
ここでは、AoVift(Adaptive Optical Vision Forier Transformer)を紹介します。これは、フーリエドメイン埋め込みで動作する3Dマルチステージビジョントランスを中心に構築された機械学習ベースの異常センシングフレームワークです。
AoViftは、異常を推し進め、従来のアーキテクチャや空間ネットワークと比較して、計算コスト、トレーニング時間、およびメモリフットプリントが大幅に削減された涙点標識の回折性パフォーマンスを回復します。
ライブ遺伝子編集されたゼブラフィッシュ胚のAoviftを検証し、変形可能な鏡または取得後のデコンボリューションのいずれかを使用して、空間的に変化する異常を修正する能力を実証しました。
ガイドスターと波面検知ハードウェアの必要性を排除し、実験ワークフローを簡素化することにより、AoViftは多様な生物学的サンプル全体で高解像度の体積顕微鏡の技術的障壁を低下させます。

要約(オリジナル)

High-resolution tissue imaging is often compromised by sample-induced optical aberrations that degrade resolution and contrast. While wavefront sensor-based adaptive optics (AO) can measure these aberrations, such hardware solutions are typically complex, expensive to implement, and slow when serially mapping spatially varying aberrations across large fields of view. Here, we introduce AOViFT (Adaptive Optical Vision Fourier Transformer) — a machine learning-based aberration sensing framework built around a 3D multistage Vision Transformer that operates on Fourier domain embeddings. AOViFT infers aberrations and restores diffraction-limited performance in puncta-labeled specimens with substantially reduced computational cost, training time, and memory footprint compared to conventional architectures or real-space networks. We validated AOViFT on live gene-edited zebrafish embryos, demonstrating its ability to correct spatially varying aberrations using either a deformable mirror or post-acquisition deconvolution. By eliminating the need for the guide star and wavefront sensing hardware and simplifying the experimental workflow, AOViFT lowers technical barriers for high-resolution volumetric microscopy across diverse biological samples.

arxiv情報

著者 Thayer Alshaabi,Daniel E. Milkie,Gaoxiang Liu,Cyna Shirazinejad,Jason L. Hong,Kemal Achour,Frederik Görlitz,Ana Milunovic-Jevtic,Cat Simmons,Ibrahim S. Abuzahriyeh,Erin Hong,Samara Erin Williams,Nathanael Harrison,Evan Huang,Eun Seok Bae,Alison N. Killilea,David G. Drubin,Ian A. Swinburne,Srigokul Upadhyayula,Eric Betzig
発行日 2025-05-23 15:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.IV, physics.bio-ph, q-bio.QM | Fourier-Based 3D Multistage Transformer for Aberration Correction in Multicellular Specimens はコメントを受け付けていません

An Example Safety Case for Safeguards Against Misuse

要約

AI誤用セーフガードの既存の評価は、実際の決定に接続することがしばしば困難な証拠のパッチワークを提供します。
このギャップを埋めるために、AIアシスタントがもたらすリスクを低レベルに減らす保護を誤用するというエンドツーエンドの議論(「安全ケース」)について説明します。
最初に、仮想開発者の赤チームがどのように保護するかを説明し、それらを回避するために必要な努力を推定します。
次に、開発者はこの推定値を定量的な「隆起モデル」にプラグインして、セーフガードによって導入された障壁をどの程度の障害を誤用するかを判断します(https://www.aimisusemodel.com/)。
この手順は、展開中のリスクの継続的な信号を提供し、開発者が新たな脅威に迅速に対応するのに役立ちます。
最後に、これらのコンポーネントを単純な安全ケースに結び付ける方法について説明します。
私たちの仕事は、AI誤用のリスクを厳密に正当化するための1つの具体的なパスを提供します。

要約(オリジナル)

Existing evaluations of AI misuse safeguards provide a patchwork of evidence that is often difficult to connect to real-world decisions. To bridge this gap, we describe an end-to-end argument (a ‘safety case’) that misuse safeguards reduce the risk posed by an AI assistant to low levels. We first describe how a hypothetical developer red teams safeguards, estimating the effort required to evade them. Then, the developer plugs this estimate into a quantitative ‘uplift model’ to determine how much barriers introduced by safeguards dissuade misuse (https://www.aimisusemodel.com/). This procedure provides a continuous signal of risk during deployment that helps the developer rapidly respond to emerging threats. Finally, we describe how to tie these components together into a simple safety case. Our work provides one concrete path — though not the only path — to rigorously justifying AI misuse risks are low.

arxiv情報

著者 Joshua Clymer,Jonah Weinbaum,Robert Kirk,Kimberly Mai,Selena Zhang,Xander Davies
発行日 2025-05-23 15:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | An Example Safety Case for Safeguards Against Misuse はコメントを受け付けていません

AI Literacy for Legal AI Systems: A practical approach

要約

法的AIシステムは、世界中の司法制度および法制度の展開者およびプロバイダーによってますます採用されており、さまざまなアプリケーションをサポートしています。
バイアスの削減、効率の向上、説明責任の向上などの潜在的な利益を提供しますが、大きなリスクをもたらし、機会と法的開発と展開の間の慎重なバランスが必要です。
AIリテラシーは、EU AI法に基づく法的要件であり、展開者とプロバイダー向けの倫理的AIの重要なイネーブラーであり、これを達成するためのツールになる可能性があります。
この記事では、「法的AIシステム」という用語を紹介し、AIリテラシーの概念とこれらのシステムに関連する利点とリスクを分析します。
この分析は、法的AIシステムを扱う組織のより広範なAI-Lコンセプトにリンクされています。
記事の結果、開発者とプロバイダーがリスク、利益、利害関係者の懸念を評価するための実用的なツールとしてのロードマップアンケートは、法的AIに対する社会的および規制上の期待を満たすのに役立ちます。

要約(オリジナル)

Legal AI systems are increasingly being adopted by judicial and legal system deployers and providers worldwide to support a range of applications. While they offer potential benefits such as reducing bias, increasing efficiency, and improving accountability, they also pose significant risks, requiring a careful balance between opportunities, and legal and ethical development and deployment. AI literacy, as a legal requirement under the EU AI Act and a critical enabler of ethical AI for deployers and providers, could be a tool to achieve this. The article introduces the term ‘legal AI systems’ and then analyzes the concept of AI literacy and the benefits and risks associated with these systems. This analysis is linked to a broader AI-L concept for organizations that deal with legal AI systems. The outcome of the article, a roadmap questionnaire as a practical tool for developers and providers to assess risks, benefits, and stakeholder concerns, could be useful in meeting societal and regulatory expectations for legal AI.

arxiv情報

著者 Gizem Gultekin-Varkonyi
発行日 2025-05-23 15:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.IR | AI Literacy for Legal AI Systems: A practical approach はコメントを受け付けていません

Training with Pseudo-Code for Instruction Following

要約

大規模な言語モデル(LLM)の能力の急速な進歩にもかかわらず、特に構成が関与している場合、比較的単純で明確な指示に従って困難を抱えています。
この論文では、モデルが擬似コードで表現されているときに指示に従うことができることを示唆する最近の研究からインスピレーションを得ています。
ただし、疑似コードプログラムを書くことは退屈であり、推論で使用するためにコード表現を作成するために少数のショットデモンストレーションを使用することは、LLMSの非専門家にとって不自然になる可能性があります。
これらの制限を克服するために、最終的な応答とともに擬似コードで再発現した命令を追加する命令調整データを備えた微調整LLMを提案します。
指導、数学、および常識的な推論に関連するタスクで構成される11ドル$ $ $ $ $ $で利用可能なベンチマークでトレーニングされたモデルを評価します。
5ドルの異なるモデルで厳格な実験を実施し、モデルが擬似コードで訓練されたときに指示に従うだけでなく、数学的および常識推論に関連する他のタスクに能力を保持していることがわかります。
具体的には、3ドルの相対的な利益(命令に従ったベンチマークで19ドル)の相対的なゲインと、すべてのタスクで最大14%の平均ゲインが観察されます。

要約(オリジナル)

Despite the rapid progress in the capabilities of Large Language Models (LLMs), they continue to have difficulty following relatively simple, unambiguous instructions, especially when compositions are involved. In this paper, we take inspiration from recent work that suggests that models may follow instructions better when they are expressed in pseudo-code. However, writing pseudo-code programs can be tedious and using few-shot demonstrations to craft code representations for use in inference can be unnatural for non-expert users of LLMs. To overcome these limitations, we propose fine-tuning LLMs with instruction-tuning data that additionally includes instructions re-expressed in pseudo-code along with the final response. We evaluate models trained using our method on $11$ publicly available benchmarks comprising of tasks related to instruction-following, mathematics, and common-sense reasoning. We conduct rigorous experiments with $5$ different models and find that not only do models follow instructions better when trained with pseudo-code, they also retain their capabilities on the other tasks related to mathematical and common sense reasoning. Specifically, we observe a relative gain of $3$–$19$% on instruction-following benchmark, and an average gain of upto 14% across all tasks.

arxiv情報

著者 Prince Kumar,Rudra Murthy,Riyaz Bhat,Danish Contractor
発行日 2025-05-23 15:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Training with Pseudo-Code for Instruction Following はコメントを受け付けていません

ExoGait-MS: Learning Periodic Dynamics with Multi-Scale Graph Network for Exoskeleton Gait Recognition

要約

現在の外骨格制御方法は、しばしばパーソナライズされた治療を提供する上で課題に直面しています。
標準化された歩行歩行は、患者の不快感や怪我さえもたらす可能性があります。
したがって、個々のユーザーの適応性、快適性、リハビリテーションの結果に直接影響するため、外骨格ロボットの有効性にはパーソナライズされた歩行が不可欠です。
エクソスケレトン支援療法および関連用途でのパーソナライズされた治療を可能にするために、調整された歩行制御を実装するためには、個人歩行の正確な認識が重要です。
歩行認識における重要な課題は、ステップの周波数やステップ長などの共同相乗によって引き起こされる微妙な歩行特徴の個人差を効果的に捉えることにあります。
この問題に取り組むために、潜在的なジョイント相乗パターンを特定するために、空間ドメインでマルチスケールのグローバル密度密度畳み込みネットワーク(GCN)を使用する新しいアプローチを提案します。
さらに、時間領域での歩行の周期的特性を効果的にキャプチャするための歩行非線形周期ダイナミクス学習モジュールを提案します。
個々の歩行認識タスクをサポートするために、完全性と信頼性の両方を保証する包括的な歩行データセットを構築しました。
実験結果は、このデータセットでこの方法が94.34%の印象的な精度を達成し、現在の最先端(SOTA)を3.77%上回ることを示しています。
この進歩は、外骨格療法における個別の歩行制御を強化するアプローチの可能性を強調しています。

要約(オリジナル)

Current exoskeleton control methods often face challenges in delivering personalized treatment. Standardized walking gaits can lead to patient discomfort or even injury. Therefore, personalized gait is essential for the effectiveness of exoskeleton robots, as it directly impacts their adaptability, comfort, and rehabilitation outcomes for individual users. To enable personalized treatment in exoskeleton-assisted therapy and related applications, accurate recognition of personal gait is crucial for implementing tailored gait control. The key challenge in gait recognition lies in effectively capturing individual differences in subtle gait features caused by joint synergy, such as step frequency and step length. To tackle this issue, we propose a novel approach, which uses Multi-Scale Global Dense Graph Convolutional Networks (GCN) in the spatial domain to identify latent joint synergy patterns. Moreover, we propose a Gait Non-linear Periodic Dynamics Learning module to effectively capture the periodic characteristics of gait in the temporal domain. To support our individual gait recognition task, we have constructed a comprehensive gait dataset that ensures both completeness and reliability. Our experimental results demonstrate that our method achieves an impressive accuracy of 94.34% on this dataset, surpassing the current state-of-the-art (SOTA) by 3.77%. This advancement underscores the potential of our approach to enhance personalized gait control in exoskeleton-assisted therapy.

arxiv情報

著者 Lijiang Liu,Junyu Shi,Yong Sun,Zhiyuan Zhang,Jinni Zhou,Shugen Ma,Qiang Nie
発行日 2025-05-23 15:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ExoGait-MS: Learning Periodic Dynamics with Multi-Scale Graph Network for Exoskeleton Gait Recognition はコメントを受け付けていません

LLM assisted web application functional requirements generation: A case study of four popular LLMs over a Mess Management System

要約

他の分野と同様に、大規模な言語モデル(LLM)は、ソフトウェア開発のさまざまな段階で開発者が必要なアーティファクトを生成するのを支援することにより、ソフトウェアエンジニアリングに大きな影響を与えました。
このホワイトペーパーでは、ユーザーケース、ビジネスルール、Webアプリケーションの共同ワークフローであるMess Management Systemを含む機能仕様を生成する際に、一般的なLLMS GPT、Claude、Gemini、およびDeepSeekのパフォーマンスを比較するケーススタディを紹介します。
この研究では、ゼロショットの迅速な問題ステートメントに対する参照仕様と比較して、構文的およびセマンティックな正しさ、一貫性、曖昧さ、および完全性の観点から、LLM生成のユースケース、ビジネスルール、および共同ワークフローの品質を評価しました。
我々の結果は、4つのLLMすべてが構文的かつ意味的に正しい、ほとんどが曖昧でないアーティファクトを指定できることを示唆しました。
それでも、それらは時々一貫性がなく、生成された仕様の完全性が大きく異なる場合があります。
ClaudeとGeminiはすべての参照ユースケースを生成し、Claudeは最も完全ではあるがやや冗長なユースケースの仕様を達成しました。
ワークフローを指定するために同様の結果が得られました。
ただし、4つのLLMすべてが関連するビジネスルールの生成に苦労し、DeepSeekは最も参照ルールを生成しますが、完全性が低くなりました。
全体として、クロードはより完全な仕様アーティファクトを生成しましたが、ジェミニは生成した仕様がより正確でした。

要約(オリジナル)

Like any other discipline, Large Language Models (LLMs) have significantly impacted software engineering by helping developers generate the required artifacts across various phases of software development. This paper presents a case study comparing the performance of popular LLMs GPT, Claude, Gemini, and DeepSeek in generating functional specifications that include use cases, business rules, and collaborative workflows for a web application, the Mess Management System. The study evaluated the quality of LLM generated use cases, business rules, and collaborative workflows in terms of their syntactic and semantic correctness, consistency, non ambiguity, and completeness compared to the reference specifications against the zero-shot prompted problem statement. Our results suggested that all four LLMs can specify syntactically and semantically correct, mostly non-ambiguous artifacts. Still, they may be inconsistent at times and may differ significantly in the completeness of the generated specification. Claude and Gemini generated all the reference use cases, with Claude achieving the most complete but somewhat redundant use case specifications. Similar results were obtained for specifying workflows. However, all four LLMs struggled to generate relevant Business Rules, with DeepSeek generating the most reference rules but with less completeness. Overall, Claude generated more complete specification artifacts, while Gemini was more precise in the specifications it generated.

arxiv情報

著者 Rashmi Gupta,Aditya K Gupta,Aarav Jain,Avinash C Pandey,Atul Gupta
発行日 2025-05-23 15:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | LLM assisted web application functional requirements generation: A case study of four popular LLMs over a Mess Management System はコメントを受け付けていません

SOCIA: An End-to-End Agentic Framework for Automated Cyber-Physical-Social Simulator Generation

要約

このペーパーでは、大規模な言語モデル(LLM)ベースのマルチエージェントシステムを活用する新しいエンドツーエンドのフレームワークである社会(サイバー哲学的インテリジェンスとエージェントのシミュレーションオーケストレーション)を紹介して、高忠実度のサイバー哲学(CPS)シミュレーターの生成を自動化します。
労働集約型のマニュアルシミュレーター開発と複雑なデータキャリブレーションの課題に対処するため、Sociaは、データ理解、コード生成、シミュレーション実行、反復評価フィードバックループなどのタスクについて専門的なエージェントを調整する集中オーケストレーションマネージャーを統合します。
マスク養子縁組行動シミュレーション(ソーシャル)、パーソナルモビリティ生成(物理的)、ユーザーモデリング(サイバー)などの多様なCPSタスク全体の経験的評価を通じて、社会は、人間の介入を減らした高フィ性のスケーラブルなシミュレーションを生成する能力を実証します。
これらの結果は、複雑なCPS現象を研究するためのスケーラブルなソリューションを提供する社会の可能性を強調しています

要約(オリジナル)

This paper introduces SOCIA (Simulation Orchestration for Cyber-physical-social Intelligence and Agents), a novel end-to-end framework leveraging Large Language Model (LLM)-based multi-agent systems to automate the generation of high-fidelity Cyber-Physical-Social (CPS) simulators. Addressing the challenges of labor-intensive manual simulator development and complex data calibration, SOCIA integrates a centralized orchestration manager that coordinates specialized agents for tasks including data comprehension, code generation, simulation execution, and iterative evaluation-feedback loops. Through empirical evaluations across diverse CPS tasks, such as mask adoption behavior simulation (social), personal mobility generation (physical), and user modeling (cyber), SOCIA demonstrates its ability to produce high-fidelity, scalable simulations with reduced human intervention. These results highlight SOCIA’s potential to offer a scalable solution for studying complex CPS phenomena

arxiv情報

著者 Yuncheng Hua,Ji Miao,Mehdi Jafari,Jianxiang Xie,Hao Xue,Flora D. Salim
発行日 2025-05-23 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.7 | SOCIA: An End-to-End Agentic Framework for Automated Cyber-Physical-Social Simulator Generation はコメントを受け付けていません

HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models

要約

大規模な言語モデル(LLM)はしばしば幻覚を生成し、文脈的に不正確または事実上正しくない出力を生成します。
HICDを紹介します。HICDは、幻覚を緩和するために対照的な解読のために幻覚を誘導するために設計された新しい方法です。
既存のコントラストデコード方法とは異なり、HICDは、モデルの予測に重要なヘッドを選択し、ヘッドを誘導するために重要なヘッドを選択し、これらの誘導ヘッドの注意を分散させることにより幻覚を誘導し、幻覚化された出力と元の出力を比較して最終結果を得ます。
私たちのアプローチは、コンテキストの完了、読解、質問への回答など、コンテキストの忠実さを必要とするタスクのパフォーマンスを大幅に向上させます。
また、正確な知識リコールを必要とするタスクの事実性を向上させます。
私たちの誘導性ヘッドの選択と注意分散法は、コントラストのデコード、他の幻覚を誘発する方法を上回るためのより「コントラスト効果のある」幻覚につながることを実証します。
私たちの調査結果は、幻覚を制御された方法で誘導し、幅広いタスクでのLLMSのパフォーマンスを向上させることにより、幻覚を減らすための有望な戦略を提供します。

要約(オリジナル)

Large Language Models (LLMs) often generate hallucinations, producing outputs that are contextually inaccurate or factually incorrect. We introduce HICD, a novel method designed to induce hallucinations for contrastive decoding to mitigate hallucinations. Unlike existing contrastive decoding methods, HICD selects attention heads crucial to the model’s prediction as inducing heads, then induces hallucinations by dispersing attention of these inducing heads and compares the hallucinated outputs with the original outputs to obtain the final result. Our approach significantly improves performance on tasks requiring contextual faithfulness, such as context completion, reading comprehension, and question answering. It also improves factuality in tasks requiring accurate knowledge recall. We demonstrate that our inducing heads selection and attention dispersion method leads to more ‘contrast-effective’ hallucinations for contrastive decoding, outperforming other hallucination-inducing methods. Our findings provide a promising strategy for reducing hallucinations by inducing hallucinations in a controlled manner, enhancing the performance of LLMs in a wide range of tasks.

arxiv情報

著者 Xinyan Jiang,Hang Ye,Yongxin Zhu,Xiaoying Zheng,Zikang Chen,Jun Gong
発行日 2025-05-23 15:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models はコメントを受け付けていません

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

要約

音楽の類似性検索は、ストリーミングプラットフォームの大規模なコレクションから関連するコンテンツを管理および探索するための基本です。
このペーパーでは、テキストの説明の自由な性質を活用して音楽の類似性モデリングを導く新しいクロスモーダルコントラスト学習フレームワークを紹介し、複雑な音楽関係を捉える際の伝統的なユニモーダルアプローチの制限に対処します。
高品質のテキスト音楽ペアのデータの希少性を克服するために、このペーパーでは、オンラインスクレイピングとLLMベースのプロンプトを組み合わせたデュアルソースデータ収集アプローチを紹介します。
Exten1Sive実験は、提案されたフレームワークが、Huawei Musicストリーミングプラットフォームでの客観的なメトリック、主観的評価、および実際のA/Bテストを通じて、既存のベンチマークよりも大幅なパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Music similarity retrieval is fundamental for managing and exploring relevant content from large collections in streaming platforms. This paper presents a novel cross-modal contrastive learning framework that leverages the open-ended nature of text descriptions to guide music similarity modeling, addressing the limitations of traditional uni-modal approaches in capturing complex musical relationships. To overcome the scarcity of high-quality text-music paired data, this paper introduces a dual-source data acquisition approach combining online scraping and LLM-based prompting, where carefully designed prompts leverage LLMs’ comprehensive music knowledge to generate contextually rich descriptions. Exten1sive experiments demonstrate that the proposed framework achieves significant performance improvements over existing benchmarks through objective metrics, subjective evaluations, and real-world A/B testing on the Huawei Music streaming platform.

arxiv情報

著者 Tristan Tsoi,Jiajun Deng,Yaolong Ju,Benno Weck,Holger Kirchhoff,Simon Lui
発行日 2025-05-23 15:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining はコメントを受け付けていません