Machine Learning in Biomechanics: Key Applications and Limitations in Walking, Running, and Sports Movements

要約

この章では、最近の有望な機械学習アプリケーションの概要、つまりポーズ推定、特徴推定、イベント検出、データ探索とクラスタリング、および自動分類、歩行(ウォーキングとランニング)およびスポーツバイオメカニクスの概要を説明します。
生体力学的ワークフローの課題に対処するための機械学習方法の可能性を調査し、対処する必要がある中心的な制限、つまりデータと注釈の可用性と説明可能性を強調し、歩行とスポーツの生体機械における機械学習の可能性を完全に活用するための学際的なアプローチの重要性を強調します。

要約(オリジナル)

This chapter provides an overview of recent and promising Machine Learning applications, i.e. pose estimation, feature estimation, event detection, data exploration & clustering, and automated classification, in gait (walking and running) and sports biomechanics. It explores the potential of Machine Learning methods to address challenges in biomechanical workflows, highlights central limitations, i.e. data and annotation availability and explainability, that need to be addressed, and emphasises the importance of interdisciplinary approaches for fully harnessing the potential of Machine Learning in gait and sports biomechanics.

arxiv情報

著者 Carlo Dindorf,Fabian Horst,Djordje Slijepčević,Bernhard Dumphart,Jonas Dully,Matthias Zeppelzauer,Brian Horsak,Michael Fröhlich
発行日 2025-03-05 18:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Machine Learning in Biomechanics: Key Applications and Limitations in Walking, Running, and Sports Movements はコメントを受け付けていません

PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning?

要約

このホワイトペーパーでは、ドメイン専用のトークン剤とチェーンオブシャートモデル(COT)の微調整により、LLMSと比較して数学的推論の競争力のあるパフォーマンスをもたらすドメイン特殊生成言語モデル(SLM)のドメイン固有の事前削除がゼロからかどうかを調べます。
第二に、このアプローチが環境的に持続可能であり、非常にコスト効率が高いかどうか?
これらの研究の質問に対処するために、数学に関する2億800万パラメーターの新規デコーダーのみの自動SLMであるParamanu-Ganitaを提示します。
Webページ、ソースコード、教科書、COTテンプラートのスタックフローQAペア、および米国がキュレーションされたLatexの数学的講義ノートで構成される混合数学コーパスで、4096のコンテキストサイズを使用して、170 A100時間、315億トークンでゼロから事前トレーニングを実行しました。
また、数学とコードの専門のBPEトークナイザーを訓練しました。
メタマスカデータセットでパラマヌガニタのCOT命令を提案し、実行しました。
私たちのモデルParamanu-Ganitaは、7B LLMの34倍少ないにもかかわらず、GSM8Kテスト精度メトリックでGenerist LLMSを約30%ポイント、さらには数学専門化されたLLMを3〜23%ポイント上回ることができます。
数学ベンチマークでは、Paramanu-Ganitaはさまざまなモデルを6〜8%ポイント上回りました。
Logiqa、MMLU(高校、大学レベル)、競争試験レベル、Agieval(Aqua-Rat、Sat-Math)などのベンチマークでは、Paramanu-Ganitaは他の人を1〜4%上回りました。
私たちのモデルは、https://huggingface.co/gyanai/paramanu-ganita-208m-hfで入手できます。

要約(オリジナル)

In this paper, we study whether domain specific pretraining of small generative language models (SLM) from scratch with domain specialized tokenizer and Chain-of-Thought (CoT) instruction fine-tuning results in competitive performance on mathematical reasoning compared to LLMs? Secondly, whether this approach is environmentally sustainable, highly cost efficient? To address these research questions, we present Paramanu-Ganita, a 208 million-parameter novel decoder-only Auto Regressive SLM on mathematics. We performed pretraining from scratch on 31.5 billion tokens for 170 A100 hours using a context size of 4096 on a mixed mathematical corpus consisting of web pages, source code, textbooks, CoT templatised StackOverflow QA pairs, and mathematical lecture notes in LaTeX curated by us. We also trained a math and code specialised BPE tokenizer. We proposed and performed CoT instruction fine-tuning of Paramanu-Ganita on the MetaMathQA dataset. Our model Paramanu-Ganita, despite being 34 times smaller than the 7B LLMs, outperforms generalist LLMs by approximately 30% points, and even math-specialised LLMs by 3-23% points in GSM8K test accuracy metric. On MATH benchmark, Paramanu-Ganita outperformed the various models by 6-8% points. On benchmarks like LogiQA, MMLU (high school, college level), and competitive exams level, AGIEVAL (AQuA-RAT, SAT-Math), Paramanu-Ganita outperformed others by 1-4%. Our model is available at https://huggingface.co/gyanai/paramanu-ganita-208M-hf .

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2025-03-05 18:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning? はコメントを受け付けていません

Deep Causal Behavioral Policy Learning: Applications to Healthcare

要約

多様な非ランダム化医療環境で動的な臨床行動体制を研究するための深い学習ベースのアプローチを提示します。
提案された方法論 – 深い因果行動政策学習(DC -BPL) – は、深い学習アルゴリズムを使用して、高次元の臨床作用パスの分布を学習し、これらのアクションパスと患者の転帰との因果関係を特定します。
具体的には、私たちのアプローチ:(1)臨床結果に対するプロバイダーの割り当ての因果的影響を特定します。
(2)特定のプロバイダーが進化する患者情報を与えられた臨床作用の分布を学習します。
(3)これらの手順を組み合わせて、特定の患者タイプの最適なプロバイダーを識別し、そのプロバイダーのケアの決定をエミュレートします。
この戦略の根底にあるのは、変圧器アーキテクチャを使用して電子健康記録データに関する大規模な臨床行動モデル(LCBM)を訓練し、臨床行動政策を推定する能力を実証します。
LCBMを使用して学んだ行動政策の新しい解釈を提案します。それは、患者の治療に使用される複雑で、しばしば暗黙の知識の効率的なエンコードであるということです。
これにより、幅広いヘルスケアアプリケーションにとって重要なポリシーのスペースを学ぶことができます。これにより、臨床知識の大部分が長年の実践を通じて暗黙のうちに獲得され、患者ケアに関連するわずかな情報のみが書き留められています(教科書、研究、標準化されたガイドラインなど)。

要約(オリジナル)

We present a deep learning-based approach to studying dynamic clinical behavioral regimes in diverse non-randomized healthcare settings. Our proposed methodology – deep causal behavioral policy learning (DC-BPL) – uses deep learning algorithms to learn the distribution of high-dimensional clinical action paths, and identifies the causal link between these action paths and patient outcomes. Specifically, our approach: (1) identifies the causal effects of provider assignment on clinical outcomes; (2) learns the distribution of clinical actions a given provider would take given evolving patient information; (3) and combines these steps to identify the optimal provider for a given patient type and emulate that provider’s care decisions. Underlying this strategy, we train a large clinical behavioral model (LCBM) on electronic health records data using a transformer architecture, and demonstrate its ability to estimate clinical behavioral policies. We propose a novel interpretation of a behavioral policy learned using the LCBM: that it is an efficient encoding of complex, often implicit, knowledge used to treat a patient. This allows us to learn a space of policies that are critical to a wide range of healthcare applications, in which the vast majority of clinical knowledge is acquired tacitly through years of practice and only a tiny fraction of information relevant to patient care is written down (e.g. in textbooks, studies or standardized guidelines).

arxiv情報

著者 Jonas Knecht,Anna Zink,Jonathan Kolstad,Maya Petersen
発行日 2025-03-05 18:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Deep Causal Behavioral Policy Learning: Applications to Healthcare はコメントを受け付けていません

Interactive Data Harmonization with LLM Agents

要約

データの調和は、多様なソースからのデータセットを統合することを伴う重要なタスクです。
この分野での長年の研究にもかかわらず、スキーマの不一致、用語の変化、データ収集の方法論の違いにより、時間がかかる挑戦的なタスクのままです。
このペーパーでは、専門家がデータを調和させ、プロセスを合理化できるようにするための手段として、エージェントデータの調和のケースを提示します。
LLMベースの推論、インタラクティブなユーザーインターフェイス、データ調和のプリミティブのライブラリを組み合わせて、データ調和パイプラインの合成を自動化するHarmoniaを紹介します。
臨床データ調和のシナリオでハーモニアを示します。ここでは、データセットを標準形式にマッピングする再利用可能なパイプラインをインタラクティブに作成するのに役立ちます。
最後に、課題と開かれた問題について議論し、ビジョンを前進させるための研究の方向性を提案します。

要約(オリジナル)

Data harmonization is an essential task that entails integrating datasets from diverse sources. Despite years of research in this area, it remains a time-consuming and challenging task due to schema mismatches, varying terminologies, and differences in data collection methodologies. This paper presents the case for agentic data harmonization as a means to both empower experts to harmonize their data and to streamline the process. We introduce Harmonia, a system that combines LLM-based reasoning, an interactive user interface, and a library of data harmonization primitives to automate the synthesis of data harmonization pipelines. We demonstrate Harmonia in a clinical data harmonization scenario, where it helps to interactively create reusable pipelines that map datasets to a standard format. Finally, we discuss challenges and open problems, and suggest research directions for advancing our vision.

arxiv情報

著者 Aécio Santos,Eduardo H. M. Pena,Roque Lopez,Juliana Freire
発行日 2025-03-05 18:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Interactive Data Harmonization with LLM Agents はコメントを受け付けていません

CDS: Data Synthesis Method Guided by Cognitive Diagnosis Theory

要約

大規模な言語モデル(LLM)は大きな進歩を達成していますが、タスクの複雑さとより高いパフォーマンス需要は、継続的な改善の必要性を強調しています。
いくつかのアプローチでは、評価結果に基づいて高度なLLMによって生成された合成データを使用してモデルを訓練します。
ただし、従来の評価方法は、LLMの詳細で細粒のプロファイルを提供することができず、データ統合のガイダンスが制限されています。
この論文では、認知診断合成(CDS)法を紹介します。これには、認知診断理論(CDT)に触発された診断プロセスが組み込まれ、評価結果を改良し、知識コンポーネントレベルでモデルプロファイルを特徴付けます。
これらの診断に基づいて、脱力感のあるデータ統合のための2つの診断合成戦略を提案します。
さらに、合成データの品質と多様性を改善するために、強化されたデータ増強と選択パイプラインを提示します。
いくつかのオープンソースモデルを使用した実験では、複数のベンチマークにわたって大幅な改善が示されており、コード生成が最大6.00%の改善、数学的推論が13.10%、学術試験で5.43%を達成しています。
コードとデータはGitHubで利用できます。

要約(オリジナル)

Large Language Models (LLMs) have achieved significant advancements, but the increasing complexity of tasks and higher performance demands highlight the need for continuous improvement. Some approaches utilize synthetic data generated by advanced LLMs based on evaluation results to train models. However, conventional evaluation methods fail to provide detailed, fine-grained profiles of LLMs, limiting their guidance for data synthesis. In this paper, we introduce the Cognitive Diagnostic Synthesis (CDS) method, which incorporates a diagnostic process inspired by Cognitive Diagnosis Theory (CDT) to refine evaluation results and characterize model profiles at the knowledge component level. Based on these diagnostics, we propose two diagnosis-synthesis strategies for weakness-targeted data synthesis. Additionally, we present an enhanced data augmentation and selection pipeline to improve the quality and diversity of synthesized data. Our experiments with several open-source models show significant improvements across multiple benchmarks, achieving up to 6.00% improvement in code generation, 13.10% in mathematical reasoning, and 5.43% in academic exams. Code and data are available on GitHub.

arxiv情報

著者 Haokun Zhao,Jinyi Han,Jiaqing Liang,Yanghua Xiao
発行日 2025-03-05 18:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | CDS: Data Synthesis Method Guided by Cognitive Diagnosis Theory はコメントを受け付けていません

CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning

要約

Visual Language Models(VLMS)の進歩により、モバイルデバイスの操作が強化されており、シミュレートされた人間のようなアクションがユーザーの要件に対処することができます。
現在のVLMベースのモバイルオペレーティングアシスタントは、タスク、サブタスク、アクションの3つのレベルに構成できます。
高レベルの目標を低レベルの実行可能アクションにリンクするサブタスクレベルは、タスクの完了に重要ですが、2つの課題に直面しています。低レベルのエージェントが実行できない効果のないサブタスクは、高レベルのタスクの完了に貢献できない非効率的なサブタスクです。
これらの課題は、マルチエージェントアーキテクチャのGUIシナリオ内でサブタスクを分解する際のVLMの経験の欠如に起因しています。
これらに対処するために、制約された高周波o} ptimized計画(CHOP)を備えた新しいモバイルアシスタントアーキテクチャを提案します。
私たちのアプローチは、人間が計画したサブタスクを基底ベクトルとして使用することにより、GUIシナリオ計画におけるVLMの欠陥を克服します。
私たちは、20のアプリにわたって英語と中国の両方のコンテキストでアーキテクチャを評価し、有効性と効率の両方の大幅な改善を示しています。
データセットとコードはhttps://github.com/yuqi-zhou/chopで入手できます

要約(オリジナル)

The advancement of visual language models (VLMs) has enhanced mobile device operations, allowing simulated human-like actions to address user requirements. Current VLM-based mobile operating assistants can be structured into three levels: task, subtask, and action. The subtask level, linking high-level goals with low-level executable actions, is crucial for task completion but faces two challenges: ineffective subtasks that lower-level agent cannot execute and inefficient subtasks that fail to contribute to the completion of the higher-level task. These challenges stem from VLM’s lack of experience in decomposing subtasks within GUI scenarios in multi-agent architecture. To address these, we propose a new mobile assistant architecture with constrained high-frequency o}ptimized planning (CHOP). Our approach overcomes the VLM’s deficiency in GUI scenarios planning by using human-planned subtasks as the basis vector. We evaluate our architecture in both English and Chinese contexts across 20 Apps, demonstrating significant improvements in both effectiveness and efficiency. Our dataset and code is available at https://github.com/Yuqi-Zhou/CHOP

arxiv情報

著者 Yuqi Zhou,Shuai Wang,Sunhao Dai,Qinglin Jia,Zhaocheng Du,Zhenhua Dong,Jun Xu
発行日 2025-03-05 18:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning はコメントを受け付けていません

Process-based Self-Rewarding Language Models

要約

大規模な言語モデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを実証しており、複数のシナリオで広く適用されています。
人間が解決した選好データは、人間のパフォーマンスの上限によって制約されるLLMSのパフォーマンスをさらに向上させるためにトレーニングに使用されます。
したがって、LLMSが独自の出力に報いることによりトレーニングデータを生成する自己報酬方法が提案されています。
ただし、既存の自己報酬のパラダイムは、数学的推論シナリオでは効果的ではなく、パフォーマンスの低下につながる可能性さえあります。
この作業では、言語モデル向けのプロセスベースの自己報酬パイプラインを提案します。これは、自己報酬パラダイム内で、長期にわたる推論、段階的なLLM-As-a-a-a-a-a-a-a-a-a-a-a-a-a-judge、および段階的な選好最適化を導入します。
私たちの新しいパラダイムは、複数の数学的推論ベンチマークでのLLMSのパフォーマンスを正常に強化し、反復プロセスベースの自己報酬を介して、人間の能力を上回るLLM推論を達成するための自己報酬の計り知れない可能性を示しています。

要約(オリジナル)

Large Language Models have demonstrated outstanding performance across various downstream tasks and have been widely applied in multiple scenarios. Human-annotated preference data is used for training to further improve LLMs’ performance, which is constrained by the upper limit of human performance. Therefore, Self-Rewarding method has been proposed, where LLMs generate training data by rewarding their own outputs. However, the existing self-rewarding paradigm is not effective in mathematical reasoning scenarios and may even lead to a decline in performance. In this work, we propose the Process-based Self-Rewarding pipeline for language models, which introduces long-thought reasoning, step-wise LLM-as-a-Judge, and step-wise preference optimization within the self-rewarding paradigm. Our new paradigm successfully enhances the performance of LLMs on multiple mathematical reasoning benchmarks through iterative Process-based Self-Rewarding, demonstrating the immense potential of self-rewarding to achieve LLM reasoning that may surpass human capabilities.

arxiv情報

著者 Shimao Zhang,Xiao Liu,Xin Zhang,Junxiao Liu,Zheheng Luo,Shujian Huang,Yeyun Gong
発行日 2025-03-05 18:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Process-based Self-Rewarding Language Models はコメントを受け付けていません

The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems

要約

大規模な言語モデル(LLM)がより有能でエージェントになるにつれて、出力に対する信頼の要件は大幅に増加しますが、同時に、モデルが目標を追求することを学ぶことを学ぶことができるという懸念が高まっています。
これらの懸念に対処するために、欺cept的な行動を緩和することを目的とした介入とともに、LLMSの「誠実さ」の概念を中心に一連の仕事が現れています。
ただし、誠実さの評価は現在非常に限られており、すべてのモデルへの大規模と適用性を組み合わせたベンチマークはありません。
さらに、誠実さを測定すると主張する多くのベンチマークは、実際には単に精度、つまりモデルの信念の正しさ – 変装を測定します。
この作業では、誠実さを直接測定するための大規模な人間収集データセットを導入し、正直さから初めて正確さを解くことができます。
LLMの多様なセットでは、より大きなモデルがベンチマークでより高い精度を得るが、より正直になることはないことがわかります。
驚くべきことに、ほとんどのフロンティアLLMは真実性のベンチマークで高いスコアを取得しますが、フロンティアLLMがそうするようにプレッシャーをかけたときに嘘をつく可能性が高いことを発見し、ベンチマークで誠実なスコアが低くなります。
表現工学の介入などの簡単な方法が誠実さを改善できることがわかります。
これらの結果は、LLMが信頼できることを保証するための堅牢な評価と効果的な介入の必要性の高まりを強調しています。

要約(オリジナル)

As large language models (LLMs) become more capable and agentic, the requirement for trust in their outputs grows significantly, yet at the same time concerns have been mounting that models may learn to lie in pursuit of their goals. To address these concerns, a body of work has emerged around the notion of ‘honesty’ in LLMs, along with interventions aimed at mitigating deceptive behaviors. However, evaluations of honesty are currently highly limited, with no benchmark combining large scale and applicability to all models. Moreover, many benchmarks claiming to measure honesty in fact simply measure accuracy–the correctness of a model’s beliefs–in disguise. In this work, we introduce a large-scale human-collected dataset for measuring honesty directly, allowing us to disentangle accuracy from honesty for the first time. Across a diverse set of LLMs, we find that while larger models obtain higher accuracy on our benchmark, they do not become more honest. Surprisingly, while most frontier LLMs obtain high scores on truthfulness benchmarks, we find a substantial propensity in frontier LLMs to lie when pressured to do so, resulting in low honesty scores on our benchmark. We find that simple methods, such as representation engineering interventions, can improve honesty. These results underscore the growing need for robust evaluations and effective interventions to ensure LLMs remain trustworthy.

arxiv情報

著者 Richard Ren,Arunim Agarwal,Mantas Mazeika,Cristina Menghini,Robert Vacareanu,Brad Kenstler,Mick Yang,Isabelle Barrass,Alice Gatti,Xuwang Yin,Eduardo Trevino,Matias Geralnik,Adam Khoja,Dean Lee,Summer Yue,Dan Hendrycks
発行日 2025-03-05 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems はコメントを受け付けていません

LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models

要約

AIGCの時代には、拡散モデルの低予算またはデバイス上のアプリケーションの需要が現れました。
安定した拡散モデル(SDMS)を圧縮するという点では、いくつかのアプローチが提案されており、それらのほとんどは、より小さなUネットを取得するために手作りの層除去方法を活用し、ネットワークパフォーマンスを回復するための知識の蒸留とともに。
ただし、このような手作りの層除去方法は非効率的であり、スケーラビリティと一般化が欠けており、再訓練フェーズで採用されている特徴の蒸留は、いくつかの数値的に有意な特徴損失項が再訓練プロセス全体を通して他の人よりも支配的な不均衡の問題に直面しています。
この目的のために、拡散モデルを圧縮するための層の剪定と正規化された蒸留を提案しました(ラップトップディフ)。
1)SDMのu-netを自動的に圧縮するレイヤープルーニング法を導入し、その優れた添加剤のプロパティによって1ショットのパフォーマンスが保証され、他のレイヤー剪定と手作りの層除去方法を上回る効果的なワンショット剪定基準を提案しました。
提案されたラップトップディフを使用して、SDXLとSDM-V1.5のUネットを最先端のパフォーマンスで圧縮し、50%の剪定比でピックスコアの最小4.0%の低下を達成し、比較方法の最小ピックスコアの減少は8.2%です。

要約(オリジナル)

In the era of AIGC, the demand for low-budget or even on-device applications of diffusion models emerged. In terms of compressing the Stable Diffusion models (SDMs), several approaches have been proposed, and most of them leveraged the handcrafted layer removal methods to obtain smaller U-Nets, along with knowledge distillation to recover the network performance. However, such a handcrafting manner of layer removal is inefficient and lacks scalability and generalization, and the feature distillation employed in the retraining phase faces an imbalance issue that a few numerically significant feature loss terms dominate over others throughout the retraining process. To this end, we proposed the layer pruning and normalized distillation for compressing diffusion models (LAPTOP-Diff). We, 1) introduced the layer pruning method to compress SDM’s U-Net automatically and proposed an effective one-shot pruning criterion whose one-shot performance is guaranteed by its good additivity property, surpassing other layer pruning and handcrafted layer removal methods, 2) proposed the normalized feature distillation for retraining, alleviated the imbalance issue. Using the proposed LAPTOP-Diff, we compressed the U-Nets of SDXL and SDM-v1.5 for the most advanced performance, achieving a minimal 4.0% decline in PickScore at a pruning ratio of 50% while the comparative methods’ minimal PickScore decline is 8.2%.

arxiv情報

著者 Dingkun Zhang,Sijia Li,Chen Chen,Qingsong Xie,Haonan Lu
発行日 2025-03-05 13:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models はコメントを受け付けていません

Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation

要約

参照ビデオオブジェクトセグメンテーションは、自然言語プロンプトを使用してビデオ内のターゲットオブジェクトをセグメント化および追跡することを目的としています。
既存の方法は通常、視覚的およびテキストの特徴を非常に絡み合った方法で融合し、マルチモーダル情報を一緒に処理して、フレームごとのマスクを生成します。
ただし、このアプローチは、特に複数の同様のオブジェクトを持つシーンでは、曖昧なターゲット識別に苦労していることが多く、フレーム全体で一貫したマスク伝播を確保できません。
これらの制限に対処するために、ターゲットの識別をマスク伝播から分離する新しい分離フレームワークであるFindTrackを紹介します。
FindTrackは、最初にセグメンテーションの信頼性とビジョンテキストアラインメントのバランスをとることにより、キーフレームを適応的に選択し、ターゲットオブジェクトの堅牢な参照を確立します。
この参照は、専用の伝播モジュールによって使用され、ビデオ全体でオブジェクトを追跡およびセグメント化します。
これらのプロセスを切り離すことにより、FindTrackはターゲット関連の曖昧さを効果的に減らし、セグメンテーションの一貫性を高めます。
FindTrackがパブリックベンチマーク上の既存の方法を上回ることを実証します。

要約(オリジナル)

Referring video object segmentation aims to segment and track a target object in a video using a natural language prompt. Existing methods typically fuse visual and textual features in a highly entangled manner, processing multi-modal information together to generate per-frame masks. However, this approach often struggles with ambiguous target identification, particularly in scenes with multiple similar objects, and fails to ensure consistent mask propagation across frames. To address these limitations, we introduce FindTrack, a novel decoupled framework that separates target identification from mask propagation. FindTrack first adaptively selects a key frame by balancing segmentation confidence and vision-text alignment, establishing a robust reference for the target object. This reference is then utilized by a dedicated propagation module to track and segment the object across the entire video. By decoupling these processes, FindTrack effectively reduces ambiguities in target association and enhances segmentation consistency. We demonstrate that FindTrack outperforms existing methods on public benchmarks.

arxiv情報

著者 Suhwan Cho,Seunghoon Lee,Minhyeok Lee,Jungho Lee,Sangyoun Lee
発行日 2025-03-05 13:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation はコメントを受け付けていません