The Emperor’s New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination

要約

ベンチマークデータ汚染(BDC) – トレーニングセットにベンチマークテストサンプルを含めると、大規模な言語モデル(LLM)評価の懸念が高まり、パフォーマンスの推定値が誤って膨らんで評価の信頼性を損ないました。
これに対処するために、研究者は、元の質問を変更したり、それらに基づいて新しい質問を生成したりするなど、既存のベンチマークを更新するためのさまざまな緩和戦略を提案しました。
ただし、これらの緩和戦略の有効性の厳密な調査は依然として欠けています。
このペーパーでは、既存のBDC緩和戦略の細かく包括的な評価を提供するために、2つの新しいメトリックの忠実度と汚染抵抗性とともに、体系的で制御されたパイプラインを設計します。
精度の低下や精度マッチングなどの以前の評価方法は、総精度のみに焦点を当て、多くの場合、不完全または誤解を招く結論につながります。
私たちのメトリックは、質問レベルの評価結果マッチングを強調することにより、この制限に対処します。
10 LLMS、5つのベンチマーク、20のBDC緩和戦略、および2つの汚染シナリオを使用した広範な実験により、既存の戦略がすべてのベンチマークにわたってバニラケース(つまり、ベンチマークの更新なし)に対する抵抗を大幅に改善しないことが明らかになり、忠実性と汚染抵抗は効果的にバランスをとることはありません。
これらの調査結果は、より効果的なBDC緩和戦略を設計するための緊急の必要性を強調しています。
当社のコードリポジトリは、https://github.com/astral-group/bdc_mitigation_assessmentで入手できます。

要約(オリジナル)

Benchmark Data Contamination (BDC)-the inclusion of benchmark testing samples in the training set-has raised increasing concerns in Large Language Model (LLM) evaluation, leading to falsely inflated performance estimates and undermining evaluation reliability. To address this, researchers have proposed various mitigation strategies to update existing benchmarks, including modifying original questions or generating new ones based on them. However, a rigorous examination of the effectiveness of these mitigation strategies remains lacking. In this paper, we design a systematic and controlled pipeline along with two novel metrics-fidelity and contamination resistance-to provide a fine-grained and comprehensive assessment of existing BDC mitigation strategies. Previous assessment methods, such as accuracy drop and accuracy matching, focus solely on aggregate accuracy, often leading to incomplete or misleading conclusions. Our metrics address this limitation by emphasizing question-level evaluation result matching. Extensive experiments with 10 LLMs, 5 benchmarks, 20 BDC mitigation strategies, and 2 contamination scenarios reveal that no existing strategy significantly improves resistance over the vanilla case (i.e., no benchmark update) across all benchmarks, and none effectively balances fidelity and contamination resistance. These findings underscore the urgent need for designing more effective BDC mitigation strategies. Our code repository is available at https://github.com/ASTRAL-Group/BDC_mitigation_assessment.

arxiv情報

著者 Yifan Sun,Han Wang,Dongbai Li,Gang Wang,Huan Zhang
発行日 2025-03-20 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Emperor’s New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination はコメントを受け付けていません

Survey on Evaluation of LLM-based Agents

要約

LLMベースのエージェントの出現は、AIのパラダイムシフトを表し、自律システムが動的環境との相互作用中にメモリを計画、推論、使用し、維持できるようにします。
このホワイトペーパーでは、これらのますます能力のあるエージェントの評価方法に関する最初の包括的な調査を提供します。
4つの重要な次元にわたって評価ベンチマークとフレームワークを体系的に分析します。(1)計画、ツールの使用、自己反省、メモリを含む基本的なエージェント機能。
(2)Web、ソフトウェアエンジニアリング、科学、および会話エージェントのアプリケーション固有のベンチマーク。
(3)ジェネラリストエージェントのベンチマーク。
(4)エージェントを評価するためのフレームワーク。
私たちの分析では、継続的に更新されたベンチマークを使用した、より現実的で挑戦的な評価への移行など、新たな傾向が明らかになりました。
また、将来の研究が、費用効率、安全性、堅牢性の評価、および細粒のスケーラブルな評価方法の開発において、特に対処しなければならないという重要なギャップを特定します。
この調査では、エージェント評価の急速に進化する景観をマッピングし、現場の新たな傾向を明らかにし、現在の制限を特定し、将来の研究の方向性を提案します。

要約(オリジナル)

The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

arxiv情報

著者 Asaf Yehudai,Lilach Eden,Alan Li,Guy Uziel,Yilun Zhao,Roy Bar-Haim,Arman Cohan,Michal Shmueli-Scheuer
発行日 2025-03-20 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Survey on Evaluation of LLM-based Agents はコメントを受け付けていません

RESFL: An Uncertainty-Aware Framework for Responsible Federated Learning by Balancing Privacy, Fairness and Utility in Autonomous Vehicles

要約

自動運転車(AVS)は、プライバシーを維持しながら知覚モデルを強化するために、フェデレートラーニング(FL)にますます依存しています。
ただし、既存のFLフレームワークは、プライバシー、公平性、堅牢性のバランスをとるのに苦労しており、人口統計グループ全体でパフォーマンスの格差につながります。
プライバシーの差動プライバシーなどのプライバシーを提供する手法は、データの漏れリスクを軽減しますが、バイアス修正に必要な機密属性へのアクセスを制限することにより公平性を悪化させます。
この作業では、AVSのFLベースのオブジェクト検出のプライバシーと公平性のトレードオフを調査し、両方を最適化する統合ソリューションであるRESFLを導入します。
RESFLには、敵対的なプライバシーの解体と不確実性ガイド付きの公平性に付与された集約が組み込まれています。
敵対的なコンポーネントは、勾配反転層を使用して機密属性を除去し、公平性を維持しながらプライバシーリスクを減らします。
不確実性が認識している集合体は、証拠的なニューラルネットワークを採用してクライアントの更新を適応的に重み付けし、公平性の格差とより高い信頼を備えた貢献を優先します。
これにより、堅牢で公平なFLモデルの更新が保証されます。
ファセットデータセットとカーラシミュレーターのRESFLを評価し、さまざまな条件下での精度、公平性、プライバシーの回復力、堅牢性を評価します。
RESFLは、検出の精度を向上させ、公平性の格差を減らし、プライバシー攻撃の成功率を低下させ、他のアプローチと比較して敵対的な状態に対する優れた堅牢性を示します。

要約(オリジナル)

Autonomous vehicles (AVs) increasingly rely on Federated Learning (FL) to enhance perception models while preserving privacy. However, existing FL frameworks struggle to balance privacy, fairness, and robustness, leading to performance disparities across demographic groups. Privacy-preserving techniques like differential privacy mitigate data leakage risks but worsen fairness by restricting access to sensitive attributes needed for bias correction. This work explores the trade-off between privacy and fairness in FL-based object detection for AVs and introduces RESFL, an integrated solution optimizing both. RESFL incorporates adversarial privacy disentanglement and uncertainty-guided fairness-aware aggregation. The adversarial component uses a gradient reversal layer to remove sensitive attributes, reducing privacy risks while maintaining fairness. The uncertainty-aware aggregation employs an evidential neural network to weight client updates adaptively, prioritizing contributions with lower fairness disparities and higher confidence. This ensures robust and equitable FL model updates. We evaluate RESFL on the FACET dataset and CARLA simulator, assessing accuracy, fairness, privacy resilience, and robustness under varying conditions. RESFL improves detection accuracy, reduces fairness disparities, and lowers privacy attack success rates while demonstrating superior robustness to adversarial conditions compared to other approaches.

arxiv情報

著者 Dawood Wasif,Terrence J. Moore,Jin-Hee Cho
発行日 2025-03-20 15:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, cs.ET, cs.LG | RESFL: An Uncertainty-Aware Framework for Responsible Federated Learning by Balancing Privacy, Fairness and Utility in Autonomous Vehicles はコメントを受け付けていません

M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation

要約

Markov Map Beost Neighbor(M2N2V2)を提示します。これは、監督なしでトレーニングのないポイントプロムベースベースのインタラクティブセグメンテーションのための深さガイダンスと注意マップを活用する斬新でシンプルで効果的なアプローチです。
監視されたマルチモーダルアプローチの最近の傾向に続いて、深さを追加のモダリティとして慎重に統合して、新しい深度誘導マルコフマップを作成します。
さらに、インタラクティブプロセス中にM2N2のセグメントサイズの変動が時々観察され、MIOU全体を減少させる可能性があります。
この問題を軽減するために、プロンプトを順次プロセスとしてモデル化し、不当なセグメントサイズの変更を防ぐために、以前のセグメンテーションと現在のプロンプトポイントを考慮する新しい適応スコア関数を提案します。
安定した拡散2と深さV2をバックボーンとして使用すると、提案されたM2N2V2が、医療ドメインを除くすべてのデータセットでM2N2と比較してクリック数(NOC)とMIOUの数を大幅に改善することを経験的に示します。
興味深いことに、私たちの監視されていないアプローチは、NOCメトリックのより挑戦的なDavisやHQSEG44KデータセットのSAMやSimpleClickなどの監視された方法と比較して、競争結果を達成し、監視されていない方法と監督なしの方法のギャップを減らします。

要約(オリジナル)

We present Markov Map Nearest Neighbor V2 (M2N2V2), a novel and simple, yet effective approach which leverages depth guidance and attention maps for unsupervised and training-free point-prompt-based interactive segmentation. Following recent trends in supervised multimodal approaches, we carefully integrate depth as an additional modality to create novel depth-guided Markov-maps. Furthermore, we observe occasional segment size fluctuations in M2N2 during the interactive process, which can decrease the overall mIoU’s. To mitigate this problem, we model the prompting as a sequential process and propose a novel adaptive score function which considers the previous segmentation and the current prompt point in order to prevent unreasonable segment size changes. Using Stable Diffusion 2 and Depth Anything V2 as backbones, we empirically show that our proposed M2N2V2 significantly improves the Number of Clicks (NoC) and mIoU compared to M2N2 in all datasets except those from the medical domain. Interestingly, our unsupervised approach achieves competitive results compared to supervised methods like SAM and SimpleClick in the more challenging DAVIS and HQSeg44K datasets in the NoC metric, reducing the gap between supervised and unsupervised methods.

arxiv情報

著者 Markus Karmann,Peng-Tao Jiang,Bo Li,Onay Urfalioglu
発行日 2025-03-20 15:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation はコメントを受け付けていません

Benchmarking Large Language Models for Handwritten Text Recognition

要約

手書きのテキスト認識(HTR)の従来の機械学習モデル(HTR)は、監督されたトレーニングに依存しており、広範な手動注釈が必要であり、レイアウトとテキスト処理の分離によりエラーが発生することがよくあります。
対照的に、マルチモーダル大手言語モデル(MLLM)は、モデル固有のトレーニングを必要とせずに、多様な手書きスタイルを認識するための一般的なアプローチを提供します。
この調査では、Transkribusモデルに対してさまざまな独自およびオープンソースLLMをベンチマークし、英語、フランス語、ドイツ語、イタリア語で書かれた最新および歴史的データセットの両方でパフォーマンスを評価します。
さらに、以前に生成された出力を自律的に修正するモデルの能力のテストに重点が置かれています。
調査結果は、独自のモデル、特にクロード3.5ソネットが、ゼロショット設定でオープンソースの代替品を上回ることを示しています。
MLLMは、現代の手書きを認識する上で優れた結果を達成し、トレーニング前のデータセット構成のために英語の好みを示します。
Transkribusとの比較は、どちらのアプローチにも一貫した利点がないことを示しています。
さらに、LLMSは、ゼロショット転写のエラーを自律的に修正する限られた能力を示しています。

要約(オリジナル)

Traditional machine learning models for Handwritten Text Recognition (HTR) rely on supervised training, requiring extensive manual annotations, and often produce errors due to the separation between layout and text processing. In contrast, Multimodal Large Language Models (MLLMs) offer a general approach to recognizing diverse handwriting styles without the need for model-specific training. The study benchmarks various proprietary and open-source LLMs against Transkribus models, evaluating their performance on both modern and historical datasets written in English, French, German, and Italian. In addition, emphasis is placed on testing the models’ ability to autonomously correct previously generated outputs. Findings indicate that proprietary models, especially Claude 3.5 Sonnet, outperform open-source alternatives in zero-shot settings. MLLMs achieve excellent results in recognizing modern handwriting and exhibit a preference for the English language due to their pre-training dataset composition. Comparisons with Transkribus show no consistent advantage for either approach. Moreover, LLMs demonstrate limited ability to autonomously correct errors in zero-shot transcriptions.

arxiv情報

著者 Giorgia Crosilla,Lukas Klic,Giovanni Colavizza
発行日 2025-03-20 15:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking Large Language Models for Handwritten Text Recognition はコメントを受け付けていません

Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals

要約

Vision-Language Models(VLMS)は、画像処理を統合することにより、大規模な言語モデルの機能を拡張しますが、人間のバイアスを再現して増幅する可能性について懸念が生じています。
研究は、これらのモデルが人口統計グループ全体でステレオタイプを永続させる方法を文書化していますが、ほとんどの作業はグループ内の違いではなく、グループ間バイアスに焦点を合わせています。
この研究では、均質性のバイアスを調査します。これは、グループを黒人アメリカ人よりも均一であると描写する傾向があり、人種的表現型の認識がVLMSの出力にどのように影響するかを調べます。
表現型が体系的に異なるコンピューター生成画像を使用して、VLMにこれらの個人に関するストーリーを生成するように促し、コンテンツの均一性を評価するためにテキストの類似性を測定しました。
私たちの調査結果は、3つの重要なパターンを明らかにしています。まず、VLMは、表現型が低い人と比較して、表現型が高い黒人の人については大幅に均質な物語を生成します。
第二に、黒人女性に関する物語は、テストされたすべてのモデルの黒人男性に関するものよりも一貫して均一性を示しています。
第三に、3つのVLMのうち2つで、この均一性バイアスは主に、表現型が黒人女性の内容の変動に強く影響するが、黒人男性には最小限の影響を与える顕著な相互作用によって駆動されます。
これらの結果は、交差性がAIに生成された表現をどのように形成し、人間の認識にバイアスを記録したステレオタイプ化の持続性を強調し、人種表現型の増加がステレオタイプ化の大きさと個別の表現の大きさにつながることを強調しています。

要約(オリジナル)

Vision-Language Models (VLMs) extend Large Language Models’ capabilities by integrating image processing, but concerns persist about their potential to reproduce and amplify human biases. While research has documented how these models perpetuate stereotypes across demographic groups, most work has focused on between-group biases rather than within-group differences. This study investigates homogeneity bias-the tendency to portray groups as more uniform than they are-within Black Americans, examining how perceived racial phenotypicality influences VLMs’ outputs. Using computer-generated images that systematically vary in phenotypicality, we prompted VLMs to generate stories about these individuals and measured text similarity to assess content homogeneity. Our findings reveal three key patterns: First, VLMs generate significantly more homogeneous stories about Black individuals with higher phenotypicality compared to those with lower phenotypicality. Second, stories about Black women consistently display greater homogeneity than those about Black men across all models tested. Third, in two of three VLMs, this homogeneity bias is primarily driven by a pronounced interaction where phenotypicality strongly influences content variation for Black women but has minimal impact for Black men. These results demonstrate how intersectionality shapes AI-generated representations and highlight the persistence of stereotyping that mirror documented biases in human perception, where increased racial phenotypicality leads to greater stereotyping and less individualized representation.

arxiv情報

著者 Messi H. J. Lee,Soyeon Jeon
発行日 2025-03-20 15:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals はコメントを受け付けていません

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

要約

ビデオ大規模な言語モデル(Videollms)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする機能を実証しています。
ただし、ビデオフレームからの数千の視覚トークンにより、Key-Value(KV)キャッシュはメモリ要件を大幅に増加させ、推論速度とメモリ使用量のボトルネックになります。
KVキャッシュ量子化は、この問題に対処するために広く使用されているアプローチです。
このホワイトペーパーでは、Videollmsの2ビットKV量子化はモデルのパフォーマンスをほとんど損なうことができないが、さらに低いビットでのKVキャッシュ量子化の限界は調査されていないことがわかります。
このギャップを埋めるために、KVキャッシュを2ビット未満に圧縮するためのプラグアンドプレイKVキャッシュ量子化方法であるVIDKVを導入します。
具体的には、(1)キーの場合、チャネル次元で混合精度の量子化戦略を提案します。ここでは、異常なチャネルの2ビット量子化と、通常のチャネルのFFTと組み合わせた1ビット量子化を実行します。
(2)価値については、精度とモデルのパフォーマンスの間のより良いトレードオフのために、ターゲットを絞った保存のためにセマンティックに顕著な視覚トークンを選択的にフィルタリングしながら、1.58ビットの量子化を実装します。
重要なことに、我々の調査結果は、Videollmsの価値キャッシュは、以前のKVキャッシュ量子化がLLMSの以前のKVキャッシュ量子化によって提案されているのではなく、チャネルごとのファッションで量子化されるべきであることを示唆しています。
経験的には、6つのベンチマーク上のLlava-ov-7bおよびqwen2.5-VL-7bでの広範な結果は、VIDKVがKVキャッシュを効果的に1.5ビットと1.58ビットの精度で効果的に圧縮し、FP16の対応物と比較してパフォーマンスの低下がほとんどないことを示しています。

要約(オリジナル)

Video large language models (VideoLLMs) have demonstrated the capability to process longer video inputs and enable complex reasoning and analysis. However, due to the thousands of visual tokens from the video frames, key-value (KV) cache can significantly increase memory requirements, becoming a bottleneck for inference speed and memory usage. KV cache quantization is a widely used approach to address this problem. In this paper, we find that 2-bit KV quantization of VideoLLMs can hardly hurt the model performance, while the limit of KV cache quantization in even lower bits has not been investigated. To bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization method to compress the KV cache to lower than 2 bits. Specifically, (1) for key, we propose a mixed-precision quantization strategy in the channel dimension, where we perform 2-bit quantization for anomalous channels and 1-bit quantization combined with FFT for normal channels; (2) for value, we implement 1.58-bit quantization while selectively filtering semantically salient visual tokens for targeted preservation, for a better trade-off between precision and model performance. Importantly, our findings suggest that the value cache of VideoLLMs should be quantized in a per-channel fashion instead of the per-token fashion proposed by prior KV cache quantization works for LLMs. Empirically, extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit precision with almost no performance drop compared to the FP16 counterparts.

arxiv情報

著者 Keda Tao,Haoxuan You,Yang Sui,Can Qin,Huan Wang
発行日 2025-03-20 15:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models はコメントを受け付けていません

Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data

要約

視覚的推論は、マルチモーダルの大手言語モデル(MLLM)にとって複雑なチャートクエリに対処するために重要ですが、高品質の根拠データは依然として不足しています。
既存の方法は、データ生成のためにレバレッジ(M)LLMSですが、直接プロンプトはしばしば限られた精度と多様性をもたらします。
このホワイトペーパーでは、\ textIT {Chain of Functions(cof)}を提案します。これは、データの正確さと多様性を確保するために監督として自由に実証された推論パスを利用する新しいプログラムの推論データ生成パイプラインです。
具体的には、原子機能(例:最大データと算術操作など)の間の人間のない探索から始まり、多様な関数チェーンを生成し、その後、中程度のオープンソース付きLLMのみの言語的理論的根拠と質問に翻訳されます。
\ textIT {cof}は複数の利点を提供します。1)精度:fenuct-governed生成は、フリーフォーム生成と比較して幻覚を減らします。
2)多様性:列挙機能チェーンは、さまざまな質問分類法を可能にします。
3)説明可能性:関数チェーンは組み込みの理論的根拠として機能し、全体的な精度を超えてきめ細かい評価を可能にします。
4)実用性:非常に大きなモデルへの依存を排除​​します。
\ textit {cof}を使用して、\ textit {chartcof}データセットを構築します。1.4kの複雑な推論q \&&aは、微調整された分析のために、50k q \&aを推論強化にします。
\ textIT {chartcof}の微細に粒度の評価は、各MLLMの質問分類法にわたってさまざまなパフォーマンスを明らかにし、実験は、\ textit {chartcof}を使用した微調整が、広く使用されているベンチマークで同じスケールのMLLM間で最先端のパフォーマンスを達成することも示しています。
さらに、\ textit {cof}での機能統計根拠の生成の新しいパラダイムは、チャートを超えてより広範なアプリケーションを刺激する可能性があります。

要約(オリジナル)

Visual reasoning is crucial for multimodal large language models (MLLMs) to address complex chart queries, yet high-quality rationale data remains scarce. Existing methods leveraged (M)LLMs for data generation, but direct prompting often yields limited precision and diversity. In this paper, we propose \textit{Chain of Functions (CoF)}, a novel programmatic reasoning data generation pipeline that utilizes freely-explored reasoning paths as supervision to ensure data precision and diversity. Specifically, it starts with human-free exploration among the atomic functions (e.g., maximum data and arithmetic operations) to generate diverse function chains, which are then translated into linguistic rationales and questions with only a moderate open-sourced LLM. \textit{CoF} provides multiple benefits: 1) Precision: function-governed generation reduces hallucinations compared to freeform generation; 2) Diversity: enumerating function chains enables varied question taxonomies; 3) Explainability: function chains serve as built-in rationales, allowing fine-grained evaluation beyond overall accuracy; 4) Practicality: eliminating reliance on extremely large models. Employing \textit{CoF}, we construct the \textit{ChartCoF} dataset, with 1.4k complex reasoning Q\&A for fine-grained analysis and 50k Q\&A for reasoning enhancement. The fine-grained evaluation on \textit{ChartCoF} reveals varying performance across question taxonomies for each MLLM, and the experiments also show that finetuning with \textit{ChartCoF} achieves state-of-the-art performance among same-scale MLLMs on widely used benchmarks. Furthermore, the novel paradigm of function-governed rationale generation in \textit{CoF} could inspire broader applications beyond charts.

arxiv情報

著者 Zijian Li,Jingjing Fu,Lei Song,Jiang Bian,Jun Zhang,Rui Wang
発行日 2025-03-20 15:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data はコメントを受け付けていません

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

要約

スケルトンベースのアクション認識では、重要な課題は、骨格表現に画像レベルの詳細がないため、ジョイントの同様の軌跡を持つアクションを区別することです。
同様のアクションの区別は、特定の身体部分の微妙な動きの詳細に依存していることを認識して、ローカルスケルトンコンポーネントのきめ細かい動きに焦点を合わせるようにアプローチを指示します。
この目的のために、スケルトンシーケンス全体のダイナミクスを破壊し、アクションユニットのコアモーションパターンを表す学習可能なプロトタイプの組み合わせに分解するグラフ畳み込みネットワーク(GCN)ベースのモデルであるProtoGCNを導入します。
プロトタイプの再構築とは対照的に、ProtoGCNは同様のアクションの識別表現を効果的に特定し、強化することができます。
ベルとホイッスルがなければ、ProtoGCNは、提案された方法の有効性を示すNTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton、FineGymなど、複数のベンチマークデータセットで最先端のパフォーマンスを達成します。
このコードは、https://github.com/firework8/protogcnで入手できます。

要約(オリジナル)

In skeleton-based action recognition, a key challenge is distinguishing between actions with similar trajectories of joints due to the lack of image-level details in skeletal representations. Recognizing that the differentiation of similar actions relies on subtle motion details in specific body parts, we direct our approach to focus on the fine-grained motion of local skeleton components. To this end, we introduce ProtoGCN, a Graph Convolutional Network (GCN)-based model that breaks down the dynamics of entire skeleton sequences into a combination of learnable prototypes representing core motion patterns of action units. By contrasting the reconstruction of prototypes, ProtoGCN can effectively identify and enhance the discriminative representation of similar actions. Without bells and whistles, ProtoGCN achieves state-of-the-art performance on multiple benchmark datasets, including NTU RGB+D, NTU RGB+D 120, Kinetics-Skeleton, and FineGYM, which demonstrates the effectiveness of the proposed method. The code is available at https://github.com/firework8/ProtoGCN.

arxiv情報

著者 Hongda Liu,Yunfan Liu,Min Ren,Hao Wang,Yunlong Wang,Zhenan Sun
発行日 2025-03-20 15:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition はコメントを受け付けていません

From Monocular Vision to Autonomous Action: Guiding Tumor Resection via 3D Reconstruction

要約

外科的自動化には、正確なガイダンスとシーンの理解が必要です。
文献の現在の方法は、かさばる深度カメラに依存して解剖学の地図を作成しますが、これは宇宙制限された臨床アプリケーションにうまく変換されません。
単眼カメラは小さく、狭いスペースでの低侵襲手術を許可しますが、3Dシーンの理解を生成するには追加の処理が必要です。
RGB画像のみを使用してターゲット解剖学のセグメント化されたポイントクラウドを作成する3Dマッピングパイプラインを提案します。
最も正確な再構成を確保するために、中央気道閉塞のマッピングに関するモーションアルゴリズムのパフォーマンスと異なる構造を比較し、腫瘍切除の下流タスクでパイプラインをテストします。
ポストプロークア編集モデルの評価を含むいくつかのメトリックでは、パイプラインはRGB-Dカメラと同等に機能し、場合によってはパフォーマンスを上回ります。
これらの有望な結果は、単眼カメラを使用した低侵襲手順で自動化ガイダンスが達成できることを示しています。
この研究は、手術ロボットの完全な自律性に向けた一歩です。

要約(オリジナル)

Surgical automation requires precise guidance and understanding of the scene. Current methods in the literature rely on bulky depth cameras to create maps of the anatomy, however this does not translate well to space-limited clinical applications. Monocular cameras are small and allow minimally invasive surgeries in tight spaces but additional processing is required to generate 3D scene understanding. We propose a 3D mapping pipeline that uses only RGB images to create segmented point clouds of the target anatomy. To ensure the most precise reconstruction, we compare different structure from motion algorithms’ performance on mapping the central airway obstructions, and test the pipeline on a downstream task of tumor resection. In several metrics, including post-procedure tissue model evaluation, our pipeline performs comparably to RGB-D cameras and, in some cases, even surpasses their performance. These promising results demonstrate that automation guidance can be achieved in minimally invasive procedures with monocular cameras. This study is a step toward the complete autonomy of surgical robots.

arxiv情報

著者 Ayberk Acar,Mariana Smith,Lidia Al-Zogbi,Tanner Watts,Fangjie Li,Hao Li,Nural Yilmaz,Paul Maria Scheikl,Jesse F. d’Almeida,Susheela Sharma,Lauren Branscombe,Tayfun Efe Ertop,Robert J. Webster III,Ipek Oguz,Alan Kuntz,Axel Krieger,Jie Ying Wu
発行日 2025-03-20 15:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | From Monocular Vision to Autonomous Action: Guiding Tumor Resection via 3D Reconstruction はコメントを受け付けていません