Characterizing AI Agents for Alignment and Governance

要約

AIエージェントに効果的なガバナンスメカニズムを作成するには、コアプロパティと、これらのプロパティが世界のエージェントの展開と運用を取り巻く質問にどのように関連するかをより深く理解する必要があります。
このペーパーでは、自律性、有効性、目標の複雑さ、一般性の4つの側面に焦点を当てたAIエージェントの特性評価を提供します。
各次元に異なるグラデーションを提案し、各ディメンションがこれらのシステムの設計、操作、ガバナンスに関するユニークな質問を提起すると主張します。
さらに、このフレームワークを利用して、さまざまな種類のAIエージェントの「エージェントプロファイル」を構築します。
これらのプロファイルは、狭いタスク固有のアシスタントから高度に自律的な汎用システムに至るまで、さまざまなクラスのAIエージェントによってもたらされるクロスカットの技術的および非技術的ガバナンスの課題を照らすのに役立ちます。
バリエーションと継続性の重要な軸をマッピングすることにより、このフレームワークは、開発者、政策立案者、および一般の人々に、集合的な社会的目標とより適合するガバナンスアプローチを開発する機会を提供します。

要約(オリジナル)

The creation of effective governance mechanisms for AI agents requires a deeper understanding of their core properties and how these properties relate to questions surrounding the deployment and operation of agents in the world. This paper provides a characterization of AI agents that focuses on four dimensions: autonomy, efficacy, goal complexity, and generality. We propose different gradations for each dimension, and argue that each dimension raises unique questions about the design, operation, and governance of these systems. Moreover, we draw upon this framework to construct ‘agentic profiles’ for different kinds of AI agents. These profiles help to illuminate cross-cutting technical and non-technical governance challenges posed by different classes of AI agents, ranging from narrow task-specific assistants to highly autonomous general-purpose systems. By mapping out key axes of variation and continuity, this framework provides developers, policymakers, and members of the public with the opportunity to develop governance approaches that better align with collective societal goals.

arxiv情報

著者 Atoosa Kasirzadeh,Iason Gabriel
発行日 2025-04-30 17:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SY, eess.SY | Characterizing AI Agents for Alignment and Governance はコメントを受け付けていません

Public Opinion and The Rise of Digital Minds: Perceived Risk, Trust, and Regulation Support

要約

ガバナンス機関は、生成AIによってもたらされるものを含む社会的リスクに対応する必要があります。
この研究では、制度とAI技術に対する公的信頼と、認識されたリスクとともに、AI規制の形を形成する方法を経験的に検討しています。
全国的に代表的な2023人工知能、道徳、およびセンティエンス(AIMS)調査を使用して、政府、AI企業、およびAI技術に対する信頼を評価し、AI開発や高度なAIの禁止などの規制措置に対する公的支援を評価します。
私たちの調査結果は、AI規制に対する幅広い一般的な支持を明らかにしており、リスク認識が政策選好を形成する上で重要な役割を果たしています。
政府の支持規制に対する信頼が高く、AI企業やAIテクノロジーへの信頼が大きい人は、制限をサポートする傾向が少ない。
政府への信頼と認識されたリスクは、ソフト(例えば、開発の鈍化)と強力な(例えば、AIシステムの禁止)規制介入の両方の好みを大幅に予測します。
これらの結果は、AIガバナンスにおける世論の重要性を強調しています。
AI能力が進むにつれて、効果的な規制では、機関への信頼を伴うリスクに関する一般の懸念のバランスをとる必要があります。
この研究は、AIガバナンスをナビゲートする政策立案者に基本的な経験的ベースラインを提供し、進化するAIの景観における国民の信頼、リスク認識、規制戦略のさらなる研究の必要性を強調しています。

要約(オリジナル)

Governance institutions must respond to societal risks, including those posed by generative AI. This study empirically examines how public trust in institutions and AI technologies, along with perceived risks, shape preferences for AI regulation. Using the nationally representative 2023 Artificial Intelligence, Morality, and Sentience (AIMS) survey, we assess trust in government, AI companies, and AI technologies, as well as public support for regulatory measures such as slowing AI development or outright bans on advanced AI. Our findings reveal broad public support for AI regulation, with risk perception playing a significant role in shaping policy preferences. Individuals with higher trust in government favor regulation, while those with greater trust in AI companies and AI technologies are less inclined to support restrictions. Trust in government and perceived risks significantly predict preferences for both soft (e.g., slowing development) and strong (e.g., banning AI systems) regulatory interventions. These results highlight the importance of public opinion in AI governance. As AI capabilities advance, effective regulation will require balancing public concerns about risks with trust in institutions. This study provides a foundational empirical baseline for policymakers navigating AI governance and underscores the need for further research into public trust, risk perception, and regulatory strategies in the evolving AI landscape.

arxiv情報

著者 Justin B. Bullock,Janet V. T. Pauketat,Hsini Huang,Yi-Fan Wang,Jacy Reese Anthis
発行日 2025-04-30 17:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | Public Opinion and The Rise of Digital Minds: Perceived Risk, Trust, and Regulation Support はコメントを受け付けていません

TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments

要約

目的:大規模な言語モデル(LLM)は臨床医を支援し、患者をサポートするために広く使用されていますが、標準的な診断インタビューと評価のための対話システムを調査した既存の研究はありません。
この研究の目的は、臨床医の行動を再現するLLM駆動の対話システムを開発することにより、メンタルヘルスケアのアクセシビリティのギャップを埋めることを目的としています。
材料と方法:信頼を導入します。これは、心的外傷後ストレス障害(PTSD)の正式な診断インタビューと評価を実施できる協同LLMモジュールの枠組みです。
適切な臨床反応の生成を導くために、臨床インタビューのために特別に設計された対話行為スキーマを提案します。
さらに、臨床医による時間のかかる費用のかかる手動検査に代わる、実際のインタビューの成績証明書に基づいた患者シミュレーションアプローチを開発します。
結果:評価メトリックの包括的なセットは、エージェントと患者のシミュレーションの両方の観点からダイアログシステムを評価するように設計されています。
会話と臨床専門家による専門家の評価は、信頼が実生活の臨床インタビューと同等に機能することを示しています。
ディスカッション:私たちのシステムは、平均的な臨床医のレベルで機能し、コミュニケーションスタイルと応答の適切性の将来の強化の余地があります。
結論:私たちの信頼フレームワークは、メンタルヘルスケアの利用可能性を促進する可能性を示しています。

要約(オリジナル)

Objectives: While Large Language Models (LLMs) have been widely used to assist clinicians and support patients, no existing work has explored dialogue systems for standard diagnostic interviews and assessments. This study aims to bridge the gap in mental healthcare accessibility by developing an LLM-powered dialogue system that replicates clinician behavior. Materials and Methods: We introduce TRUST, a framework of cooperative LLM modules capable of conducting formal diagnostic interviews and assessments for Post-Traumatic Stress Disorder (PTSD). To guide the generation of appropriate clinical responses, we propose a Dialogue Acts schema specifically designed for clinical interviews. Additionally, we develop a patient simulation approach based on real-life interview transcripts to replace time-consuming and costly manual testing by clinicians. Results: A comprehensive set of evaluation metrics is designed to assess the dialogue system from both the agent and patient simulation perspectives. Expert evaluations by conversation and clinical specialists show that TRUST performs comparably to real-life clinical interviews. Discussion: Our system performs at the level of average clinicians, with room for future enhancements in communication styles and response appropriateness. Conclusions: Our TRUST framework shows its potential to facilitate mental healthcare availability.

arxiv情報

著者 Sichang Tu,Abigail Powers,Stephen Doogan,Jinho D. Choi
発行日 2025-04-30 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments はコメントを受け付けていません

Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

要約

大規模な言語モデル(LLM)は、特に特定のアプリケーションに合わせて調整されながら固有の常識と推論能力を活用するために微調整された場合、具体的な人工知能の実世界の意思決定タスクに大きな約束を示しています。
ただし、この微調整プロセスは、特に安全性が批判的なサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらします。
この作業では、具体化されたAIにおけるLLMベースの意思決定システム(BALD)に対するバックドア攻撃の最初の包括的なフレームワークを提案し、攻撃面を体系的に調査し、メカニズムをトリガーします。
具体的には、LLMベースの意思決定パイプラインのさまざまなコンポーネントをターゲットにした、単語インジェクション、シナリオ操作、知識インジェクションの3つの異なる攻撃メカニズムを提案します。
自律運転およびホームロボットタスクで、代表的なLLMS(GPT-3.5、LLAMA2、PALM2、PALM2)の広範な実験を実施し、さまざまな攻撃チャネルにわたってバックドアトリガーの有効性とステルス性を実証します。
私たちの言葉と知識の注入攻撃は、システムへの限られたアクセスのみを必要としながら、複数のモデルとデータセットでほぼ100%の成功率を達成します。
当社のシナリオ操作攻撃により、成功率は65%を超え、最大90%に達し、ランタイムシステムの侵入は必要ありません。
また、防御に対するこれらの攻撃の堅牢性を評価し、それらの回復力を明らかにします。
私たちの調査結果は、具体化されたLLMシステムの重要なセキュリティの脆弱性を強調し、潜在的なリスクを軽減するためにこれらのシステムを保護する緊急の必要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown significant promise in real-world decision-making tasks for embodied artificial intelligence, especially when fine-tuned to leverage their inherent common sense and reasoning abilities while being tailored to specific applications. However, this fine-tuning process introduces considerable safety and security vulnerabilities, especially in safety-critical cyber-physical systems. In this work, we propose the first comprehensive framework for Backdoor Attacks against LLM-based Decision-making systems (BALD) in embodied AI, systematically exploring the attack surfaces and trigger mechanisms. Specifically, we propose three distinct attack mechanisms: word injection, scenario manipulation, and knowledge injection, targeting various components in the LLM-based decision-making pipeline. We perform extensive experiments on representative LLMs (GPT-3.5, LLaMA2, PaLM2) in autonomous driving and home robot tasks, demonstrating the effectiveness and stealthiness of our backdoor triggers across various attack channels, with cases like vehicles accelerating toward obstacles and robots placing knives on beds. Our word and knowledge injection attacks achieve nearly 100% success rate across multiple models and datasets while requiring only limited access to the system. Our scenario manipulation attack yields success rates exceeding 65%, reaching up to 90%, and does not require any runtime system intrusion. We also assess the robustness of these attacks against defenses, revealing their resilience. Our findings highlight critical security vulnerabilities in embodied LLM systems and emphasize the urgent need for safeguarding these systems to mitigate potential risks.

arxiv情報

著者 Ruochen Jiao,Shaoyuan Xie,Justin Yue,Takami Sato,Lixu Wang,Yixuan Wang,Qi Alfred Chen,Qi Zhu
発行日 2025-04-30 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems はコメントを受け付けていません

Fine-tuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition

要約

多くの機械学習タスクでは、大きな一般的なデータセットと小さな専門データセットが利用可能です。
このような状況では、さまざまなドメイン適応方法を使用して、一般的なモデルをターゲットデータセットに適応させることができます。
CTCを使用した手書き認識のために訓練されたニューラルネットワークの場合、このようなシナリオではデータ増強を備えた単純な微調整は驚くほどうまく機能し、非常に小さなターゲットドメインデータセットでも過剰適合に耐性があることを示します。
作家依存と作家に依存しない設定の両方で、増強、トレーニングデータサイズ、および事前に訓練されたネットワークの品質に関する微調整の動作を評価しました。
大規模な現実世界のデータセットでは、新しい作家の微調整により、16本のテキストラインで25%、256本のテキストラインで50%の平均相対CER改善が得られました。

要約(オリジナル)

In many machine learning tasks, a large general dataset and a small specialized dataset are available. In such situations, various domain adaptation methods can be used to adapt a general model to the target dataset. We show that in the case of neural networks trained for handwriting recognition using CTC, simple fine-tuning with data augmentation works surprisingly well in such scenarios and that it is resistant to overfitting even for very small target domain datasets. We evaluated the behavior of fine-tuning with respect to augmentation, training data size, and quality of the pre-trained network, both in writer-dependent and writer-independent settings. On a large real-world dataset, fine-tuning on new writers provided an average relative CER improvement of 25 % for 16 text lines and 50 % for 256 text lines.

arxiv情報

著者 Jan Kohút,Michal Hradiš
発行日 2025-04-30 12:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fine-tuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition はコメントを受け付けていません

Underwater Image Enhancement via Dehazing and Color Restoration

要約

水中の視覚イメージングは​​海洋工学にとって重要ですが、下流の分析を妨げるコントラスト、ぼやき、色の劣化が低いです。
既存の水中画像強化方法は、しばしばヘイズとカラーキャストを統一された分解プロセスとして扱い、相乗的な関係を見落としながら固有の独立性を無視します。
この制限を克服するために、水中の画質を改善するために、Vision Transformer(VIT)ベースのネットワーク(Waterformerと呼ばれる)を提案します。
Waterformerには、3つの主要なコンポーネントが含まれています。自己相関したヘイズ機能をキャプチャし、深いレベルの特徴を抽出するための脱ヘージブロック(Dehazeformerブロック)、自己相関カラーキャストの特徴をキャプチャするカラー修復ブロック(CRB)、およびこれらのデカップされた機能を動的に統合するチャネルフュージョンブロック(CFB)をキャプチャします。
信頼性を確保するために、水中イメージング物理学モデルに基づいたソフト再構成層が含まれています。
さらに、色の一貫性の損失とSOBELの色の損失は、それぞれ色の忠実度を維持し、ネットワークトレーニング中に構造の詳細を強化するように設計されています。
包括的な実験結果は、ウォーターフォーマーが水中画像を強化する他の最先端の方法を上回ることを示しています。

要約(オリジナル)

Underwater visual imaging is crucial for marine engineering, but it suffers from low contrast, blurriness, and color degradation, which hinders downstream analysis. Existing underwater image enhancement methods often treat the haze and color cast as a unified degradation process, neglecting their inherent independence while overlooking their synergistic relationship. To overcome this limitation, we propose a Vision Transformer (ViT)-based network (referred to as WaterFormer) to improve underwater image quality. WaterFormer contains three major components: a dehazing block (DehazeFormer Block) to capture the self-correlated haze features and extract deep-level features, a Color Restoration Block (CRB) to capture self-correlated color cast features, and a Channel Fusion Block (CFB) that dynamically integrates these decoupled features to achieve comprehensive enhancement. To ensure authenticity, a soft reconstruction layer based on the underwater imaging physics model is included. Further, a Chromatic Consistency Loss and Sobel Color Loss are designed to respectively preserve color fidelity and enhance structural details during network training. Comprehensive experimental results demonstrate that WaterFormer outperforms other state-of-the-art methods in enhancing underwater images.

arxiv情報

著者 Chengqin Wu,Shuai Yu,Tuyan Luo,Qiuhua Rao,Qingson Hu,Jingxiang Xu,Lijun Zhang
発行日 2025-04-30 12:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Underwater Image Enhancement via Dehazing and Color Restoration はコメントを受け付けていません

MeDSLIP: Medical Dual-Stream Language-Image Pre-training with Pathology-Anatomy Semantic Alignment

要約

病理と解剖学は、医療データにおけるセマンティクスの2つの重要なグループです。
病理学は病気が何であるかを説明し、解剖学は病気がどこで発生するかを説明します。
彼らは、さまざまな視点からの病気を説明し、病気に関する補完的な洞察を提供します。
したがって、これらのセマンティクスとそれらの関係を適切に理解することで、医学的視覚言語モデル(VLM)が強化されます。
ただし、病理学と解剖学のセマンティクスは通常、医療データに絡み合っており、VLMがこれらのセマンティクスとその関係を明示的にモデル化することを妨げます。
この課題に対処するために、私たちは、病理と解剖学のセマンティクスを解き放ち、それらの間の関係をモデル化するために、新しい医療デュアルストリーム言語イメージ前のパイプラインであるMedslipを提案します。
Medslipにデュアルストリームメカニズムを導入して、医療セマンティクスを病理に関連した解剖学に関連するストリームに明示的に解き放ち、各ストリーム内の視覚情報とテキスト情報を調整します。
さらに、病理学と解剖学的なセマンティクスの関係を正規化するためのプロトタイプの対照学習損失と対照的な学習損失を備えた相互作用モデリングモジュールを提案します。
Medslipを胸部X線分析に適用し、4つのベンチマークデータセットを使用して包括的な評価を実施します:NIH CXR14、RSNA肺炎、SIIM-Acr Pneumothorax、およびCovidx CXR-4。
結果は、さまざまなシナリオにわたるMedslipの優れた一般化可能性と転送可能性を示しています。
このコードはhttps://github.com/shef-are/medslipで入手でき、事前に訓練されたモデルはhttps://huggingface.co/pykale/medslipでリリースされます。

要約(オリジナル)

Pathology and anatomy are two essential groups of semantics in medical data. Pathology describes what the diseases are, while anatomy explains where the diseases occur. They describe diseases from different perspectives, providing complementary insights into diseases. Thus, properly understanding these semantics and their relationships can enhance medical vision-language models (VLMs). However, pathology and anatomy semantics are usually entangled in medical data, hindering VLMs from explicitly modeling these semantics and their relationships. To address this challenge, we propose MeDSLIP, a novel Medical Dual-Stream Language-Image Pre-training pipeline, to disentangle pathology and anatomy semantics and model the relationships between them. We introduce a dual-stream mechanism in MeDSLIP to explicitly disentangle medical semantics into pathology-relevant and anatomy-relevant streams and align visual and textual information within each stream. Furthermore, we propose an interaction modeling module with prototypical contrastive learning loss and intra-image contrastive learning loss to regularize the relationships between pathology and anatomy semantics. We apply MeDSLIP to chest X-ray analysis and conduct comprehensive evaluations with four benchmark datasets: NIH CXR14, RSNA Pneumonia, SIIM-ACR Pneumothorax, and COVIDx CXR-4. The results demonstrate MeDSLIP’s superior generalizability and transferability across different scenarios. The code is available at https://github.com/Shef-AIRE/MeDSLIP, and the pre-trained model is released at https://huggingface.co/pykale/MeDSLIP.

arxiv情報

著者 Wenrui Fan,Mohammod N. I. Suvon,Shuo Zhou,Xianyuan Liu,Samer Alabed,Venet Osmani,Andrew J. Swift,Chen Chen,Haiping Lu
発行日 2025-04-30 12:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MeDSLIP: Medical Dual-Stream Language-Image Pre-training with Pathology-Anatomy Semantic Alignment はコメントを受け付けていません

MoBGS: Motion Deblurring Dynamic 3D Gaussian Splatting for Blurry Monocular Video

要約

私たちは、エンドツーエンドの方法でぼやけた単眼動画からのシャープで高品質の斬新な空間的ビューを再構築できる、新しい脱生動的3Dガウススプラッティング(3DGS)フレームワークであるMOBGSを紹介します。
既存の動的な新規ビュー合成(NVS)メソッドは、さりげなくキャプチャされたビデオのモーションブラーに非常に敏感であり、その結果、レンダリング品質が大幅に分解されます。
最近のアプローチは、NVSのモーションブルーな入力に対処しますが、主に静的シーンの再構築に焦点を当てており、動的オブジェクトの専用モーションモデリングがありません。
これらの制限を克服するために、私たちのMOBGは、効果的な潜在カメラの軌跡推定のために、新しいぼやけた潜在潜在潜在カメラ推定(BLCE)方法を導入し、グローバルなカメラの動きを改善します。
さらに、グローバルなカメラとローカルオブジェクトの両方のモーションの一貫した脱硫黄を確保するために、物理的にインスパイアされた潜在的なカメラ誘発曝露推定(LCEE)方法を提案します。
MOBGSフレームワークは、目に見えない潜在的なタイムスタンプの時間的一貫性と、静的領域と動的領域の堅牢なモーション分解を保証します。
ステレオブラーデータセットと実際のぼやけたぼやけビデオに関する広範な実験は、MOBGが非常に最近の高度な方法(Dyblurfおよびdeblur4DGS)を大幅に上回り、モーションブラーの下で動的NVの最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

We present MoBGS, a novel deblurring dynamic 3D Gaussian Splatting (3DGS) framework capable of reconstructing sharp and high-quality novel spatio-temporal views from blurry monocular videos in an end-to-end manner. Existing dynamic novel view synthesis (NVS) methods are highly sensitive to motion blur in casually captured videos, resulting in significant degradation of rendering quality. While recent approaches address motion-blurred inputs for NVS, they primarily focus on static scene reconstruction and lack dedicated motion modeling for dynamic objects. To overcome these limitations, our MoBGS introduces a novel Blur-adaptive Latent Camera Estimation (BLCE) method for effective latent camera trajectory estimation, improving global camera motion deblurring. In addition, we propose a physically-inspired Latent Camera-induced Exposure Estimation (LCEE) method to ensure consistent deblurring of both global camera and local object motion. Our MoBGS framework ensures the temporal consistency of unseen latent timestamps and robust motion decomposition of static and dynamic regions. Extensive experiments on the Stereo Blur dataset and real-world blurry videos show that our MoBGS significantly outperforms the very recent advanced methods (DyBluRF and Deblur4DGS), achieving state-of-the-art performance for dynamic NVS under motion blur.

arxiv情報

著者 Minh-Quan Viet Bui,Jongmin Park,Juan Luis Gonzalez Bello,Jaeho Moon,Jihyong Oh,Munchurl Kim
発行日 2025-04-30 12:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MoBGS: Motion Deblurring Dynamic 3D Gaussian Splatting for Blurry Monocular Video はコメントを受け付けていません

Towards Writing Style Adaptation in Handwriting Recognition

要約

手書き認識の課題の1つは、非常に異なる執筆スタイルを多数転写することです。
最先端のアプローチでは、作家のスタイルに関する情報を明示的に使用していません。これは、さまざまな曖昧さのために全体的な精度を制限している可能性があります。
作家のアイデンティティを追加の入力とする作家依存のパラメーターを使用したモデルを探索します。
提案されたモデルは、単一の著者(単一の文字、日記、またはクロニクルなど)によって書かれた可能性が高いパーティションを使用して、データセットでトレーニングできます。
作家スタイルブロック(WSB)を提案します。これは、パーティションの学習した埋め込みに条件付けられた適応インスタンス正規化レイヤーです。
WSBのさまざまな配置と設定を実験し、事前に訓練を受けた埋め込みを対象としました。
私たちのアプローチは、作家依存のシナリオにWSBのないベースラインよりも優れており、新しい作家の埋め込みを推定できることを示しています。
ただし、ライターに依存しない設定で単純な微調整を使用したドメイン適応は、同様の計算コストで優れた精度を提供します。
提案されたアプローチは、そのようなベースラインを克服するために、トレーニングの安定性と正則化の埋め込みの観点からさらに調査する必要があります。

要約(オリジナル)

One of the challenges of handwriting recognition is to transcribe a large number of vastly different writing styles. State-of-the-art approaches do not explicitly use information about the writer’s style, which may be limiting overall accuracy due to various ambiguities. We explore models with writer-dependent parameters which take the writer’s identity as an additional input. The proposed models can be trained on datasets with partitions likely written by a single author (e.g. single letter, diary, or chronicle). We propose a Writer Style Block (WSB), an adaptive instance normalization layer conditioned on learned embeddings of the partitions. We experimented with various placements and settings of WSB and contrastively pre-trained embeddings. We show that our approach outperforms a baseline with no WSB in a writer-dependent scenario and that it is possible to estimate embeddings for new writers. However, domain adaptation using simple fine-tuning in a writer-independent setting provides superior accuracy at a similar computational cost. The proposed approach should be further investigated in terms of training stability and embedding regularization to overcome such a baseline.

arxiv情報

著者 Jan Kohút,Michal Hradiš,Martin Kišš
発行日 2025-04-30 12:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Writing Style Adaptation in Handwriting Recognition はコメントを受け付けていません

Cascade Detector Analysis and Application to Biomedical Microscopy

要約

コンピュータービジョンモデルと生物医学データセットの両方がサイズが増加するにつれて、効率的な推論アルゴリズムの必要性が高まっています。
カスケード検出器を利用して、マルチガラス溶解画像のまばらなオブジェクトを効率的に識別します。
オブジェクトの有病率と、既知の精度を備えたさまざまな解像度の一連の検出器を考えると、カスケード検出器による分類子呼び出しの精度と予想される数を導き出します。
これらの結果は、寸法の数とカスケードレベルの数にわたって一般化されます。
最後に、さまざまな顕微鏡モダリティにわたって蛍光細胞検出、オルガネラのセグメンテーション、および組織セグメンテーションの1つのレベルと2レベルの検出器を比較します。
マルチレベル検出器は、30〜75%短い時間で同等のパフォーマンスを達成することを示します。
私たちの作業は、さまざまなコンピュータービジョンモデルとデータドメインと互換性があります。

要約(オリジナル)

As both computer vision models and biomedical datasets grow in size, there is an increasing need for efficient inference algorithms. We utilize cascade detectors to efficiently identify sparse objects in multiresolution images. Given an object’s prevalence and a set of detectors at different resolutions with known accuracies, we derive the accuracy, and expected number of classifier calls by a cascade detector. These results generalize across number of dimensions and number of cascade levels. Finally, we compare one- and two-level detectors in fluorescent cell detection, organelle segmentation, and tissue segmentation across various microscopy modalities. We show that the multi-level detector achieves comparable performance in 30-75% less time. Our work is compatible with a variety of computer vision models and data domains.

arxiv情報

著者 Thomas L. Athey,Shashata Sawmya,Nir Shavit
発行日 2025-04-30 12:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cascade Detector Analysis and Application to Biomedical Microscopy はコメントを受け付けていません