月別アーカイブ: 2025年6月

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

要約 Captchasは、実際のアプリケーションにWebエージェントを展開するた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents はコメントを受け付けていません

Keyed Chaotic Masking: A Functional Privacy Framework for Neural Inference

要約 この作業では、暗号化されたカオスダイナミカルシステムに由来する決定論的でユ … 続きを読む

カテゴリー: 37N25, 68T05, 94A60, cs.AI, cs.CR, D.4.6 | Keyed Chaotic Masking: A Functional Privacy Framework for Neural Inference はコメントを受け付けていません

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

要約 このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量 … 続きを読む

カテゴリー: cs.CV | OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation はコメントを受け付けていません

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

要約 フィードフォワード3Dガウススプラッティング(3DGS)モデルは最近、新し … 続きを読む

カテゴリー: cs.CV | ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS はコメントを受け付けていません

Automatic classification of stop realisation with wav2vec2.0

要約 現代の音声研究は、音声データの注釈のために自動ツールを定期的に使用していま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic classification of stop realisation with wav2vec2.0 はコメントを受け付けていません