投稿者「jarxiv」のアーカイブ

Measuring and Improving Persuasiveness of Generative Models

要約 LLMは、人間が消費するコンテンツを生成するワークフロー(マーケティングな … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Evaluating Perceptual Distance Models by Fitting Binomial Distributions to Two-Alternative Forced Choice Data

要約 2択強制選択(2AFC)実験法は、視覚知覚の文献でよく用いられている。実験 … 続きを読む

カテゴリー: cs.CV | コメントする

Generalizing Medical Image Representations via Quaternion Wavelet Networks

要約 ニューラルネットワークの汎化可能性は、様々なソースからの様々なタスクのデー … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Lie Algebra Canonicalization: Equivariant Neural Operators under arbitrary Lie Groups

要約 ロバストで汎化可能な機械学習モデルの探求は、等変量ニューラルネットワークを … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.NA, math.NA | コメントする

ControlAR: Controllable Image Generation with Autoregressive Models

要約 自己回帰(AR)モデルは、画像生成をネクストトーク予測として再構築し、顕著 … 続きを読む

カテゴリー: cs.CV | コメントする

LLaVA-Critic: Learning to Evaluate Multimodal Models

要約 LLaVA-Criticを紹介する。LLaVA-Criticは、幅広いマル … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Video Instruction Tuning With Synthetic Data

要約 動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

AlzhiNet: Traversing from 2DCNN to 3DCNN, Towards Early Detection and Diagnosis of Alzheimer’s Disease

要約 アルツハイマー病(AD)は進行性の神経変性疾患であり、高齢化社会の中で有病 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Autoregressive Pre-Training on Pixels and Texts

要約 視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示し … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects

要約 未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | コメントする