投稿者「jarxiv」のアーカイブ

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約 テキストリッチ画像は、テキストが全体的な理解を導く中心的な視覚要素として機 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約 ジェネレーティブAI(GenAI)は創造的で生産的なタスクに無数の可能性を … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

Releasing the Parameter Latency of Neural Representation for High-Efficiency Video Compression

要約 何十年もの間、映像圧縮技術は著名な研究分野であった。従来のハイブリッド動画 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | コメントする

MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning

要約 広範な研究により、ディープニューラルネットワーク(DNN)は、わずかな敵対 … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

TopER: Topological Embeddings in Graph Representation Learning

要約 グラフ埋め込みはグラフ表現学習において重要な役割を果たし、機械学習モデルに … 続きを読む

カテゴリー: cs.LG, math.AT | コメントする

Uncertainty Quantification with Bayesian Higher Order ReLU KANs

要約 我々は、コルモゴロフ・アーノルド・ネットワークの領域における最初の不確実性 … 続きを読む

カテゴリー: cs.AI, cs.LG, physics.data-an | コメントする

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約 眼科では、診断や治療計画のために詳細な画像解析に大きく依存している。大規模 … 続きを読む

カテゴリー: cs.CV | コメントする

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity

要約 3D セマンティック占有予測ネットワークは、3D シーンの幾何学的およびセ … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

An Approach to Elicit Human-Understandable Robot Expressions to Support Human-Robot Interaction

要約 人間とロボットの自然でシームレスなコラボレーションには、ロボットの意図を理 … 続きを読む

カテゴリー: cs.HC, cs.RO | コメントする

Two-Finger Soft Gripper Force Modulation via Kinesthetic Feedback

要約 私たちは、触覚センサーに依存せずに、2 本指グリッパーの柔らかい指と物体と … 続きを読む

カテゴリー: cs.RO | コメントする