-
最近の投稿
- Geometric Scattering on Measure Spaces
- Speedup Techniques for Switchable Temporal Plan Graph Optimization
- Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving
- Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation
- Hierarchical Sampling-based Planner with LTL Constraints and Text Prompting
-
最近のコメント
表示できるコメントはありません。 cs.AI (32178) cs.CL (24331) cs.CR (2500) cs.CV (38427) cs.LG (37057) cs.RO (18798) cs.SY (2872) eess.IV (4613) eess.SY (2866) stat.ML (4892)
投稿者「jarxiv」のアーカイブ
MIO: A Foundation Model on Multimodal Tokens
要約 このペーパーでは、エンドツーエンドの自己回帰方式で音声、テキスト、画像、ビ … 続きを読む
ListConRanker: A Contrastive Text Reranker with Listwise Encoding
要約 リランカー モデルは、指定されたクエリとパッセージの間のセマンティクスの類 … 続きを読む
Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos
要約 組織病理学における診断には、グローバルな全スライド画像 (WSI) 解析が … 続きを読む
II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models
要約 マルチモーダル大規模言語モデル (MLLM) の開発における急速な進歩によ … 続きを読む
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
要約 ビジョン言語モデル (VLM) の開発は、大規模で多様なマルチモーダル デ … 続きを読む
Assessment and manipulation of latent constructs in pre-trained language models using psychometric scales
要約 最近、人間に似た性格特性が大規模な言語モデルで発見され、その(既知だがまだ … 続きを読む
DefVerify: Do Hate Speech Models Reflect Their Dataset’s Definition?
要約 予測モデルを構築する場合、多くの場合、アプリケーション固有の要件が、最終的 … 続きを読む
VaeDiff-DocRE: End-to-end Data Augmentation Framework for Document-level Relation Extraction
要約 ドキュメント レベルの関係抽出 (DocRE) は、ドキュメント内のエンテ … 続きを読む
When lies are mostly truthful: automated verbal deception detection for embedded lies
要約 背景: 言葉による欺瞞の検出研究は物語に依存しており、一般に発言が真実であ … 続きを読む