「cs.LG」カテゴリーアーカイブ

OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions

投稿日: 2024年12月10日作成者: jarxiv

要約大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

FabuLight-ASD: Unveiling Speech Activity via Body Language

投稿日: 2024年12月10日作成者: jarxiv

要約マルチモーダル環境におけるアクティブ話者検出 (ASD) は、ビデオ会議か … 続きを読む →

カテゴリー: 68T20, cs.CV, cs.LG, cs.NE, cs.SD, eess.AS, I.2.0 | コメントを受け付けていません

How to Merge Your Multimodal Models Over Time?

投稿日: 2024年12月10日作成者: jarxiv

要約モデルの結合では、さまざまなタスクやドメインに関する基本基盤モデルから微調 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Toward Non-Invasive Diagnosis of Bankart Lesions with Deep Learning

投稿日: 2024年12月10日作成者: jarxiv

要約バンカート病変、つまり関節窩前下唇裂傷は、画像上の特徴が微妙なため、標準的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Convolution goes higher-order: a biologically inspired mechanism empowers image classification

投稿日: 2024年12月10日作成者: jarxiv

要約我々は、複雑な非線形生物学的視覚処理に触発された画像分類への新しいアプロー … 続きを読む →

カテゴリー: cs.CV, cs.LG, q-bio.NC | コメントを受け付けていません

ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

投稿日: 2024年12月10日作成者: jarxiv

要約従来の固定テストセットでは、基礎モデルのオープンエンド機能を評価するには … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty

投稿日: 2024年12月10日作成者: jarxiv

要約生成 AI モデルに対するユーザープロンプトは、多くの場合、仕様が不十分 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Visual Lexicon: Rich Image Features in Language Space

投稿日: 2024年12月10日作成者: jarxiv

要約私たちは、自然言語で伝えるのが難しい複雑な視覚的詳細を保持しながら、豊富な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

投稿日: 2024年12月10日作成者: jarxiv

要約動的シーンのリアルタイム 4D 再構成は、自動運転の知覚にとって依然として … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

投稿日: 2024年12月10日作成者: jarxiv

要約テキストから画像へのモデルのデータ帰属の目的は、新しい画像の生成に最も影響 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions

FabuLight-ASD: Unveiling Speech Activity via Body Language

How to Merge Your Multimodal Models Over Time?

Toward Non-Invasive Diagnosis of Bankart Lesions with Deep Learning

Convolution goes higher-order: a biologically inspired mechanism empowers image classification

ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty

Visual Lexicon: Rich Image Features in Language Space

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

最近の投稿

最近のコメント

アーカイブ

カテゴリー