投稿者「jarxiv」のアーカイブ

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

要約 大規模言語モデル(LLM)は、プロンプト技術を用いることで、領域横断的に流 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

要約 分類タスクは通常、機械学習(ML)モデルを用いて処理されるが、精度と解釈可 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | コメントする

Accelerating Training with Neuron Interaction and Nowcasting Networks

要約 古典的な適応オプティマイザ(Adamなど)の代わりに学習可能な更新ルールを … 続きを読む

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

CMP: Cooperative Motion Prediction with Multi-Agent Communication

要約 自律走行車(AV)の進化とV2X(Vehicle-to-Everythin … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | コメントする

FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

要約 ジェネレーティブAIの急速な発展は、コンテンツ作成を容易にするだけでなく、 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

要約 最近、最新の大規模マルチモーダルモデル(LMM)は、短編ビデオの理解に関連 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

要約 器用な把持は、ロボットハンドと物体との間の正確な相互作用を必要とする、ロボ … 続きを読む

カテゴリー: cs.RO | コメントする

Quantifying Generalization Complexity for Large Language Models

要約 大規模言語モデル(LLM)は、複雑なクエリを理解し、高度なタスクを実行する … 続きを読む

カテゴリー: cs.CL | コメントする

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約 テキストリッチ画像は、テキストが全体的な理解を導く中心的な視覚要素として機 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約 ジェネレーティブAI(GenAI)は創造的で生産的なタスクに無数の可能性を … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする