cs.AI」カテゴリーアーカイブ

Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine

要約 近年、マルチモーダル大規模言語モデル (MLLM) が顕著な進歩を遂げ、イ … 続きを読む

カテゴリー: cs.AI, cs.CV | Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine はコメントを受け付けていません

MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning

要約 画像キャプションは、コンピューター ビジョンと自然言語処理が交わる重要なタ … 続きを読む

カテゴリー: cs.AI, cs.CV | MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning はコメントを受け付けていません

Annealing Machine-assisted Learning of Graph Neural Network for Combinatorial Optimization

要約 アニーリング マシン (AM) は複雑な組み合わせ問題を解決する能力が向上 … 続きを読む

カテゴリー: cs.AI, cs.LG | Annealing Machine-assisted Learning of Graph Neural Network for Combinatorial Optimization はコメントを受け付けていません

Long Story Short: Story-level Video Understanding from 20K Short Films

要約 視覚言語モデルの最近の開発により、ビデオの理解が大幅に進歩しました。 ただ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Long Story Short: Story-level Video Understanding from 20K Short Films はコメントを受け付けていません

VLM-driven Behavior Tree for Context-aware Task Planning

要約 ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | VLM-driven Behavior Tree for Context-aware Task Planning はコメントを受け付けていません

VideoRAG: Retrieval-Augmented Generation over Video Corpus

要約 検索拡張生成 (RAG) は、クエリに関連する外部知識を取得し、それを生成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | VideoRAG: Retrieval-Augmented Generation over Video Corpus はコメントを受け付けていません

Solving nonograms using Neural Networks

要約 ノノグラムは、ヘッダーにある数字に従って、グリッド内のセルに色を付けるか空 … 続きを読む

カテゴリー: cs.AI, cs.NE | Solving nonograms using Neural Networks はコメントを受け付けていません

Gender Bias in Text-to-Video Generation Models: A case study of Sora

要約 テキストからビデオへの生成モデルの出現は、テキストのプロンプトから高品質の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | Gender Bias in Text-to-Video Generation Models: A case study of Sora はコメントを受け付けていません

EDNet: Edge-Optimized Small Target Detection in UAV Imagery — Faster Context Attention, Better Feature Fusion, and Hardware Acceleration

要約 低解像度、複雑な背景、ダイナミックなシーンのため、ドローン画像内の小さなタ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | EDNet: Edge-Optimized Small Target Detection in UAV Imagery — Faster Context Attention, Better Feature Fusion, and Hardware Acceleration はコメントを受け付けていません

Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs

要約 教育においては、大規模言語モデル (LLM) の人間に似たテキストを生成す … 続きを読む

カテゴリー: cs.AI, cs.CL | Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs はコメントを受け付けていません