Paper name
Grounding Language Models to Images for Multimodal Generation
Paper Reading Note
URL: https://arxiv.org/abs/2301.13823
Project URL:https://jykoh.com/fromage
支持 multimodal dialogue or image-and-text,对上下文敏感
为了评估 FROMAGe 处理多模态上下文信息的能力,评估了其在检索基于视觉故事讲述(VIST)数据集的一系列交织图像文本输入的适当图像方面的性能。给多个 caption 时本文工作能超过 CLIP 精度(CLIP 无法正确处理较长的、时间相关的句子)