设计思想: 把所有的原始输入文本看成unicode字符序列,空格也算
1. 视觉问答(VQA):
要求模型回答关于输入图像的自然语言问题。将任务定义为分类问题(从训练集中3129个最频繁的答案候选中预测答案)。微调为融合编码器
2. 视觉推理(NLVR):
需要模型来对图像和自然语言描述进行联合推理, 以确定文本对图像的描述是否正确。微调为融合编码器
3. 图像字幕(coco captioning)
该任务旨在为给定的图像生成自然语言标题。使用交叉熵损失,而不使用CIDEr进行优化。作为条件生成模型,微调为融合编码器
4. 图像-文本检索(MSCOCO/Flickr30K):
测量图像和文本之间的相似度。微调为双编码器
没有使用COCO和Flickr30K图像-文本对数据进行预训练。仅进行微调
ZSL就是希望对其从没见过的类别进行分类,直接进行推理能力
首先用Objects365数据集进行中间微调,然后在COCO数据集上对模型进行微调。COCO数据集包括118k训练、5k验证和20k测试图像
ADE20K包含20k用于训练的图像和2k用于验证的图像;采用Mask2Former作为分割框架
ImageNet-1K包含1.28M训练图像和50k 1k类的验证图像。首先在ImageNet-21K上执行中间微调,然后在ImageNet-1K上训练模型。定义为图像到文本检索任务,使用类别名称作为文本来构建图像-文本对。BEIT-3被训练为双编码器
https://www.zhihu.com/question/549621097/answer/2649483107