7.4.1 早期单任务视觉语言模型