Krisnile.SpiritScript

多模态学习—对比语言-图像与训练模型（CLIP）

在这个大模型（LLM）横行的时代，我们对AI的需求不仅仅是文本生成文本，很多平台都提供了文本生成图像（Text-to-Image）的功能，比如GPT-4o两个月前推出的融合自回归模型（可见上一篇文章）和扩散模型等算法进行图像生成的新功能，在互联网...