SigLIP【全称:Sigmoid Loss for Language Image Pre-Training】,SigLIP是在batch内,利用sigmod对文-图对做二分类;CLIP是在batch内,利用softmax对文-图对做多分类。 SigLIP不需要对两两相似进行全局归一化,这样的做法允许扩大batch的大小,同时在较小的batch下也能表现的好。 如下 ...