19
2023
04

【天风电子潘暕团队】DINOv2模型对图片的理解能力飞跃,打开机器学习的天花板。


【天风电子潘暕团队】DINOv2模型对图片的理解能力飞跃,打开机器学习的天花板。


1)图像理解能力大飞跃:DINOv2对图像的深度学习能力实现质的飞跃。以输入埃菲尔铁塔的图片为例,DINOv2可以检索出不同类型的铁塔结果,如老照片、浮世绘、素描、油画,甚至只有部分的埃菲尔铁塔的截面图也可以识别出来。我们认为这种深度理解能力如果应用到To B端将意味着应用场景的爆发。


2)机器学习方式的颠覆:传统模型大多以文本监督的形式来指导特征训练,本质是以人的思维方式进行监督训练,对图片的理解浅留于表层信息,复杂的深层信息不会被识别。现在的DINOv2是以机器为中心,其方法更接近于语言建模,可以在图像和像素层面上捕捉深层信息。


3)通用模型的演进路线:Meta在现有技术框架下,通过不同来源足够的数据进行训练,就可以提升模型对数据的深度学习能力。Meta提出了一个自动管道,目的是建立一个专门的、多样化的、经过整理的图像数据集,而不是像自监督文献中通常所做的那样,建立未经整理的数据集。这也是我们认为国内厂商从现有通用模型到未来AI大模型的演变方向。


4)精度提升与训练提速:在新的技术下,DINOv2所蒸馏的小模型在精度方面超过了现有的OpenCLIP模型。在训练速度方面,Meta的新模型比同类型模型快2倍左右,可以利用更大的批次规模进行更长时间的训练。


我们坚定看好大华股份。


更多详细情况请联系对口销售/天风电子 冯浩凡

上一篇 » 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。