“跨次元”目标检测模型hold住各种画风,真人赛博恐龙梵高画作都能识别,复旦校友一作,在线Demo可玩
作者:啊哈哈哈 来源:ai08门户网 时间:2025-05-16 14:22:19
目标检测种类多达20000+种的AI,你见过吗?
不仅准确“揪出”每个物体所在的位置,分类效果非常准确:
插画版赛博恐龙也没问题:
甚至还能检测杂志封面甚至漫画中的物体!
这也是把目标检测给玩出花来了,据作者表示模型在长尾问题等细节上的处理非常好,像狮子和狐狸这种少样本也能准确识别:
这项研究来自Meta AI和德克萨斯大学奥斯汀分校,一作是著名目标检测框架CenterNet的作者、复旦校友Xingyi Zhou。
一起来看看。
这篇论文提出了一种新的名为Detic的方法,用来解决目标检测无法用到图像级标签(给一整张图打标签,标注里面有什么物体)的问题。
此前的目标检测方法,通常是一个检测框里一个物体:
这种方法有一个问题,就是没办法利用整个图像级标签,只能用单个物体的图片进行训练。
也有一些研究想出了一种新方法,搞个弱监督学习,试图让AI自己学会将图像级的标签,去对应锚定框里面有什么物体,但实际上这种方法的效果也不太好。
Detic的方法是采用目标检测数据(a)和图像标签数据(b)对Detic进行混合训练。
其中,在用目标检测数据训练Detic时,同时对图像分类模块W和目标检测模块B进行训练,但只用标签数据对图像分类模块W进行训练。
训练的数据集采用的是ImageNet,事实证明模型在训练后无需微调,就能很好地适应到LVIS等数据集,相对之前的一些模型都达到了不错的效果:
论文表示,Detic能分类的图片类型也是多种多样,从真实照片到赛博恐龙插画这样的“跨次元”作品都能识别:
这立刻吸引了不少网友来玩。
有网友用梵高的世界名画试了试。
放大一点来看,艺术加工后的椅子、人和桌子也能被识别:
还有用二次元的龙猫进行识别的,除了龙猫本身被错认成猫头鹰以外,其他的雨伞和靴子都认得不错:
我们也随便用一个钟表柜的照片试了试,在线Demo的检测时间稍微有点久,大约需要6分钟左右,但效果还不错:
细看的话还是能发现一些瑕疵,例如把部分手表误认成转速计、以及怀表和时钟,以及也有一两块手表没有被检测出来。
不过,即使在二次元和插画中,这个AI能识别的物体,至少也需要在真实世界出现过。
例如,超出20000个分类的物体,如喷火龙和皮卡丘,就不在AI的监测范围内了,全部被认成了猴子(狗头):
将这些二次元角色也加入AI训练数据集中,不知能否取得同样的检测效果。
论文一作Xingyi Zhou,目前在德克萨斯大学奥斯汀分校读博,本科就读于复旦大学计算机系,之前也是CenterNet论文的第一作者,项目在GitHub上目前已经收获6.1k Star。
Rohit Girdhar、Armand Joulin和Ishan Misra,Meta AI的研究科学家,主要研究方向是机器学习和计算机视觉,此前Armand Joulin曾经在李飞飞的实验室进行博士后工作。
Philipp Krähenbühl,德克萨斯大学奥斯汀分校助理教授,Xingyi Zhou的导师,研究方向是计算机视觉、机器学习和计算机图形学。
感兴趣的小伙伴,赶紧试试你想玩的漫画、或是杂志插画吧~
Demo地址:https://huggingface.co/spaces/akhaliq/Detic
论文地址:https://arxiv.org/abs/2201.02605
参考链接:[1]https://www.cs.utexas.edu/~zhouxy/[2]https://twitter.com/ak92501/status/1480704961101148162
“
更多资讯
热门文章
推荐对话
换一换- 人气排行
- 1 “跨次元”目标检测模型hold住各种画风,真人赛博恐龙梵高画作都能识别,复旦校友一作,在线Demo可玩
- 2 轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍
- 3 这个“1句话生成视频”AI爆火:支持中文输入,分辨率达到480×480,清华&智源出品
- 4 最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作
- 5 全球首款量产太阳能电动车,黄了
- 6 FSD造假实锤!特斯拉技术大牛法庭证实:官方宣传视频造假,紧急接管意外撞车都被剪掉了
- 7 中国年度十大畅销新能源车型出炉,外资仅有特斯拉上榜
- 8 蔚来总里程100亿公里,AI开了8.2亿
- 9 突发,Waymo关停无人卡车
- 10 广汽去年卖车243万辆排中国第四!销量依赖日系合资,亲儿子埃安盈利还没时间表