当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

首页 > 热点 > > 内容

当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

发表时间：2023-02-21 22:01:46 来源：量子位

AI 生成的图像太逼真，为什么不能拿来训练 AI 呢？

可别说，现在还真有人这么做了。

(资料图片)

来自香港大学、牛津大学和字节跳动的几名研究人员，决定尝试一下能否使用高质量 AI 合成图片，来提升图像分类模型的性能。

为了避免 AI 合成的图像过于单一、或是质量不稳定，他们还提出了几类提升数据多样性和可靠性的方法，帮助 AI 合成更好的数据集（来喂给 AI 的同类 doge）。

结果他们发现，不仅效果不错，有的 AI 在训练后，效果竟然比用真实数据训练还要好！

目前这篇论文已经被 ICLR 2023 收录。把 AI 生成的数据喂给 AI

作者们分别从零样本（zero-shot）、少样本（few-shot）图像分类、模型预训练（pre-training）与迁移学习三个进了探讨，并给出了提升数据多样性与可靠性的方法。

零样本图像分类

零样本（Zero-shot）图像分类任务，指没有任何标类别的训练图，只有对标类别的描述。

作者们先是提出了一种名为语言增强（Language Enhancement，LE）的法，用于增强合成数据多样性。

具体来说，这种方法会给标签 " 扩句 "，如果原标签是简单的 " 飞机 "，那么经过 " 扩句 " 后的提示词就会变成 " 一架盘旋在海滩和城市上空的白色飞机 "。

随后，还采用了一种叫做CLIP 过滤器（CLIP Filter）的法确保合成数据的可靠性，即过滤掉合成质量不行的图片，确保 AI 数据质量过硬。

在 17 个数据集上，相此前效果最好的 CLIP 模型，相关模型均获得了显著提升（4.31%/2.90%），展示了合成数据的有效性。

少样本图像分类

少样本图像（Few-shot）分类任务，通常仅有极少数量（1～16 张）的标类别图，与零样本任务的区别是增加了类别与任务特定领域信息。

因此，作者们决定将域内数据（in-domain）的知识于图像成，即将少量的标类别图于噪声叠加的初始状态（Real Guidance），进步发挥成模型的能，从而进步提升性能。

预训练与迁移学习

模型预训练（pre-training）任务，即将模型在量数据上进训练，将训练后的模型作为 " 起始点 "，来帮助提升下游任务的性能。

作者们利合成数据，对模型进了预训练，并对数据量、数据多样性程度、预训练模型结构和预训练法进了实验研究。

最终发现：

合成数据进预训练。已经可以达到甚超越真实数据预训练的效果。

更的数据量和数据多样性的合成数据，可以获得更好的预训练效果。

从模型结构和预训练法来看，ViT-based 模型（相比 convolutional-based 模型）、监督法（相比有监督法）会更适合合成数据下的预训练。

论文认为，利成模型产的合成数据来帮助图像分类任务是可行的，不过也存在定的局限性。

例如，如何处理特定任务的 domain gap 和数据多样性之间的 trade-off，以及如何更有效地利潜在穷量的合成图于预训练，都是需要进一步去解决的问题。

作者介绍

一作何睿飞，香港大学在读博士生 @CVMI Lab，指导老师为齐晓娟老师，本科毕业于浙江大学竺可桢学院，研究方向是 data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收计算机视觉与深度学习方向的博士生，感兴趣的伙伴可以直接 email 老师！

对于将 AI 合成图像用于预训练模型这件事，你还能想到更高效的方法吗？

欢迎感兴趣的小伙伴一起讨论 ~

论文地址：

https://arxiv.org/abs/2210.07574

项目地址：

https://github.com/CVMI-Lab/SyntheticData

* 本文系量子位获授权刊载，观点仅为作者所有。

— 完—

量子位 QbitAI

" " 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

标签：图像分类数据多样性感兴趣的

当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

8月8日是什么节日为什么降国旗_8月8日是什么节日 世界热文

厦门证监局积极推动行政执法与检察履职衔接|今日视点

今晚能看到真正的龙抬头是什么情况

14点快评：午后量能快速萎缩两市炸板率一度超50%|世界即时看

湖南省本级普通门诊统筹定点医疗机构名单 环球快播报

黄石鄂州两个“花湖”联手，共同开展市容秩序整治

今日最新！网页无法播放视频解决方法_网页无法播放视频解决方法是什么

诸葛亮事迹和成就简写_诸葛亮事迹和成就

世界观焦点：制药生产车间如何实施6S管理_生产车间6s管理实施方案

赵子琪个人资料_关于赵子琪的简介 今日视点

视讯！讲文明、评先进！郑州市二七区祥云路小学开展主题升旗仪式

ppsu_说一说ppsu的简介|当前最新

【全球时快讯】国内黄金价格今天多少一克（2023年2月20日）

环球微动态丨塔图姆55+10+10三分创纪录：首夺全明星MVP 让老詹成暴扣背景板

动态：A股异动|立华股份跌4.4%实控人之一致行动人拟减持不超5.98%股份

中汽协：10月汽车类零售额为3695亿元，同比增长3.9% 环球快资讯

看看湖人剩下的23场比赛，你还相信能进附加赛？

每日粮油：一号文件公布，未来我国玉米价格还会涨吗？

全球快消息！广州邮编白云区人和镇_广州邮编白云区

今日最新快报：名记麦克朗拯救了扣篮大赛 全明星扣篮大赛麦克朗夺冠3个50分惊艳全场

微电影《春来雁北归》在沈阳首映

“00后”挑大梁！“新农人”成农业生产主力军

国家能源保供重点工程吹响施工“冲锋号”|今日聚焦

4月23日美国撤回侨民疫情最新数据统计公布_环球简讯

2023中国互联网发展座谈会暨中国互联网协会新春茶话会在京召开

如何照顾哭泣的蓝色阿特拉斯雪松树-环球资讯

大象新闻客户端app下载安装方法_下载大象新闻客户端苹果

017期唐龙大乐透预测奖号：9+3小复式参考

全球报道:更衣人偶坠入爱河-喜多川海梦美图第十三期

当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

8月8日是什么节日为什么降国旗_8月8日是什么节日 世界热文

厦门证监局积极推动行政执法与检察履职衔接|今日视点

今晚能看到真正的龙抬头是什么情况

14点快评：午后量能快速萎缩两市炸板率一度超50%|世界即时看

广西靖西市两地调整为中风险地区

苏州市多地调整为中风险地区

云南2月14日新增无症状感染者6例

实体书店为什么接二连三遭遇危机？生存之道在哪

卜卦、占星、看手相…… 为什么有的年轻人总想算一卦

一言不合放火烧家 任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震 震源深度7千米

应急管理部：1月全国接报生产安全事故死亡超1100人

江苏省省长：苏州市要把疫情防控作为头等大事、第一要务

广西新增确诊病例降至1例 百色市有序解除管控

8月8日是什么节日为什么降国旗_8月8日是什么节日世界热文

湖南省本级普通门诊统筹定点医疗机构名单环球快播报

赵子琪个人资料_关于赵子琪的简介今日视点

今日最新快报：名记麦克朗拯救了扣篮大赛全明星扣篮大赛麦克朗夺冠3个50分惊艳全场

8月8日是什么节日为什么降国旗_8月8日是什么节日世界热文

一言不合放火烧家任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震震源深度7千米

广西新增确诊病例降至1例百色市有序解除管控