天天即时:研究人员警告:用AI生成的内容训练AI,可能会出现“模型崩溃”
站长之家(ChinaZ.com)6月14日 消息:随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始使用AI生成的内容进行训练,会发生什么?
来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇相关论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”
研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”
(资料图)
“随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”该论文的主要作者之一 Ilia Shumailov解释道。
换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。
“模型崩溃”是如何发生的
本质上,当 AI 模型生成的数据最终污染了后续模型的训练集时,就会发生模型崩溃。
Shumailov 通过一个假设场景说明了这个问题,其中机器学习模型在包含100只猫的图片的数据集上进行训练——其中10只猫的皮毛是蓝色的,90只猫的皮毛是黄色的。该模型了解到黄猫更普遍,被要求生成新数据时返回一些绿猫结果。随着时间的推移,蓝色毛皮的原始特征会在连续的训练周期中逐渐消失,从蓝色变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失就是模型崩溃。为防止这种情况,重要的是要确保少数群体在数据集中的公平代表性,无论是在数量上还是在对独特特征的准确描述方面。
AI 生成数据的这种“污染”导致模型对现实产生了扭曲的感知。即使研究人员训练模型不要产生过多的重复响应,他们发现模型崩溃仍然会发生,因为模型会开始编造错误的响应以避免过于频繁地重复数据。
“还有许多其他方面会导致更严重的影响,例如基于性别、种族或其他敏感属性的歧视,”Shumailov 说,特别是如果生成式人工智能随着时间的推移学会在其反应中产生一个种族,而“忘记”他人存在。
重要的是要注意,这种现象不同于“灾难性遗忘”,模型会丢失以前学到的信息。相比之下,模型崩溃涉及模型根据他们强化的信念误解现实。
这篇论文背后的研究人员发现,即使10% 的原始人类创作数据被用来训练后代的模型,“模型崩溃仍然会发生,只是不会那么快”Shumailov说道。
幸运的是,即使使用现有的转换器和 LLM,也有一些方法可以避免模型崩溃。
研究人员强调了两种具体方式。第一个是保留原始的完全或名义上由人工生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始用它完全刷新。
避免响应质量下降并减少 AI 模型中不需要的错误或重复的第二种方法是将新的、干净的、人类生成的数据集重新引入到他们的训练中。
然而,正如研究人员指出的那样,这需要内容制作者或人工智能公司采用某种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。
“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表,”Shumailov 说道。
这些发现对人工智能领域具有重要意义,强调需要改进方法以随着时间的推移保持生成模型的完整性。他们强调了未经检查的生成过程的风险,并可能指导未来的研究制定策略来防止或管理模型崩溃。
很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成 AI 继续改进。
(举报)
关键词:
责任编辑:宋璟
-
天天即时:研究人员警告:用AI生成的内容训练AI,可能会出现“模型崩溃”
-
快鲤鱼首发 | 巴基斯坦汽修数字化平台Okayker完成种子轮融资
-
西凤二十四节气之芒种篇:酒文化致敬传统农耕之俗 微动态
-
华为手机充电充不进去是什么原因_华为手机充电充不进去
-
瑞尔特:年产120万套智能卫浴产品项目处于待投产状态
-
环球快播:高级语言的特点
-
全球今亮点!力矩和力臂区别是什么
-
6月14日福建地区氢氟酸市场价格暂稳|每日关注
-
《深圳四大支柱产业的崛起》捐赠分享会举行
-
凤台执法中队党支部持续打好小区占绿毁绿、室外摆放整治“攻坚战”
-
保险观察|三家专业健康险公司争相“换帅”,能否带来“新思路”|观焦点
-
当前已收获冬小麦面积达2.67亿亩 全国麦收进度过八成 每日讯息
-
护照可以异地办理吗需要户口本吗_护照可以异地办理吗
-
融创境外重组获87%债权人支持,强制可转债提高至22亿美元-今日精选
-
滴滴如何赚钱快-滴滴快车司机赚钱技巧 天天快报
-
当前快报:我俩是对象把我信用卡刷了!!!给我打了个欠条我能报警吗
-
当前资讯!涉矿概念有哪些股票?(2023/6/14)
-
小米概念股板块6月13日涨0.66%,美芯晟领涨,主力资金净流入4.38亿元
-
当前资讯!2019考研报名时间表_什么时候能知道考研的时间
-
请帖称呼先生_请帖称呼
-
手机话筒灰尘如何清理_手机话筒灰尘怎么清理 手机听筒进了灰尘该怎么清理呢 全球新视野
-
居民存款连续两月同比少增 钱去哪儿了?
-
椰子鞋重出江湖!为清库存阿迪达斯拼了|热门看点
-
如此“解惑”_每日头条
-
中国厂商首次!e签宝进入Gartner 展示产品,中国电子签名呈现七大特色_今日热讯
-
旅行时需要注意的问题_旅行容易忽略的7件事一\"
-
宝宝鞋钩法视频全过程(宝宝鞋的钩法视频)
-
刚考完科目一就买车上路 男子:想提前预习科目二、科目三 速看
-
兰花怎么养视频教程大全_兰花怎么养 全球关注
-
岸田文雄:下降的出生率是一个不能拖延的问题
-
中国女足迎噩耗,王霜暂别国家队,3人回归省队,水庆霞进退两难
-
世界滚动:艺术感UP!杨浦这个街道联手高校打造“社区美育”新空间
-
当前讯息:阿根廷记者感叹中国球迷热情:从未见过这样的场面!
-
6月13日浙江世宝涨停分析:无人驾驶,汽车零部件,新能源车零部件概念热股
-
湖南新晃:300万基金为护林员撑起 “致富伞”