课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的用户数据被存储到了互联网之中,而今天我们就通过案例分析来了解一下,数据增强的意义与常见数据增强类型。
一、为什么需要数据增强
1、数据是机器学习的原材料,而大部分机器学习任务都是有监督任务,所以非常依赖训练数据,而训练数据就是一种有标注数据,比如做文本分类的任务,就需要一些标注好的文本数据,算法起到一个拟合有标注的数据的作用,从数据中找到一定规律,比如某个数据属于某一类是由于某种特征,通过这个过程,终收获一个能预测一些规律的模型,从而使用这个模型去做一些预测。因此想要让人工智能模型有更好的效果,需要更大,质量更好的数据,当只有少类样本的时候,就需要数据增强来提高数据量。
2、单纯使用人工标注数据费时费力,而且当需要标注大量数据时,很多时候不可避免就会因为各种人为因素导致标注错误,从而使数据质量降低。
3、引入数据增强,希望使用机器,根据标注样本,生成更多的标注样本,从而减少人工标注的工作量,进而低成本的提升模型效果
二、数据增强分类
主要分为:文本增强,图像领域的数据增强,语音领域的数据增强
1、图像领域的数据增强的本质
通过对原始图片进行平移、旋转、裁剪、遮挡、反转、放缩、灰度等处理,保证原始图片类别不变的前提下,生成大量数据。
2、语音领域的数据增强的本质
通过对原始音频加入音速扰动、音量扰动、以及进行频率遮蔽、时间遮蔽,加入噪音等方式,在音频原始内容标签不变的前提下,实现数据增强。
3、文本增强的本质
文本增强就是在尽量保证标签语义不变的前提下,用少量有标注的数据生成大量的有标注的数据
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请在707945861群中学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。