
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的企业都引入了人工智能技术,而本文我们就通过案例分析来了解一下,人工智能技术实践需要注意哪些问题。
1.了解您的问题
解决任何问题的基本部分是确切地知道你正在解决什么问题。确保你了解你要预测的内容、任何限制以及该项目终目的是什么。尽早提出问题,并与同行、业务专家和终用户验证你的理解。如果你发现答案与你的理解一致,那么你就知道你是走在正确的道路上。
2.了解您的数据
通过了解你的数据的含义,你就能够了解哪种模型运行良好以及使用哪些功能。数据背后的问题将影响哪个模型成功,计算时间将影响项目成本。通过使用和创建有意义的功能,你可以模仿或改进人工决策。了解每个字段的含义对问题很重要,尤其是在受监管的行业中,数据可能需要匿名化,因此不太清楚。如果你不清楚某个功能的含义,请咨询相关领域业务专家。
3.拆分OR清洗您的数据
你的模型将如何处理看不见的数据?如果它不能泛化到新数据,那么它在给定数据上的表现并不是重要的。我们在训练时不让你的模型看到部分数据,你可以验证它在未知情况下的表现如何。这种方法对于选择正确的模型架构和调整参数以获得佳性能是至关重要。
对于监督学习问题,你需要将数据分成两部分或三部分。
训练数据——模型从中学习的数据——通常是随机选择的原始数据的75-80%。
测试数据——你评估模型的数据——是剩余的数据。
根据你正在构建的模型类型,你可能还需要三个称为验证集的保留数据,用于比较已根据测试数据调整的多个监督学习模型。在这种情况下,你需要将非训练数据拆分为两个数据集,即测试和验证。
4.不要泄露测试数据
重要的是不要将测试数据中的任何信息输入到你的模型中。这可以对整个数据集的训练产生负面影响,也可以像在拆分之前执行转换(例如缩放)一样微妙。例如,如果你在拆分之前对数据进行规范化,则模型正在获取有关测试数据集的信息,因为全局小值或大值可能在保留的数据中。
5.使用正确的评估指标
由于每个问题都是不同的,因此必须根据上下文选择适当的评估方法。幼稚—也可能是危险的——分类指标的准确性。考虑检测癌症的问题。如果我们想要一个相当准确的模型,我们总是预测“不是癌症”,因为超过99%的时间可以验证我们都是正确的。然而,这不是一个非常有用的模型,我们实际上想要检测癌症。注意考虑在分类和回归问题中使用哪种评估指标。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。