资讯专栏INFORMATION COLUMN

如何从机器学习数据中获取更多收益

yhaolpz / 1058人阅读

摘要:摘要本文讲解一些关于机器学习数据集的小技巧,分享个人经验,可供读者参考。在之前的博客如何定义你的机器学习问题中,我总结了一些框架,可供读者参考。

摘要: 本文讲解一些关于机器学习数据集的小技巧,分享个人经验,可供读者参考。

对于深度学习而言,合适的数据集以及合适的模型结构显得至关重要。选择错误的数据集或者错误的模型结构可能导致得到一个性能不佳的网络模型,甚至可能得到的是一个不收敛的网络模型。这个问题无法通过分析数据得到很好的解决,只能是通过一次次的制作数据集、搭建模型并进行仿真实验才能发现如何最好地利用数据集以及选取什么样的模型结构。
本文讲解一些有关于数据集的实用知识,通过本文你将了解以下三点:

探索可能的模型框架;

开发一套“视图”对输入数据进行系统测试;

特征选择、特征工程和数据准备中的想法可以对问题产生更多的观点;

1.问题框架

用多种方法建模预测问题。
问题的框架是指:

输入

输出

问题的类型

比如

可以使用更多或更少的数据作为模型的输入吗?

可以预测其它的东西吗?

能把问题转换为回归/分类/序列等问题吗?

 越有创造力,思考得就越全面。在这个过程中,可以借鉴一些其它项目、论文和领域中的想法,或者是展开头脑风暴等。在之前的博客《如何定义你的机器学习问题》中,我总结了一些框架,可供读者参考。

2.收集更多的数据

 数据越多越好,只要是与预测结果相关的数据都是可以的。因为对于某个具体任务而言,不清楚多少数据量才算合适。数据是开发模型期间使用的货币!
数据一般花费在以下任务上:

模型训练;

模型评价;

模型调优;

模型验证;

 此外,对于一个新项目而言,没有实际经验可供参考,一切都得自己摸索,这个时候就得将数据收集齐全,以便后续足够实验阶段使用。

3.研究数据

将能够想到数据都可视化,从各个角度来看收集的数据。

查看原始数据会有所帮助;

查看汇总统计会有所帮助;

数据可视化很有用,将更加的形象化以便能够了解更多的知识;
  对于原始数据处理和汇总统计、数据可视化而言,可以在上面花费很多的时间。这些工作可以帮助你更好地了解数据,从而更好地选择、设计相应的模型。

4.训练数据样本大小

 使用少量的数据样本做敏感性分析,看看实际需要多少数据,可参考博客《机器学习中训练需要多少样本》。此外,不要认为训练数据越多越好,适合的才是最好的。因此,需要做到以下两点:

设计实验以了解模型性能随着样本的大小发生怎样的变化
使用统计数据来了解趋势是如何随样本大小的变化而变化的
基于以上两点才能对模型性能曲线有所了解。

5.特征选择

 创建许多不同的输入特征视图并对其测试,因为我们不知道哪些变量对预测模型问题有所帮助。

可以假设猜想;
可以使用某个领域专家的建议;
可以借鉴来自特征选择方法的建议;
 以上所有的这些都是猜测,需要具体实验验证。
设计实验并仔细测试和比较各个特征视图,通过实验数据来告诉我们哪些特征和哪些视图是最具代表性的。有关特征选择的更多内容,可参考博客《特征选择导论》。

6.特征工程

 使用特征工程在预测建模问题上创建附加的特征和视图。
例子包括:

日期/时间;
交易;
描述;
 将这些数据分解为更简单的附加组件特性,比如计数、标志或其它元素等。尽可能简化建模过程。有关特征工程的更多内容,可参考博客《发现特征工程、如何设计特征并利用好它》。
7.数据准备
 可以用能想到的任何一种方式预处理数据,以满足算法的要求。预处理的方法有很多,比如特征选择、特征工程以及在输入特征上创建附加视图。常用的预处理操作比如:

归一化输入特征;
标准化输入特征;
使输入特征变得平稳;
 应用所能想到的数据预处理方法,对问题建立新的观点,并用一套或多套模型进行测试,看看性能如何。我们的目标是发现数据的视图,最佳地将映射问题的未知底层结构展现给学习算法。

 通过这篇文章,你将学到一些小的技巧,可以最大限度地利用数据。具体而言,学到以下三点:

探索可能的模型框架;

需要开发一套“视图”对输入数据进行系统测试;

特征选择、特征工程和数据准备可以对问题产生更多的观点;

作者信息
Jason Brownlee,专注于机器学习教育、推广个人主页:https://machinelearningmaster...
本文由阿里云云栖社区组织翻译。
文章原标题《How to Get the Most From Your Machine Learning Data》,译者:海棠,审校:Uncle_LLD。
详情请阅读原文

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18394.html

相关文章

  • 强化学习在美团“猜你喜欢”的实践

    摘要:本文将介绍美团猜你喜欢展位应用强化学习的算法和工程经验。其二,允许我们根据物理意义对做,从而减轻强化学习更新过程不稳定造成的实际影响。完成上述工作后强化学习在自己的目标和业务指标上已经能取得了一些正向效果,但不够稳定。 1 概述 猜你喜欢是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目前...

    曹金海 评论0 收藏0
  • 强化学习在美团“猜你喜欢”的实践

    摘要:本文将介绍美团猜你喜欢展位应用强化学习的算法和工程经验。其二,允许我们根据物理意义对做,从而减轻强化学习更新过程不稳定造成的实际影响。完成上述工作后强化学习在自己的目标和业务指标上已经能取得了一些正向效果,但不够稳定。 1 概述 猜你喜欢是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目前...

    since1986 评论0 收藏0
  • 强化学习在美团“猜你喜欢”的实践

    摘要:本文将介绍美团猜你喜欢展位应用强化学习的算法和工程经验。其二,允许我们根据物理意义对做,从而减轻强化学习更新过程不稳定造成的实际影响。完成上述工作后强化学习在自己的目标和业务指标上已经能取得了一些正向效果,但不够稳定。 1 概述 猜你喜欢是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目前...

    hiyang 评论0 收藏0
  • 基于区块链的机器学习模型创建方案

    摘要:摘要区块链不仅会改变人工智能获取数据的方式,也会影响模型的创造通过基于区块链市场产生的数据训练出的机器学习模型有可能成为世界上最强大的人工智能。 摘要: 区块链不仅会改变人工智能获取数据的方式,也会影响模型的创造! 通过基于区块链市场产生的数据训练出的机器学习模型有可能成为世界上最强大的人工智能。它们结合了两个强大的原始资源:私人机器学习,允许在不透露敏感私人数据的情况下进行训练,以及...

    Labradors 评论0 收藏0
  • 大众点评搜索基于知识图谱的深度学习排序实践

    摘要:在美团中心以及大众点评搜索智能中心两个团队的紧密合作之下,经过短短半年时间,点评搜索核心在高位基础上仍然大幅提升,是过去一年半涨幅的六倍之多,提前半年完成全年目标。搜索场景深度学习排序模型的特征工程实践。 1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜...

    lily_wang 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<