文档结构  
翻译进度:已翻译     翻译赏金:0 元 (?)    ¥ 我要打赏

成为2级新手

我第一次在工作中遇到实际的机器学习应用。我们要准备一个识别Zooplus商店中欺诈行为的应用。在经过几个月尝试了不同的解决方案之后:外部提供者,在代码中额外的if语句,灭火脚本等诸如此类,我们最终得到机器学习是最适合该工作的结论。自此以后,我们试着说服周围的人投资我们的教育并继续机器学习之路,但是并没有引人关注的成功。然而偶然的一个机会,我通过尝试Amazon的机器学习功能迈出了我的第一步,因而我认为自己是一个2级新手。在本文中,我会尝试向你 — 1级新手 — 展示如何迈出第一步,并切实地感受什么是机器学习。

第 1 段(可获 1.83 积分)

什么是机器学习?

在互联网上,也许有成百上千的机器学习的定义。但是,我是初级的傻瓜,我们希望得到一些简单的东西——一些傻瓜式的东西!让我们一起来解决这个问题吧。

术语中的“机器”可能指的是计算机。我们可以想到计算机,无人驾驶飞机和其他东西,但是他们是由计算机控制的,对么?所以,机器学习是关于“计算机学习”的。

学习实际上是指的什么呢?计算机并没有大脑!没有神经元的激活,没有路径的创建。它能做的所有只是存储一些数据和进行一些操作。但是我们知道它是和数据有关的,而且是大数据(至少DZone是这么说明的)。所以我们有“关于大数据的计算机处理”。

第 2 段(可获 1.76 积分)

那么,“处理”指的是什么呢?作为2级新手,我可以大概讲解一下(不过我敢打赌,真正的从业人员会认为我说的话一点也不正派)。我所说的,就是利用1级新手和2级新手不想知道的高级算法进行统计分析。

我想,这样就足以形成我们在这篇文章中给机器学习定下的最终定义:“电脑对大数据进行统计分析”。够酷吧?

机器学习有什么用?

我懂,我懂。读了这么多,你还是不晓得这一切关于机器学习的知识到底有什么用。作为2级新手,我要再次说一下,我有了一个学习机器学习的机会。

第 3 段(可获 1.48 积分)

有两种机器学习:监督非监督

监督学习

我非常希望给出监督孩子的类比,但是我并不能够。是谁发明的这个名字?!

监督学习是当你为计算机提供你期望查找的信息时,-还记得我工作识别欺诈行为的例子吗?那就是监督学习。-我告诉计算机:我希望知道这个客户是否是一个欺诈者!而计算机器执行其高级魔法并给出答案:是的,主人!或者,不是,主人!他是一个笨蛋,但是普通的一个。通常,监督学习用于所谓的分类问题中。你为计算机提供大量的数据,而它进行分类:美国人是否会再次投票给 Mr. Trump ?这个人是否得了癌症?你是否会继续阅读这篇长而有趣的文章?

第 4 段(可获 1.85 积分)

非监督学习

非监督学习是你并不清楚你正在寻找什么时,你毫无思路,你告诉计算机:这里有一堆数据!找出一些有趣的内容来。而它会执行比监督学习中所用的更为高级的算法。

因为我们并不是毫无头绪-我们确切地知道我们需要什么(而且我们对更为高级的算法并不感兴趣),在接下来的部分我们会专注于监督ML。

Amazon ML简介

在不久以前,对于你和我这样的新手接触机器学习非常困难。它是整天思考数字并且认为Scala与Python是好的编程语言的书呆子们的游戏。多亏了Amazon,精于销售的这帮家伙开始卖他们自己的基础设施,并且为我们提供了伟大的工具:Amazon机器学习。

第 5 段(可获 1.9 积分)

创建数据源

我们拥有超过600个文本单词,所以我们最好直接进入工作。打开你的Amazon Web控制面板并找到“机器学习”按钮。点击!你会看到一些为你提供教程之类内容的屏幕。忽略它!你不需要新手教程,因为你已经在新手教程的中间部分了。你应该看到如下内容:

Image title

所以,在大数据上执行计算统计分析的第一步将是提供真正的大数据。使用下面的链接下载文件并将其放入S3桶中:

https://s3.amazonaws.com/aml-sample-data/banking.csv

第 6 段(可获 1.4 积分)

(是的,我们正在使用AWS文档教程所提供的数据。只是这个教程相对更好!)

你一旦完成,你可以返回机器学习屏幕并选择 "Create new..." ,然后选择 "Datasource". 你应该可以看到如下内容:

Insert the S3 location and choose a Datasource name. 名字无所谓。 (最终我们会将其删除), 所以你可以为其指定任意名字。完成后点击 "Verify" 并选择 "Continue".

你应该可以看到类似如下的屏幕内容:

Image title

正如你看到的,Amazon通过将数据分割为不同的数据类型试图使该数据更为合理。因为这是他们的新手教程数据,所有内容都应该更为平滑。你只需要对列名相关的问题点击 "Yes" ,如果一切顺利,最后一页命名为 "y" 应该是 "Binary" 类型。如果正是这种情况,点击 "Continue";否则,我不知道 - 我只是一个2级新手。

第 7 段(可获 2.2 积分)

在第三页,Amazon最终会询问我们真正希望得到什么样的魔法结果。那正是 "Target" 。在如下的屏幕中选择最后一列:

Image title

正如你看到的,Amazon将其识别为一个二分类问题,这意味着我们现在是监督者了!点击 "Continue"。

我们的数据并不包含标识符,所以点击 "Review" 并选择 "Create Datasource"。他需要一段时间直到创建完成。一旦完成,你应该看到如下内容:

我们完成了数据源!在系统中我们拥有我们的大数据了!

创建ML模型

第 8 段(可获 1.33 积分)

有了上千的单词,我们已为了最重要的部分做好了准备。我们将会创建实际的统计分析部分。ML模型是我们的超酷的机器学习解决方案的大脑。它是由Amazon基于我们的大数据与设置所创造的神奇生物,可以为所提供的数据预测列 "y" 的值。让我们开始吧!

回到机器学习面板,再一次选择 "Create new..." 然后选择 "ML Model"。选择我们新创建的数据源。我们应该看到类似如下的内容:

Image title

点击 "Continue" 然后选择 "Review" 与 "Create ML Model". 我们并不希望修改任何高级设置。记住,我们仅是1级与2级的新手;我们仅是希望可以看到一切可以正常工作。

第 9 段(可获 1.55 积分)

一段时间后按F5刷新,我们应该看到成功界面(如下所示)。我们的ML模型已成功创建!

Image title

创建预测

如果我们创建了我们解决方案的神奇大脑而不预测任何事情,那我们会感到遗憾。由ML模型成功界面的左边选择 "Try real-time predictions" 。 点击 "Paste a record" 按钮并粘贴如下内容:

32,services,divorced,basic.9y,no,unknown,yes,cellular,dec,mon,110,1,11,0,nonexistent,-1.8,94.465,-36.1,0.883,5228.1

该行与我们的大数据文件具有相同的格式,但是缺少最后一列 - "y" 。这正是我们的神奇ML模型将要预测的内容。如果已为惊奇做好准备,点击  "Create prediction" 。

第 10 段(可获 1.35 积分)

Image title

Yes, yes, yes! 它起作用了!它预测了!如果你正确地做了我告诉你的所有事情,你预测屏幕的右边应是类似如下的内容:

Image title

"Predicted label" 是我们预测的结果 - 惊人的 0!正是它!

清理

确保由S3桶中删除数据,从而你不会为存储支付费用。你可以由你的帐户中删除机器学习,这取决于你,因为它不会花费任何费用。

总结

我们由给出一个糟糕的机器学习定义开始。然后,我们学习监督机器学习与非监督机器学习之间的区别。最后,我们通过Amazon机器学习接口创建了一个简单的预测。现在你也许想要知道的是:我们预测了什么?我们在那里放置的是什么数据?如果它没有起作用该怎么办?目前,这些无所谓。它仅是一个例子。现在重要的是,我的2级新手是你希望预测什么?你有什么可以利用的数据?以及为使其起作用你可以做什么?在下面我会为你提供一些资源,祝你在成长为3级的道路上好运!

第 11 段(可获 2.6 积分)

文章评论