文档结构  
翻译进度:已翻译     翻译赏金:0 元 (?)    ¥ 我要打赏
参与翻译: solowolf (15)

尽管大数据已经成为一个时髦的口号,但好消息是它是有实质性内容的。 通过一点努力,即使是非技术人员也可以理解这些内容,开始为公司工作。

John Foreman,MailChimp 的首席数据科学家 也曾在可口可乐和国防部做过顾问,他在“Data Smart: Using Data Science to Transform Information into Insight”一书中给出了一个简明的定义。 大数据是“使用统计和数学将数据转换为洞察,决策和产品”。

第 1 段(可获 1.15 积分)

Foreman 还指出,你不需要从一个庞大的数据集开始—当地的肉店就有可以分析的销售数据。 虽然如果你为一个大公司工作,并有数百万客户的销售记录,会更好一些。

揭秘时髦的口号“大数据”的一部分是理解使用统计分析技术来分析你的业务,其中一些内容已经存在了大约50年或更长时间。

二十一世纪“大数据”现象的根本区别在于我们可以带来计算能力。 收集数据的传感器,存储数据的驱动器以及分析它的软件和硬件的进步意味着我们可以有效地分析比几个世纪前更多的数据。

第 2 段(可获 1.65 积分)

在 Big Data: A Revolution That Will Transform How We Live, Work, and Think.一书中描写道:想象一下,2013年,世界上的数据总量大约为1,200EB—如果把这些数据写入CD-ROM,将它们放在五个高耸的木桩上,每个木桩都可以达到月亮的高度。 SAS研究所数据科学家 Jared Dean 则这样说,每一天,每个美国工人会生成五十亿字节的个人数据—其中包括电子邮件,网络搜索,流音乐或电影,以及语音或视频聊天—再加上其他通过互联网从交通传感器,监控摄像机和手机GPS传输的数据。

第 3 段(可获 1.29 积分)

现在生成和存储十亿字节的数据已经不再困难—而挑战则是在这些数据中找到有意义的东西。如何通过分析使数据成为丰富的业务洞察力来源?

大数据擅长发现事务的相关性而不是因果关系.

一个伟大的起点是“你喜欢什么”和“为什么你喜欢”之间的区别—或者技术上称为相关性和因果关系之间的区别。 正如 Viktor Mayer-Schönberger 和 Kenneth Cukier 在他们的书中指出的 (Big Data: A Revolution That Will Transform the Way We Work, Live, and Think),这些算法不知道为什么你喜欢你喜欢的东西。 但他们已经根据你以前购买的东西了解到你会喜欢什么。

第 4 段(可获 1.6 积分)

当你思考这种关系时会觉得似乎有点奇怪—一个算法可以告诉你,你可能会喜欢新出的 Matt Damon惊悚片,因为你去年夏天买过 Mark Wahlberg 的电影票,但不能说出确切的原因。 所有的数据分析可以告诉你,Wahlberg 的球迷也喜欢 Damon。

找到产品A和产品B之间的相关性,如 Damon 的电影和 Wahlberg 的电影,是计算机非常擅长的事情。 但是因果关系不可能用标准数学公式表示。

从商业的角度来看,这是可以的—重要的不仅仅是为什么。 了解你喜欢什么来吸引你去点击和购买。 例如,四分之三的Netflix 新订单来自算法的建议。 亚马逊销售额的三分之一来自个性化推荐算法,分析你的历史购买数据来查找与其他人喜欢的产品之间的关联。 大型上市公司部分建立在大数据寻找相关性的能力之上。

第 5 段(可获 2.08 积分)

然而,亚马逊和 Netflix 的推荐引擎只是将大数据集转变为业务洞察的一种方式。 杰出的数据科学家有大量的统计技术用于分析信息—有的新,有的旧。 然而,在你打算成为数据科学家之前,你需要先问自己一个重要的问题。

想要了解的数据集类型是什么?

如果你不问这个重要的问题,你可能会被大量的原始数据淹没。 Emory大学商业教授 David Schweidel指出,许多管理人员对用大数据做一些事情感到有压力,他们开始收集时没有一个明确的目标。 Schweidel 在他的书“Profiting from the Data Economy: Understanding the Roles of Consumers, Innovators, and Regulators in a Data-Driven World”中写道:“他们认为他们有一个万无一失的策略:跟踪“一切”,而不是思考他们想要实现什么来收集合适的数据实现这些目标。

第 6 段(可获 2.01 积分)

如果你“跟踪一切”,一旦你明白想要做什么,你仍然需要再次浏览这些数据。 与此同时,你还需要解决软件,硬件和人员成本。

关键点? 不要急于冲进去开始跟踪一切。 你甚至可能发现你的公司已经收集了几TB的有用数据。 开始的最好方法是查看人们用大数据成功解决的问题类型,以便了解你在业务中可能完成的工作。 这里有几个例子:

  • 品牌:在 Twitter 上查看产品的评论来获取对“客户情绪”的分析。通过从Twitter收集你的品牌的数据,数据科学家不仅可以告诉客户的感觉,而且可以知道他们对它的感觉有多强烈 。 然后,数据科学家可以帮助你自动做出反应:重新发布正面评论,并向不满意的客户发送私人消息。
第 7 段(可获 2.1 积分)
  • 市场研究:分析你过去的销售记录来细分你的客户群,通过认真定制的营销活动定位具有相同想法的群体。
  • 操作:分析交货司机的地理位置数据,以便从汽油使用和时间方面优化最有效的路线。 数据科学家可以通过比较你的货车在路上位置的最新数据和历史数据,推断出什么路线会被车辆堵塞或需要耗费时间转弯绕过路口。
  • 生产优化:一家大型饮料公司使用数据来找到不同种类的橙子的最佳混合物,这些橙子具有不同的成本,涩味,甜度和酸度,以便在保持质量标准的同时使利润最大化 。
第 8 段(可获 1.45 积分)
  • 研究:一个大型对冲基金聘请研究人员一次跟踪了200家公司的实时新闻。 这个团队花了大量的时间去寻找数据,例如寻找公司的新闻稿,管理的网站,SEC文档和公司网站的更新,但他们无法采集所有的变化。 数据咨询公司 BrightPlanet 整合了一个算法来对互联网进行搜索并自动编译信息,从而使团队集中精力分析结果。

有趣的大数据特征分析

许多数据集有一些你应该记住的不寻常功能。

第 9 段(可获 1.24 积分)
  1. 大数据的“混乱”

你可能会惊讶于你的顾问在项目的“数据准备”阶段使用的时间。不要惊讶。 因为计算机,数据库和算法变化如此之快,获取的大数据集通常是混乱的且来源不同,在这种情况下分析是相当有挑战性的。 Jared Dean 在他的书“Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners”中说:“数据建模项目花费的时间大部分实际上是在准备分析数据。

第 10 段(可获 1.19 积分)

数据科学家会毫不犹豫地将他们的数据集描述为“混乱的”(这实际上是它的技术术语)。例如,想象一下,你使用一个网络爬虫算法从不同的网站编译不同格式的大量新闻稿,微博,新闻报道和政府文件。 而爬虫算法的结果并不能采集到电子表格中整齐的,结构良好的行以及数据库中的字段。

这种“非结构化”数据需要以算法可以分析的方式被“清洗”或统一。 这就是为什么“数据准备”通常需要这么多时间。

第 11 段(可获 1.19 积分)

2.你不需要样本

与模拟时代的统计数据不同,当时你可以调查1,100人来代表你的整个客户群,而今天的计算能力意味着你可以看看所有的数据。 使用所有的数据而不是样本会产生巨大的区别。

例如,信用卡欺诈分析依赖于在数百万普通用户中查找到正在进行欺诈的统计异常值。 欺诈者就像谚语中大海中的针— 统计学家称之为“基于肢体的模型”,因为异常的数据点正是你要找的。 正如 Jared Dean 解释的,如果你在寻找1%概率发生的信用卡欺诈,而只有20%的样本数据,你可能不会发现任何欺诈。 你需要所有的历史数据,特别是过去已知的欺诈性交易,以便可靠地检测将来的可疑交易。

第 12 段(可获 2.03 积分)

3.  “数据化

Viktor Mayer-Schönberger 和 Kenneth Cukier 提出了“数据化”这一术语,它意味着廉价的传感器,硬件和数据存储使得收集某些类型的数据成为可能,而跟踪这些数据以前是不切实际的。例如,UPS 希望在城市中找到更节省燃料的路径,因此他们跟踪卡车的地理位置信息来研究这个问题。特别地,UPS的数据科学家寻找方法来避免交通拥堵,减少横跨交叉口的拐弯次数,因为这可能导致意外事故,同时也会使时间浪费在等待转弯上。到 2011年,该公司已经从路线上去掉了3千万英里,节省了300万加仑的燃料,减少了3万吨的二氧化碳排放量。在智能手机的出现和GPS传感器的商品化之前,即使对于大型公司,这种类型的数据分析成本也是非常昂贵的。留意你的业务“数据化”的机会,这在以前是不可行的。

第 13 段(可获 2.06 积分)

4. 数据废品

因为存储和收集数据的成本已经很便宜,所以你可以保存一些数据“垃圾”,也许就能找到使用它的方法。 例如,Google每天都会收到大量包含错别字或拼写错误单词的搜索查询请求。该公司从其利润丰厚的搜索引擎业务中提取出这些“废品”,在改进搜索的同时(例如:“你要搜索的是 ornithologist 吗?”),开发了一个强大的拼写检查工具。 拼写检查工具支持多种语言,现在已经集成到其他Google产品(如Gmail和Google文档)中。 要注意类似的机会,把数据废品利用起来,而不是丢弃它。

第 14 段(可获 1.36 积分)

下一步

现在,你对大数据有了更好的了解,是时候开始深入了解公司的数据来收集洞察信息了。

想完成更多的工作,快来找 freelance帮忙。 立即发布职位,开始吧!

 

第 15 段(可获 0.53 积分)

文章评论