新闻中心
数据分析,数据挖掘,数据科学,机器学习和大数据有什么区别?(大数据分析跟数据挖掘的关系)
几天以来我一直尝试回答这个问题,但总是看起来像一个巨大的任务,因为这个问题涉及太多知识点。另外,这是一个很多人眼中的问题,还有很多人也是管中窥豹。
让我先重新点一下要点:
大数据
数据挖掘
数据分析
Analytics(分析)
机器学习
数据科学
想象你想成为一名数据科学家,并且在像亚马逊,英特尔,谷歌,FB,苹果等大型组织中工作。请加大数据学习交流8群640193172,教你方法。
那怎么样?
首先您将不得不处理大数据,您必须在SQL,Python,R,C ++,Java,Scala,Ruby ...等中编写计算机程序,才能维护大数据数据库。您将被称为数据库管理器。
作为从事过程控制的工程师,或者想要简化公司运营的人员,您将执行数据挖掘和数据分析; 您可以使用简单的软件来执行此操作,只能运行其他人编写的大量代码,或者您可能会在SQL,Python,R中编写详细的代码,您将进行数据挖掘,数据清理,数据分析,建模,预测模型等。
所有这一切将被称为“ 分析”。有几个软件可以做到这一点。一个受欢迎的是Tableau。还有一些是JMP和SAS。很多人在网上做一切可以使用基于SAP的商业智能设置的网路。在这里,简单的报告可以轻松完成。
此外,您可以使用机器学习得出结论,并提出预测,无论分析答案是不可能的。将分析答案考虑为[If / then]类型的计算机程序,其中所有输入条件都已知,并且只有几个参数更改。
机器学习使用统计分析来分割数据。一个例子就是这样:阅读各界人士对Yelp的评论,并从评论中预测该人是否会标记餐厅4星级或5星级。
如果这还不够,你也可以使用深层次的学习。深度学习用于处理数据,如音乐文件,图像,甚至文本数据,如自然语言,数据巨大,但其类型非常多样。
您将利用一切有利于您的分析解决方案,分析数据,黑客思维方式,编程自动化,报告,导出结论,作出决定,采取行动,并讲述您的数据故事。
最后但并非最不重要的一部分将在巡航控制上发生,您可能不在身体,但您可能创建的程序将会做大部分的事情。可能如果你把它带到AI的水平,有一天它可能比你更聪明,不用说,它已经比你更快。有一天,它可以达到你可能会想到的解决方案让你感到惊讶的程度。
现在你是一个数据科学家,你会做什么叫做数据科学。
无论您做什么,您的公司以外的人都可能看不到或可能不会看到,如果您为亚马逊工作,或者如果您在Google上工作,提出问题可以向Google提出问题,如人们向Alexa提出各种问题。或者他们可能没有看到你做的任何事情。您的职能将帮助公司更好的工程师。
为了做到这一切,你可能需要很多专业知识来处理几种编程语言的数据和知识。
在互联网上看到的一个流行的数据科学维恩图在这里:请注意,数据科学家处于很多事情的交叉点。沟通,统计,编程和业务。
在所有的严重性,如果你想要一个详细的文件,所有这一切,我建议,继续阅读这个麦肯锡报告,以获得充分的了解。我只是简单地提取了几个部分,因为我只想增加别人知识的顶部,把这些概念像一个故事放在一起,以激发人们思考这个问题,开始自己的旅程。
我会一步一步地回答几个问题,如果可能的话,我会给几张照片,或者给你展示一些情景。
麦肯锡顾问!你是惊人的,所以如果你读了这个答案中写的东西,你在某个时间点输入,我会给你全部的信用。
大数据是什么意思?
大数据是指数据集的大小超出了典型数据库软件工具捕获,存储,管理和分析的能力。这个定义是有意识的,并且包含了一个数据集需要大量数据以便被视为大数据的移动定义,即我们不需要大于一定数量的TB(千兆字节)来定义大数据, 。我们假设随着技术的进步,随着时间的推移,有资格作为大数据的数据集的大小也将增加。还要注意,定义可能因行业而异,这取决于通常可用的软件工具类型以及特定行业中常见的数据集的大小。有了这些警告,今天许多行业的大数据将从几十兆字节到多千兆字节(千兆字节)。
我可能需要处理的数据的典型大小是多少?有时GB,有时只有几MB,有时高达1TB。有时复杂性是什么。数据可能代表相同的事情。有时复杂度可能非常高。我可能会有一个巨大的文件,其中包含大量可以被结构化或非结构化的数据和日志。
想想例如梅西百货。有成千上万的商店,每天向数百万客户销售数千件商品。如果梅西希望得出一个结论,他们是否应该在鞋子上多样化,还是应该在妇女钱包中多样化?他们如何做出这个决定?
那么一个自然的问题是:我们如何衡量大数据的价值?
测量数据测量数据量会引发许多方法学问题。首先,我们如何区分数据与信息和洞察力?常见的定义将数据描述为原始指标,信息作为这些信号的有意义的解释,以及洞察力作为可操作的知识。
例如 - 在这张图表中,有人已经为各个地区划分每个学生的费用。它使其中的几个脱颖而出。
现在让我们来分析一下:这是数据科学家的重要组成部分。
分析大数据的技术
有许多技术可以用于统计和计算机科学(特别是机器学习)等学科,可用于分析数据集。这个清单并不详尽。事实上,研究人员继续开发新技术并改进现有技术,特别是在分析新数据组合的需要时。
另外请注意,并不是所有这些技术都严格要求使用大数据 - 其中一些技术可以有效地应用于较小的数据集(例如,A / B测试,回归分析)。然而,这里列出的所有技术都可以应用于大数据,而且一般来说,可以使用更大和更多样化的数据集来产生比较小的,不那么多样的数据集更多和更有见地的结果。
A / B测试。 将控制组与各种测试组进行比较以确定哪些治疗(即变化)将改善给定的目标变量(例如营销反应率)的技术。这种技术也称为拆分测试或水桶测试。示例应用程序正在确定哪些副本文本,布局,图像或颜色将提高电子商务网站上的转换率。大数据可以执行和分析大量的测试,确保组的尺寸足以检测对照组28和治疗组之间的有意义的(即统计学上显着的)差异(见统计)。当在治疗中同时操作多个变量时,应用统计建模的该技术的多变量泛化通常被称为A / B / N”测试。
想象一下,可口可乐与Facebook签约进行营销和销售工作。Facebook会根据客户的广告。它可以创建广告版本。并非所有版本都适用于每个地理。有的会适合美国,有的会适合印度。有些适合居住在美国的印度人。Facebook可以做的是从大型游泳池中选择一小部分人,并根据这些人是否喜欢食物,将广告传递给他们的饲料。对于每个广告,Facebook将收集回复,并据此确定哪个广告做得更好,而在更大的人群中,它会使用更好的广告。数据科学是否让某人更好地确定答案应该是什么?绝对!
协会规则学习。一组用于发现有趣的关系的技术,即大型数据库中的变量之间的“关联规则”。这些技术包括生成和测试可能的规则的各种算法。一个应用是市场篮子分析,其中零售商可以确定哪些产品经常被一起购买并将该信息用于营销(通常引用的例子是许多购买尿布的超市购物者也倾向于购买啤酒的发现)。
分类。基于包含已被分类的数据点的训练集,确定新数据点所属类别的一组技术。一个应用是预测具有明确假设或客观结果的细分客户行为(例如购买决策,流失率,消费率)。由于存在训练集,这些技术通常被描述为监督学习; 他们与聚类分析形成对比,这是一种无监督的学习方式。
聚类分析。一种统计方法,用于将将不同组分割成较小类似对象的对象进行分类,该类似对象的特征预先不知道。聚类分析的一个例子是将消费者分为自我相似的群体,用于有针对性的营销。这是一种无监督学习,因为不使用训练数据。这种技术与分类是一种监督学习的形式。
众包。通常是通过网络媒体(如Web)收集一大群人或群体(即“群众”)提交的数据的技术.28这是一种大规模协作和使用Web的实例2.0.29数据融合和数据集成。
一套整合和分析来自多个来源的数据的技术,以便通过分析单一数据源开发出更有效率和潜在更准确的方式开发洞察。
数据挖掘。通过将统计学和机器学习的方法与数据库管理相结合,从大型数据集中提取模式的一套技术。这些技术包括关联规则学习,聚类分析,分类和回归。应用程序包括挖掘客户数据,以确定最可能响应报价的部门,挖掘人力资源数据以识别大多数成功员工的特征,或者通过市场篮子分析来模拟客户的购买行为。
合奏学习 使用多个预测模型(每个开发使用统计学和/或机器学习)获得比从任何组成模型获得的更好的预测性能。这是一种监督学习。
遗传算法。一种用于优化的技术,受自然进化过程或“适者生存”的启发。在这种技术中,潜在的解决方案被编码为可以组合和突变的“染色体”。这些个体染色体被选择用于在模拟的“环境”中存活,这决定了人群中每个人的适应度或表现。通常被描述为一种“进化算法”,这些算法非常适合于解决非线性问题。应用实例包括改进制造过程中的工作调度和优化投资组合的绩效。
机器学习。计算机科学的特殊性(在历史上称为“人造智能”的领域)涉及到允许计算机基于经验数据演变行为的算法的设计和开发。机器学习研究的重点是自动学习识别复杂的模式,并根据数据做出智能决策。自然语言处理是机器学习的一个例子。
自然语言处理(NLP)。一组来自计算机科学专业的技术(历史上称为“人造智能”)和使用计算机算法分析人类(自然)语言的语言学。许多NLP技术是机器学习的类型。NLP的一个应用是使用社交媒体的情感分析来确定潜在客户对品牌宣传活动的反应。通过自然语言处理分析的社交媒体数据可以与实时销售数据相结合,以确定营销活动对客户情绪和购买行为的影响。
神经网络。计算模型,灵感来自生物神经网络的结构和工作(即大脑内的细胞和连接),可以在数据中找到模式。神经网络非常适合寻找非线性模式。它们可用于模式识别和优化。一些神经网络应用涉及监督学习,其他涉及无监督学习。申请的例子包括确定有可能离开特定公司的高价值客户并确定欺诈性保险索赔。
网络分析。用于表征图形或网络中离散节点之间的关系的一组技术。在社交网络分析中,分析社区或组织中的个人之间的联系,例如信息传播途径或对谁影响最大的人。应用实例包括确定关键意见领袖,以营销为目标,并确定企业信息流中的瓶颈。
优化。用于重新设计复杂系统和过程的数字技术组合,以根据一项或多项客观措施(例如成本,速度或可靠性)来提高其性能。应用实例包括改进运营流程,如调度,路由和楼层布局,以及制定战略决策,如产品种类策略,联动投资分析和研发投资组合策略。遗传算法是优化技术的一个例子。相同的方式,混合整数规划是另一种方式。
模式识别。一组机器学习技术,根据特定算法将某种输出值(或标签)分配给给定的输入值(或实例)。分类技术就是一个例子。
预测建模。一组技术,其中创建或选择数学模型以最佳地预测结果的可能性。客户关系管理中应用的一个例子是使用预测模型来估计客户“流失”(即更改提供商)的可能性,或者客户可以交叉销售另一个产品的可能性。回归是许多预测建模技术的一个例子。
回归。一组统计技术,用于确定当一个或多个独立变量被修改时,因变量的值如何变化。经常用于预测或预测。应用实例包括根据各种市场和经济变量预测销售量,或确定哪些可衡量的制造参数最能影响客户满意度。用于数据挖掘。
情绪分析 应用自然语言处理和其他分析技术,从源文本材料中识别和提取主观信息。这些分析的关键方面包括确定表达情绪的特征,方面或产品,并确定类型,“极性”(即正,负或中性)以及情绪的程度和强度。应用实例包括使用情绪分析来分析社交媒体(如博客,微博和社交网络)的公司,以确定不同的客户群体和利益相关者对其产品和行为的反应。
信号处理。 最初开发的一组来自电气工程和应用数学的技术用于分析离散和连续信号,即模拟物理量的表示(即使是数字表示),如无线电信号,声音和图像。该类别包括信号检测理论的技术,其量化了信号和噪声之间的辨别能力。示例应用包括用于时间序列分析或实现数据融合的建模,以通过组合来自一组较不精确的数据源的数据(即,从噪声中提取信号)来确定更精确的读取。信号处理技术可用于实现某些类型的数据融合。
空间分析 一组技术,一些从统计学中应用的技术,其分析在数据集中编码的拓扑,几何或地理属性。通常,用于空间分析的数据来自地理信息系统(GIS),其捕获包括位置信息的数据,例如地址或纬度/经度坐标。应用实例包括将空间数据纳入空间回归(例如,消费者购买与位置相关的产品的意愿如何?)或模拟(例如,制造供应链网络如何与不同位置的站点一起执行)。
统计。收集,组织和解读数据的科学,包括调查和实验的设计。经常使用统计技术来判断变量之间可能发生的机会(“零假设”)之间的关系,以及变量之间的关系可能是由某种潜在因果关系产生的(即“统计显着性”) 。统计技术也用于减少I型错误(“假阳性”)和II型错误(“假阴性”)的可能性。应用程序的一个例子是A / B测试,以确定哪种类型的营销材料将最大程度地增加收入。
监督学习。一组机器学习技术,从一组训练数据推断功能或关系。示例包括分类和支持向量机.30这与无监督学习不同。
模拟。建模复杂系统的行为,经常用于预测,预测和情景规划。例如,蒙特卡罗模拟是一类依赖于重复随机抽样的算法,即运行数千个模拟,每个都基于不同的假设。结果是给出结果的概率分布的直方图。鉴于各种举措的成功存在不确定性,一个应用程序正在评估实现财务目标的可能性。
时间序列分析。从统计和信号处理的技术集合,用于分析数据点的序列,代表连续时间的值,以从数据中提取有意义的特征。时间序列分析的例子包括股票市场指数的小时值或每天给定条件诊断的患者人数。
时间序列预测。时间序列预测是使用模型根据相同或其他系列的已知过去值来预测时间序列的未来值。这些技术中的一些,例如结构建模,将一系列分解成趋势,季节和残差分量,这可用于识别数据中的周期性模式。应用实例包括预测销售数字,或预测将被诊断为感染性疾病的人数。
无监督学习。一组在未标记数据中发现隐藏结构的机器学习技术。聚类分析是无监督学习的一个例子(与监督学习相反)。
可视化。用于创建图像,图表或动画来传达,理解和改进大数据分析结果的技术。这扩展到在Web或桌面平台上创建仪表板。
希望这个有点复杂的写作给你一些灵感来坚持下去。保持祝福,保持灵感!