新闻中心

「数据挖掘」是什么意思?(什么是数据挖掘?如何进行数据挖掘?)

2023-11-02
浏览次数:
返回列表

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

数据挖掘是计算机科学发展到一定阶段的产物。近年来,互联网以及移动互联网的快速发展,再加上硬件存储的快速更新换代,产生了海量的存储数据。而这些数据可以通过数据挖局来转换成有用的信息和知识,并进行广泛使用。包括商务管理,生产控制,市场分析,工程设计和科学探索等。

数据挖掘涉及知识面广,技术点多。在面对复杂多样的业务分析场景时,如何做出有效的数据挖掘分析方案其实是有一套可遵循的方法体系。针对不同的分析数据和业务场景,数据挖掘的方法可以分为监督学习、无监督学习、半监督学习、增强学习,每种方法都有其适应的分析场景和数据基础。

数据挖掘,首先要有数据。数据是什么?个人的的姓名年龄家庭住址是数据,网上购物消费记录是数据,话费账单是数据,看病记录还是数据。所有数据都会存储在硬盘中,如果我们不加以使用那这些就相当于无用的废纸。数据挖掘就是从这些数据中,分析出相同的,判断出有用的,总结出特点,然后归类,用于民生,商业等用途。

举个最几个简单的例子,淘宝京东大家都逛过。有个猜你喜欢,应该是大家最为熟悉的。在淘宝京东购物,总会有“猜你喜欢”、“根据您的浏览历史记录精心为您推荐”、“购买此商品的顾客同时也购买了商品”、“浏览了该商品的顾客最终购买了商品”,这些都是数据挖掘的结果。

啤酒尿布是一个非常非常古老陈旧的故事。故事是这样的,沃尔玛发现一个非常有趣的现象,即把尿布与啤酒这两种风马牛不相及的商品摆在一起,能够大幅增加两者的销量。原因在于,美国的妇女通常在家照顾孩子,所以,她们常常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。沃尔玛从数据中发现了这种关联性,因此,将这两种商品并置,从而大大提高了关联销售。这也是数据挖掘的功劳。

数据挖掘还跟其他两个紧密关联的概念,大数据和人工智能。大数据、数据挖掘、人工智能三者的关系可以简单的理解为:大数据是原材料,数据挖掘是加工厂,而人工智能是数据产品尤其是基于数据挖掘技术建立的专家系统的设计理念。通过使用数据挖掘技术对大数据进行价值提取、加工,进而设计成可以服务于用户的数据产品,并基于人工智能的思想对该产品做自动优化和人机交互学习,让产品越用越好,最终达到具有生产力的目的。

但数据挖掘也有涉及到一些问题,比如牵扯到隐私问题,例如:一个雇主可以透过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。然而,这种做法会导致伦理和法律问题。

对于政府和商业数据的挖掘,可能会涉及到的,是国家安全或者商业机密之类的问题。这对于保密也是个不小的挑战。所以未来对数据挖掘的使用必须受到规范。

参考文献:

百度百科

MBA智库百科

维基百科

掘金

搜索