新闻中心

大数据分析与挖掘-6(大数据分析与挖掘面临哪些挑战)

2023-09-16
浏览次数:
返回列表

4.5矩估计(Estimating Moment)

0阶矩,1阶矩......这一节是一个泛化的过程

奇异数越小,分布越均匀,二阶矩的作用

当流比较大,流比较多的时候,当我的内存没有办法对其中所有的数进行计数时,有没有一种办法近似的求出流数据的二阶矩;

1.AMS算法

做算法要注意有偏无偏估计

先假设N是固定长的不变的,之后再讨论N变化时应该怎么做

有限流的处理(针对具有特定长度n的流)

无限流的处理(流不断增长时)

用了前面固定比例采样的方法先处理一下,首先按照K/n的比例判断这个元素是否需要被采样出来

4.6窗口内的计数问题

DGIM算法

4.7基于衰减窗口的计数问题

举例说,同一个商品,去年和今年的影响时不同的,即商品效应存在衰减

实际上这个方法是把所有的影响都记下来了,所以这是精确的,

滑动窗口是一个精确的计算,精确的度量,通常用来求排名

数据流:讲采样,流过滤,计数(固定窗口、衰减窗口),矩估计;

底层做性能优化,做数据,就很需要这些知识。

第五章 PageRank

早期的搜索引擎:利用网络爬虫从Web上抓取数据

tiktalk最值钱的是推荐算法,数据多,才可以训练出模型来

很多单位的数据库,直接都来几百张表,数据库表成千是很正常的,用图谱来定位数据,数据太多了之后,图就很重要

数字孪生在城市管理中很重要,平行系统在军事(平行指挥)里面用的很多,都是在做数字化,其实数字孪生和平行系统都是在做数字化,也都属于元宇宙。还有大学建立数字实验室。这也是很有用的一个虚拟数字化环境。区块链也可以是元宇宙中的一部分,区块链也很有用,建立可信机制,交易机制,未来都要靠区块链技术。

网页很多很多,百度谷歌等搜索引擎怎么样推荐出一个可信度高,高质量的网页

提前对网页进行了度量,怎么度量

中心性问题:所有的节点的重要性是不同的,有的节点中亚,有点额节点没有那么重要,用入度出度数量来衡量一个节点的重要性,通过这个思想可以构建一个方程组:

上面这个方程组不太好求,给了一个限定条件,所有节点的重要性之和为1

接下来就是对方程组的求解问题,用高斯消元法

写成向量与矩阵的相乘的等式,这就是一个迭代的表示公式,最后证明这个迭代的公式是否收敛?这个证明过程老师没讲,

另一个证明过程,是把他看成一个马尔可夫过程,

是收敛的分布,那就是平稳分布,

以上是度量网页的重要性。

搜索