了解异常检测这一篇就足够了
-
新冠肺炎疫情来势汹汹,给许多国家人民生命安全和身体健康带来严重威胁,也给世界经济发展带来重大风险,面对新冠肺炎疫情,我国采取了最全面、最严格、最彻底的防控举措,遏制住疫情扩散蔓延势头。当前,我国国内疫情防控形势持续向好,疫情防控阶段性成效进一步巩固,经济社会秩序加快恢复。 对于企业来说,恢复生产是头等大事。对于做数据分析和算法的同学来说,如何去甄别是因疫情影响对业务指标数据造成对异常,还是业务本身或系统本身的问题造成的异常,将是一个非常有挑战的问题。原因很简单,模型从历史数据学到的规律不再适用,之前的数据模型已经无法准确对识别异常。 异常值又称离群值,是在给定数据集中,与其他数据点显著不同的数据点。 异常检测是找出数据中离群值(和大多数数据点显著不同的数据点)的过程。现实的工作场景中,很难通过查看数据就发现其模式。这就是为什么异常检测的研究是机器学习和数据分析中极其重要的应用。 异常检测在业界中应用广泛。下面介绍一场常见的场景:金融:发现欺诈性购买的模式。卫生保健:检测欺诈性保险的索赔和付款。制造业:可以监测机器的异常行为,从而控制成本。网络:检测网络入侵。 异常检测的方法很多,有统计方法,也有深度学习方法,有难有易,需要根据场景和需求灵活使用。 孤立森林是用于异常检测的机器学习算法。这是一种无监督学习算法,通过隔离数据中的离群值识别异常。孤立森林是基于决策树的算法。孤立森林的原理是:异常值是少量且不同的观测值,因此更易于识别。孤立森林集成了孤立树,在给定的数据点中隔离异常值。 Z-score是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布,异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点设定阈值。 Autoencode传统的维度下降依赖于线性方法,Autoencoder通过引入神经网络天生的非线性性克服PCA的一些限制。 均方差:在统计学中,如果一个数据分布近似正态,那么大约 68% 的数据值会在均值的一个标准差范围内,大约 95% 会在两个标准差范围内,大约 99.7% 会在三个标准差范围内。 Twitter异常检测框架BreakoutDetection:在Github上最火的异常检测算法。官方只是提供R语言版本。对于很多对R不熟悉的来说,是一件头疼的事情,然而有好多人把它用python实现了一遍,试了一下最友好的就是 https://pypi.org/project/pyculiarity/了。
西南地区IT社群(QQ)
- 云南
- 【昆明网页设计交流吧】243627302
- 【昆明nodejs交流吧】 243626749
- 【VUE】838405306
- 【云南程序员总群】343606807
- 【昆明UI设计】104031254
- 【云南软件外包】15547313
- 贵州
- 【PHP/java源码/站长交流群】55692114
- 四川
- 【成都Java/JavaWeb交流】86669225
- 【vaScript+PHP+MySql】116270060
- 【UI设计/设计交流学习群】135794928
- 重庆
- 【诺基亚 JAVA游戏博物馆】 559479780
- 【PHP,Java,Python,C++接单】 442103442
- 西藏