您当前的位置:首页 >> 人工智能
人工智能

九道门上丨如何检测和处理分类数据中的异常值?

发布时间:2025-11-05

在常用统计数据透过利用计算机之前,量化统计数据无论如何是探究其表征的所需任务。在统计权重化中的,所致取值探测是极其有必要性的,因为它的依赖于有可能会改变统计数据的不当。如果将不具所致取值的统计数据推送到仿真中的,则有可能会对利用计算机所致各种损害。在本文中的,我们将咨询如何探测和妥善处理类群统计数据中的的所致取值。

关于所致取值

举例来话说,“所致取值”这个词也就是话说转回主体或系统的、有所不同的或座落在远离主体或系统的非异种或异种。一个简单的例子,一间黑板,家教是所有很多学生中的的所致取值。

在统计数据集中的,我们找到三组统计数据点。在自由空间中的绘制这些统计数据点后,可以窥见它们在自由空间中的的位置。如果有一个或者某些统计数据点远离比较大区域,则可以话说远离比较大区域的统计数据点是所致取值。如下所示:

类群统计数据中的的所致取值

以统计数据中的色的名称为例,统计数据中的有1000个红色取值,900个橙色取值,800个粉红色取值和100个黄色取值。当这些统计数据进入利用计算机时,我们找到仿真没有对黄色透过正确的预测,这种不正确的缘故有可能是由于黄色统计权重较低所致的。

下图可以是类群统计数据中的所致取值的表示形式。

尽管在类群统计数据中的成为所致取值有可能有各种缘故,例如统计数据的误解利用,或几类极极少能够利用有关它的统计数据。在本文中的,我们主要关注探测和妥善处理此类所致取值。这里取值得注意的是,如果统计数据中的只有两个几类,我们就不应该将任何几类当成所致取值。

探测类群统计数据中的的所致取值

在类群统计数据的情况,我们并不需要以有所不同的方式为慎重考虑所致取值,在下面我们早已看得见连续统计数据中的的所致取值可以常用散点图或箱形图透过探测。探测类群统计数据中的的所致取值并不需要比较所有几类的统计数据可用性百分比。我们可以常用条形图或直方图找到这种比较。

在本文中的,我们常用的是 titanic 统计数据集,借以的可以找到,登岸特有三个几类,其中的一个几类可以被当成所致取值几类。

输出:

制作一个直方图:

在这里,我们可以看得见一个几类与其他几类分离,并且该几类的kHz也很低,因此我们可以将其称为统计数据中的的所致取值。

妥善处理类群统计数据中的的所致取值

• 沿用

此过程限于常用其他统计数据对所致取值透过利用计算机。有时,统计数据中的的每个点都极其极为重要,在这种情况,我们并不需要找到或创建一个仿真,该仿真也可以引入所致取值,并且能够妥善处理哪怕是一小部分统计数据。可以常用类群仿真,因为它们对所致取值不具包容性,可以对不具自然发生的所致取值几类的统计数据透过利用计算机。

• 移除

此方法限于从统计数据中的排除所致取值的关键技术。正如我们早已咨询过的,类群统计数据中的依赖于所致取值的缘故有可能是统计数据的误解利用。如果几类数量较极少,并且对量化和利用计算机不极为重要。那么在将仿真应引入统计数据之前,我们可以简单地从统计数据中的移除它们。

• 替换

有时利用的统计数据不具所致取值,但作为一个几类,它们与其他主要几类相似。在这种情况,我们可以用值得注意的几类替换所致取值。我们可以常用特例一段距离、正切相似度、纽约市一段距离等来测量统计数据之间的相似性。

• 滤波

类群统计数据中的的所致取值也可以话说是几类脱节的解决办法,这也就是话说每个类的统计数据比例有所不同。在这种情况,我们可以常用一些滤波关键技术,例如降滤波、过滤波和SMOTE量化。在这里,我们主要通过探究几类在利用计算机中的的极为效用来增高或减极少统计数据点。

北京看妇科哪家好
海南皮肤病医院怎么去
南京看白癜风去什么医院好
南京看白癜风什么医院最好
长春皮肤病医院哪个比较好

上一篇: 华为举行新品发布会,华为畅享50成为千元档新并不需要

下一篇: 官方再放700元神券,6999元拿下折叠机动部队Find N,等等党都说值

友情链接