松果小污 12楼
Grubbs' Test方法流程: 1.假设样本来自于正态分布总体; 2.提出假设:原假设:数据集中无异常值; 备择假设:数据集中至少有一个异常值; 3.Grubbs’ Test双尾检测统计量为G = (■(max@i=1,2…N)|Yi-Y ̅ |)/s,Yba为样本均值,s为样本标准差 4.显著性水平为α的情况下,当G >( N-1)/N √((t_(α/2N)^2 (N-2))/(N-2+t_(α/2N)^2 (N-2))) 时,可拒绝原假设,接受备择假设。即有数据集中有异常值。 其中t_(α/2N)^2 (N-2)表示自由度为N-2,显著性水平为(α/2N)的t分布值的平方。
同时,箱线图也可用来识别异常值。高出高四分位数1.5个IQR的值或者低出低四分位数1.5个IQR的值是异常值(奇异值)。