Este metido es para detectar y reducir los ruidos intensos y poco frecuentes. La idea principal es que el valor leído más el ruido de baja intensidad se comportan como una función de normal. Se podría ver como que a mayor intensidad del ruido menos probable es que aparezca. Visto en forma de gráfica:

De Ainali – Trabajo propio, CC BY-SA 3.0, Enlace
En la imagen se puede ver que según un valor se aleja de la media (μ) menos probable es que pertenezca a la muestra. Así que según su distancia a la muestra podemos saber lo probable que es que pertenezca. Sabiendo esto se ponen una distancia máxima a la media de tal forma que habrá dos umbrales (μ+distancia y μ-distancia) los valores que queden fuera de esos umbrales de eliminan. Valores habituales de filtrado corresponde a μ±σ, μ±2σ y μ±3σ. O aproximadamente dejan fuera el 16%, 2% y 0.1% de los valores (a cada lado del umbral). Para filtrar valores fijamos la probabilidad de pertenencia a la muestra que les «exigimos». Por ejemplo si un valor solo puede pertenecer a la muestra con una seguridad del 5% lo descartamos.
Este proceso lo podemos aplica una vez o varias, repitiéndolo hasta que no se elimine ninguno de los valores.
Una vez eliminados los valores que quedan fuera del umbral podemos aplicar alguno de los filtros ya vista como la moda, mediana o media para calcular el valor.
Ejemplo:
Usamos como limite 2σ. repetiremos el filtrado hasta que no haya descartes en las muestras
Iteración 1
muestras iniciales: [23, 4, 5, 5, 6, 4, 5, 4, 5, 6, 4, 12]
media: 6.9167
desviación estándar: 5.5179
tolerancias: 6.9167+(2 * 5.5179) = 17.953 6.9167-(2 * 5.5179) = -4.1191
muestras admitidas: [4, 5, 5, 6, 4, 5, 4, 5, 6, 4, 12]
Iteración 2
muestras iniciales: [4, 5, 5, 6, 4, 5, 4, 5, 6, 4, 12]
media: 5.4545
desviación estándar: 2.2962
tolerancias: 5.4545 + (2 * 2.2962) = 10.047 5.4545 – (2 * 2.2962) = 0.8621
muestras admitidas: [4, 5, 5, 6, 4, 5, 4, 5, 6, 4]
Iteración 3
muestras iniciales: [4, 5, 5, 6, 4, 5, 4, 5, 6, 4]
media: 4.8
desviación estándar: 0.7888
tolerancia: 4.8 + (2 * 0.7888) = 6.3776 4.8 – (2 * 0.7888) = 3.2224
muestras admitidas: [4, 5, 5, 6, 4, 5, 4, 5, 6, 4]
Ahora calculamos los distintos valores usando al media, moda y mediana
media: 4.8
moda: 4
mediana: 5
Comparamos entre los resultados entre los datos filtrados y sin filtrar:
Filtrado | Sin filtrar | |
---|---|---|
Media | 4.8 | 6.9167 |
Mediana | 5 | 5 |
Moda | 4 | 4 |
Es normal que solo se haya visto afectada la media, ya que tanto la moda como la mediana están libres de la influencia de los valores en los extremos.