El truco del Z-score: detectar outliers sin umbrales mágicos

¿Cómo detecto valores atípicos en SQL sin inventar un umbral mágico?

Cuaderno N°06 · Serie «Trucos de T-SQL para tu DW»

Por Javier Loria · Lectura ~12 min · SQL Server · Analítica · Data Warehouse

Cómo detecto valores atípicos en SQL?» aparece tarde o temprano en todo proyecto de datos: una factura inflada, una lectura de sensor disparada, un productor que reporta el doble de lo normal. El reflejo es poner un umbral fijo («marca todo lo que pase de X») — y ahí empieza el problema: o marca demasiado y ahoga al equipo en falsas alarmas, o marca de menos y el caso que importaba pasa de largo.

La salida no es afinar el número, es cambiar la pregunta a «¿qué tan lejos está esto de lo normal de su grupo?». Eso es un Z-score, y se calcula en SQL con AVG y STDEV sin sacar los datos a otra herramienta. Este cuaderno muestra cómo detectar outliers en una sola pasada, por qué el «3 sigma» de los libros engaña, y las trampas que vuelven el detector silenciosamente inútil.

Qué vas a encontrar:

Por qué el umbral fijo miente (en ambas direcciones).
El truco: estadística y detalle en una sola pasada con window functions.
Por qué la partición ES la pregunta de negocio.
Por qué el «3 sigma» tampoco es sagrado.
Tres trampas: la división por cero, el ORDER BY pegado y los grupos enanos (muestral vs poblacional).

Descargar el Cuaderno (PDF)