Las pruebas no paramétricas en test A/B

Las pruebas no paramétricas son una excelente alternativa cuando los supuestos de normalidad (o en general, los supuestos estadísticos requeridos por pruebas paramétricas como t de Student o ANOVA) no se cumplen.

En el ámbito del testing y la experimentación (por ejemplo, en A/B testing, test multivariantes o estudios de usabilidad), es relativamente frecuente encontrarse con distribuciones de datos asimétricas, con outliers o con tamaños de muestra reducidos, lo cual puede invalidar los resultados de pruebas paramétricas.

A continuación, profundizaremos en dos pruebas no paramétricas comunes y muy útiles: la U de Mann-Whitney (también conocida como Mann-Whitney-Wilcoxon o Wilcoxon rank-sum) y la prueba de Kruskal-Wallis. Veremos en qué consisten, cuándo aplicarlas y cómo interpretar sus resultados.

1. Prueba U de Mann-Whitney

Cuándo utilizarla

  • Comparación de dos grupos independientes.
  • Cuando la variable de interés es ordinal o continua, pero no cumple la normalidad.
  • Cuando hay presencia de valores atípicos (outliers) y no podemos simplemente eliminarlos.
  • Cuando los tamaños muestrales son pequeños y no se puede asegurar la robustez de la prueba t de Student (y no se cumplen los criterios de homogeneidad de varianza, etc.).

Fundamentos

La prueba U de Mann-Whitney compara las distribuciones de dos grupos. En lugar de comparar medias, compara los rangos (ordenaciones) de los valores. En otras palabras:

  1. Se combinan todos los datos de ambos grupos y se les asigna un rango (1 para el valor más bajo, 2 para el siguiente, y así sucesivamente).
  2. Posteriormente, se suman los rangos de cada grupo y se evalúa si uno de los grupos tiende a tener valores más altos (o más bajos) que el otro.

El estadístico resultante (U) indica si la suma de rangos de un grupo difiere significativamente de lo que se esperaría si ambos grupos provinieran de la misma distribución.

Interpretación

  • Hipótesis nula (H0): Las dos poblaciones tienen la misma distribución (no necesariamente la misma media).
  • Hipótesis alternativa (H1): Hay diferencia en la posición de las distribuciones (por ejemplo, un grupo tiende a valores más altos que el otro).

Si el p-valor asociado es menor que el nivel de significancia (generalmente 0,05), se rechaza H0 y se concluye que existe diferencia estadísticamente significativa entre ambos grupos.

Ejemplo práctico

Imagina que estás realizando un A/B test para optimizar la tasa de conversión. Sin embargo, tus conversiones diarias por usuario están muy sesgadas (hay muchos usuarios que no convierten nada y unos pocos que convierten muy alto, dando una distribución muy asimétrica). Si aplicases la prueba t con estos datos, los outliers podrían afectar mucho la media. Como no hay normalidad y sospechas de sesgo, aplicas la prueba U de Mann-Whitney:

  1. Ordenas todas las conversiones diarias de ambos grupos (A y B).
  2. Sumando rangos, compruebas si la posición de los valores del grupo B es, de manera significativa, mayor que la del grupo A.
  3. Un p-valor bajo (< 0,05) indicaría que las conversiones del grupo B están estadísticamente más altas (o bajas) que las del grupo A.

2. Prueba de Kruskal-Wallis

Cuándo utilizarla

  • Comparación de más de dos grupos independientes (análogo no paramétrico al ANOVA de una vía).
  • Cuando la variable de interés no cumple los supuestos de normalidad.
  • Cuando se quiere comparar si, en general, al menos uno de los grupos tiene una distribución distinta al resto.

Fundamentos

La prueba de Kruskal-Wallis es una extensión de la idea de la U de Mann-Whitney a k grupos. Básicamente:

  1. Se toman los datos de todos los grupos, se clasifican en rangos de menor a mayor, igual que con Mann-Whitney.
  2. Se calcula la suma de rangos para cada grupo.
  3. Se obtiene un estadístico (H) que indica si las distribuciones difieren lo suficiente como para descartar la hipótesis de que todos los grupos proceden de la misma población.

Interpretación

  • Hipótesis nula (H0): Todas las poblaciones (k grupos) tienen la misma distribución.
  • Hipótesis alternativa (H1): Al menos uno de los grupos difiere en su distribución (no necesariamente todos los grupos son diferentes entre sí, sino que hay al menos uno distinto).

Si el p-valor es menor que 0,05, se rechaza la hipótesis nula, pero no se sabe específicamente qué pares de grupos son distintos. Para identificar qué grupos difieren de cuáles, se suelen aplicar pruebas post hoc (por ejemplo, comparaciones múltiples a lo Dunn o pruebas por rangos, con correcciones como la de Bonferroni o la de Benjamini-Hochberg).

Ejemplo práctico

Tienes tres versiones de una página de producto: A, B y C. Cada visitante se asigna aleatoriamente a una de las tres versiones. Tras unas semanas de recolección de datos, ves que la distribución de la métrica principal (por ejemplo, margen de beneficio por visitante) es muy sesgada y con outliers.

  • Aplicarías Kruskal-Wallis para ver si al menos uno de los grupos supera al resto (u obtiene valores distintos) en términos de posición de los rangos.
  • Si el resultado es significativo, utilizarías pruebas post hoc (p. ej., U de Mann-Whitney por pares o test de Dunn) para averiguar qué versiones difieren entre sí.

3. Resumen y puntos clave para la práctica de A/B Testing y Experimentación

  1. No te limites a la media: Las pruebas no paramétricas son útiles cuando te interesan distribuciones completas y no solo la media. Esto es crucial en experimentos digitales donde hay outliers o mucha asimetría.
  2. Tamaños de muestra y robustez:
    • Con muestras pequeñas, la prueba t puede perder validez si no se cumplen supuestos.
    • Las pruebas no paramétricas como Mann-Whitney o Kruskal-Wallis requieren menos asunciones, por lo que son más robustas en escenarios reales.
  3. Importancia de la visualización: Siempre es recomendable visualizar los datos (por ejemplo, con un box plot o un violin plot) antes de elegir la prueba estadística. Así detectas outliers, asimetrías y distribuciones multimodales que podrían violar la normalidad.
  4. Comparaciones múltiples:
    • Con dos grupos, Mann-Whitney es suficiente.
    • Con más de dos grupos, empieza por Kruskal-Wallis y, si es significativo, aplica pruebas post hoc.
    • Recuerda ajustar el nivel de significancia (correcciones tipo Bonferroni) para evitar inflar el error de tipo I.
  5. Interpretación cautelosa:
    • Mann-Whitney y Kruskal-Wallis detectan diferencias en la distribución (en la posición de los rangos). Esto suele interpretarse como diferencia en la “mediana” o en el “posicionamiento global” de los valores, pero oficialmente es una diferencia en la distribución.
    • No asumas directamente que uno de los grupos “tiene una media distinta” sin verificar si los datos respaldan esa interpretación (aunque, en la práctica, suele ser indicador de ello).
  6. Aplicaciones en marketing digital y CRO:
    • Conversión (0/1) por usuario en un periodo de tiempo (es binomial, pero muchas veces muy asimétrica en sus derivados).
    • Tiempo en el sitio (tiempo de sesión) que suele presentar distribuciones muy sesgadas.
    • Ingresos por usuario o cesta media, variables que frecuentemente presentan colas largas (heavy tail).
    • Clics y eventos de engagement, con comportamientos muy diversos y outliers.
  7. Herramientas y software:
    • Herramientas estadísticas y de data science como R, Python (SciPy), SPSS o jamovi permiten realizar estas pruebas de forma sencilla.
    • Google Optimize (aunque ya no esté activo en su versión original) u otras plataformas de testing (Optimizely, VWO, Convert, etc.) no siempre ofrecen la prueba no paramétrica por defecto. A veces es necesario extraer los datos y realizar el análisis por tu cuenta.

4. Consejos finales para la implementación en experimentos

  1. Planifica con anticipación
    Antes de lanzar un experimento, define claramente qué métrica de interés vas a medir y qué tipo de distribución esperas. Si te anticipas a la falta de normalidad, podrás escoger la metodología estadística más adecuada desde el principio.
  2. Equilibra la robustez estadística con la comunicación
    A menudo, colegas o stakeholders quieren “ver la media”. Intenta explicarles por qué es mejor centrarse en la mediana o en la comparación de rangos cuando los datos son muy asimétricos. Podrías mostrar ambas (media y mediana) para un panorama más completo, pero sustenta tus conclusiones en la prueba adecuada.
  3. Verifica supuestos y justifícalos
    Aunque las pruebas no paramétricas tienen menos requisitos, no es mala idea comprobar la homogeneidad de varianzas o la similitud de las distribuciones en lo posible, ya que, para Mann-Whitney, se suele desear que las formas de las distribuciones no sean radicalmente distintas (aunque no es un requisito tan estricto como la normalidad en el t-test).
  4. Considera la magnitud del efecto
    Además de la significancia estadística, valora la significancia práctica. Por ejemplo, en A/B Testing, un p-valor < 0,05 no siempre es un triunfo si el cambio de la métrica no es rentable o no supera el coste de implementación. En pruebas no paramétricas, puedes calcular tamaños de efecto alternativos (por ejemplo, el “r” de correlación para la U de Mann-Whitney).
  5. Documenta y comparte
    Documentar el proceso de análisis estadístico (por qué usas Mann-Whitney o Kruskal-Wallis en lugar de t-test o ANOVA) genera confianza y transparencia en el equipo. Además, te servirá de guía en experimentos futuros.

Las pruebas no paramétricas, especialmente la U de Mann-Whitney y la de Kruskal-Wallis, ofrecen una alternativa sólida y versátil para escenarios en los que los datos no cumplen con la normalidad o donde hay outliers y distribuciones sesgadas. Su uso es muy recomendable en experimentación digital (A/B tests y tests multivariantes) cuando las condiciones de las pruebas paramétricas no están aseguradas. Aplicar este tipo de análisis con rigor te permitirá tomar decisiones más confiables y robustas, optimizando tus experimentos y generando conclusiones válidas que impacten positivamente tus esfuerzos de CRO, marketing digital y growth.

Deja un comentario

Scroll al inicio