Antecedentes
Cómo funcionan las máquinas tragamonedas
Dos veces al día, visualizamos tu experimento para ver cómo cada una de las variantes se ha presentado, y ajustamos la fracción de tráfico que cada variación recibirá en el futuro. Una variación que parece estar bien obtiene más tráfico, y una variación que claramente está teniendo un bajo rendimiento recibe menos. Los ajustes que hacemos se basan en una fórmula estadística (ver el
apéndice si deseas más detalles) que tiene en cuenta el tamaño de la muestra y las métricas de rendimiento en conjunto, para que podamos estar seguros de que estamos ajustando las diferencias de rendimiento reales y no sólo la casualidad. A medida que avanza el experimento, aprendemos más y más acerca de las rentabilidades relativas, y así hacemos un mejor trabajo en la elección de las variaciones buenas.
Beneficios
Los experimentos basados en máquinas tragamonedas con varias palancas son mucho más eficientes que los experimentos A-B "clásicos" basados en pruebas estadísticas-hipótesis. Son tan estadísticamente válidos, y en muchas circunstancias pueden producir respuestas mucho más rápido. Son más eficientes ya que mueven el tráfico hacia las variaciones ganadoras poco a poco, en lugar de obligarte a esperar una "respuesta final" al final de un experimento. Son más rápidos ya que las muestras que se hubieran ido a variaciones obviamente inferiores se pueden asignar a los posibles ganadores. Los datos adicionales recopilados en las variaciones de alto rendimiento pueden ayudar a separar las palancas "buenas" de las palancas "mejores" de manera más rápida.
Básicamente, las máquinas tragamonedas hacen más eficientes los experimentos, por lo que puedes probar más de ellos. También puedes asignar una fracción mayor de tu tráfico a tus experimentos, ya que el tráfico será dirigido automáticamente a páginas con mejor rendimiento.
Ejemplos
Una prueba A / B simple
Supongamos que tenemos una tasa de conversión del 4% en tu sitio. Experimentas con una nueva versión de la página que realmente genera conversiones 5% del tiempo. Por supuesto no conoces las verdaderas tasas de conversión, por lo que estás experimentando, pero supongamos que deseas que tu experimento pueda detectar una tasa de conversión del 5% como estadísticamente significativa con un 95% de probabilidad. Un
cálculo de potencias1 estándar indica que necesitas 22,330 observaciones (11,165 en cada palanca) para tener una probabilidad del 95% de detectar un cambio de .04 a .05 en las tasas de conversión. Supongamos que recibes 100 visitas por día al experimento, entonces el experimento tardará 223 días en completarse. En un experimento estándar esperas 223 días, ejecutas la prueba de hipótesis y obtienes tu respuesta.
Ahora manejemos las 100 visitas cada día a través de la máquina tragamonedas con varias palancas. En el primer día cerca de 50 visitas son asignadas a cada palanca, y nos fijamos en los resultados. Usamos el
teorema de Bayes para calcular la probabilidad de que la variación es mejor que la original
l2. Uno menos este número es la probabilidad de que el original es mejor. Supongamos que el original tuvo mucha suerte en el primer día, y parece tener una probabilidad del 70% de ser superior. Entonces se asigna 70% del tráfico en el segundo día, y la variación recibe un 30%. Al final del segundo día acumulamos todo el tráfico que hemos visto hasta el momento (durante los dos días), y volvemos a calcular la probabilidad de que cada palanca es mejor. Eso nos da los pesos de las porciones para el día 3. Repetimos este proceso hasta que un conjunto de reglas de detención ha sido satisfecho (hablaremos más de las reglas de detención a continuación).
La figura 1 muestra una simulación de lo que puede suceder con esta configuración. En ella, se puede ver el peso de las porciones del original (la línea de color negro) y la variación (la línea roja punteada), esencialmente alternando de un lado a otro hasta que la variación con el tiempo cruza la línea del 95% de confianza. (Los dos porcentajes deben sumar 100%, así que cuando uno sube el otro baja). El experimento terminó en 66 días, por lo que te ahorró 157 días de prueba.
|
Figura 1. Una simulación de las probabilidades de palanca óptimas para un experimento sencillo de dos palancas. Estos pesos dan la fracción del tráfico asignado a cada palanca en cada día. |
Por supuesto, esto es sólo un ejemplo. Volvimos a realizar la simulación 500 veces para ver qué tan bien se ejecutan las máquinas tragamonedas en el muestreo repetido. La distribución de los resultados se muestra en la Figura 2. En promedio, la prueba terminó 175 días antes de la prueba clásica basada en el cálculo de potencias. El ahorro promedio fue de 97.5 conversiones.
|
Figura 2. Las distribuciones de la cantidad de tiempo ahorrado y el número de conversiones ahorradas contra un experimento clásico planificado por un cálculo de potencias. Supone un original con una CvR (tasa de conversión) del 4% y una variación con CvR del 5%. |
¿Pero qué pasa con la validez estadística? Si estamos utilizando menos datos, ¿no quiere decir que estamos aumentando la tasa de error? En realidad no. De los 500 experimentos que se muestran arriba, la máquina tragamonedas encontró la palanca correcta en 482 de ellos. Eso es 96.4%, que es aproximadamente la misma tasa de error que la prueba clásica. Hubo unos cuantos experimentos donde la máquina tragamonedas realmente tomó más tiempo que el análisis de potencias sugerido, pero sólo en aproximadamente el 1% de los casos (5 de 500).
También realizamos el experimento opuesto, donde el original tenía una tasa de éxito del 5% y una variación del 4%. Los resultados fueron esencialmente simétricos. De nuevo la máquina tragamonedas encontró la palanca correcta 482 veces de cada 500. El promedio de tiempo ahorrado en relación con el experimento clásico fue 171.8 días, y el número promedio de conversiones ahorradas fue 98.7.
Detener el experimento
De forma predeterminada, obligamos a la máquina tragamonedas a ejecutarse por lo menos durante dos semanas. Después de eso, hacemos un seguimiento de dos métricas. La primera es la probabilidad de que cada variación supere al original. Si estamos 95% seguros de que una variación supera al original, entonces Google Analytics declara que se encontró al ganador. Tanto la duración mínima de dos semanas y el nivel de confianza del 95% se pueden ajustar por el usuario.
La segunda métrica que monitoreamos es el "valor potencial remanente en el experimento", que es particularmente útil cuando hay múltiples palancas. En cualquier punto en el experimento hay una palanca "campeona" que se cree ser la mejor. Si el experimento terminó "ahora", la campeona es la palanca que eliges. El "valor remanente" en un experimento es la cantidad de aumento de la tasa de conversión que podrías obtener por alejarte de la campeona. El punto de experimentar es buscar este valor. Si estás 100% seguro de que la campeona es la mejor palanca, entonces no hay ningún valor que quede en el experimento, y por lo tanto no tiene sentido experimentar. Pero si sólo estás un 70% seguro de que la palanca es óptima, entonces hay una probabilidad del 30% de que la otra palanca es mejor, y podemos usar la regla de Bayes para calcular la distribución de lo mucho mejor que es. (Ver el
apéndice para obtener más detalles sobre el cálculo).
Google Analytics termina el experimento cuando hay al menos una probabilidad del 95% de que el valor restante en el experimento es menos del 1% de la tasa de conversión de la campeona. Esa es una mejora del 1%, no una mejora de un punto porcentual. Así que si la mejor palanca tiene una tasa de conversión del 4%, entonces terminamos el experimento si el valor que queda en el experimento es inferior a 0.04 puntos porcentuales de la CvR.
Terminar un experimento basándose en el valor potencial que queda es agradable porque maneja bien las uniones. Por ejemplo, en un experimento con muchas palancas, puede ocurrir que dos o más palancas tengan casi el mismo rendimiento, y no importar cuál se elija. No querrías ejecutar el experimento hasta que encontraras la palanca óptima (porque hay dos palancas óptimas). Sólo querrías ejecutar el experimento hasta estar seguro de que cambiar de palanca no te serviría de mucho.
Experimentos más complejos
La ventaja de la máquina tragamonedas con varias palancas sobre los experimentos clásicos aumenta a medida que los experimentos se complican más. Es probable que tengas más de una idea de cómo mejorar tu página web, por lo que es probable que tengas más de una variación que te gustaría probar. Vamos a suponer que tienes 5 variaciones más la original. Vas a hacer un cálculo donde se compara la variación original con la más grande, por lo que tenemos que hacer algún tipo de ajuste para tener en cuenta las
comparaciones múltiples. La corrección de
Bonferroni es un ajuste fácil (si algo conservadora), que se puede implementar mediante la división del nivel de significación de la prueba de hipótesis por el número de palancas. Así hacemos el cálculo de potencias estándar con un nivel de significación de 0.05 / (6 - 1) y encontramos que necesitamos 15,307 observaciones en cada palanca del experimento. Con 6 brazos, hay un total de 91,842 observaciones. A 100 visitas por día, el experimento tendría que ejecutarse durante 919 días (más de dos años y medio). En la vida real, por lo general no tendría sentido ejecutar un experimento durante tanto tiempo, pero aún podemos hacer el experimento mental como una simulación.
Ahora vamos a ejecutar el experimento de 6 palancas a través del simulador de máquina tragamonedas. Una vez más, se asume una palanca original con una tasa de conversión del 4%, y una palanca óptima con una tasa de conversión del 5%. Las otras 4 palancas incluyen una palanca subóptima que es mejor que la original, con una tasa de conversión del 4.5%, y tres palancas inferiores con tasas de 3%, 2% y 3.5%. La figura 3 muestra la distribución de los resultados. La duración del experimento promedio es de 88 días (frente a 919 días para el experimento clásico), y el número promedio de conversiones ahorradas es 1,173. Hay una larga cola para la distribución de las duraciones del experimento (que no siempre terminan rápidamente), pero incluso en el peor de los casos, la ejecución del experimento como una máquina tragamonedas ahorró más de 800 conversiones en relación con el experimento clásico.
|
Figura 3. Ahorro de un experimento de seis palancas, con respecto a un cálculo de potencias de Bonferroni ajustado para un experimento clásico. El panel izquierdo muestra el número de días necesarios para terminar el experimento, con la línea vertical que muestra el tiempo requerido por el cálculo de potencias clásico. El panel derecho muestra el número de conversiones que se ahorraron por la máquina tragamonedas. |
Los ahorros de costos son parcialmente atribuibles a terminar el experimento más rápidamente, y en parte a la experiencia de ser menos derrochador mientras se está ejecutando. La Figura 4 muestra la historia de los pesos de las porciones para todas las palancas en la primera de las 500 ejecuciones de simulación. Al principio hay cierta confusión mientras la máquina tragamonedas ordena qué palancas funcionan bien y cuáles no, pero las palancas con muy bajo rendimiento caen muy rápidamente. En este caso, la palanca original tiene una "ejecución afortunada" para comenzar el experimento, por lo que sobrevive más tiempo que algunas otras palancas en competencia. Pero después de unos 50 días, las cosas se han asentado en una carrera de dos caballos entre la original y la ganadora final. Una vez que las otras palancas se eliminan eficazmente, la original y la ganadora final dividen las 100 observaciones por día entre ellas. Note cómo la máquina tragamonedas asigna observaciones de manera eficiente desde el punto de vista económico (fluyen a las palancas con mayor probabilidad de dar un buen rendimiento), así como desde un punto de vista estadístico (fluyen a las palancas sobre las que queremos conocer más).
|
Figura 4. Historia de los pesos de porción para uno de los experimentos de 6 palancas. |
La Figura 5 muestra el costo diario de ejecutar la máquina tragamonedas con varias palancas con respecto a una estrategia de "oráculo" de siempre jugar la palanca 2, la palanca óptima. (Por supuesto que esto es injusto porque en la vida real no sabemos qué palanca es la óptima, pero es un punto de partida útil). En promedio, cada observación atribuida a la original nos cuesta .01 de una conversión, ya que el tipo de conversión de la original es .01 menos que la palanca 2. Del mismo modo, cada observación asignada a la palanca 5 (por ejemplo) nos cuesta .03 conversiones debido a que su tasa de conversión es .03 menos que la palanca 2. Si multiplicamos el número de observaciones asignadas a cada palanca por el costo de la palanca, y luego sumamos las palancas, obtenemos el costo de ejecutar el experimento ese día. En el experimento clásico, cada palanca es asignada 100/6 visitas por día (en promedio, dependiendo de cómo se asignan las observaciones parciales). Se resuelve que el experimento clásico nos cuesta 1.333 conversiones cada día que se ejecuta. La línea roja en la Figura 5 muestra el costo de ejecutar la máquina tragamonedas cada día. Mientras el tiempo pasa, el experimento es cada vez menos derrochador a medida que se les da menos peso a las palancas inferiores.
|
Figura 5. Costo por día de ejecutar el experimento de la máquina tragamonedas. El costo constante por cada día de ejecutar el experimento clásico se muestra por la línea punteada horizontal. |
1 La función R
power.prop.test realizó todos los cálculos de potencias en este artículo.
2 Ver el
apéndice si realmente deseas los detalles del cálculo. Los puedes saltar si no lo deseas.
Por Steven L. Scott, PhD, Analista Económico Senior