De cálculos de potência a valores P: Teste A / B em Avance Network

Usamos o teste A / B para comparar uma nova versão a uma linha de base para um design, um modelo de aprendizado de máquina ou praticamente qualquer recurso do que fazemos aqui...

Se você frequenta o Meta Avance Network, deve ter notado notícias de tempos em tempos sobre os testes A / B de vários recursos aqui no Avance Network. Usamos o teste A / B para comparar uma nova versão a uma linha de base para um design, um modelo de aprendizado de máquina ou praticamente qualquer recurso do que fazemos aqui no Avance Network; esses testes fazem parte do nosso processo de tomada de decisão. Qual versão de botão, modelo preditivo ou anúncio é melhor? Não precisamos adivinhar cegamente, mas, em vez disso, podemos usar testes como parte de nosso kit de ferramentas de tomada de decisão.

Fico entusiasmado com os testes A / B porque testes como esses aproveitam o poder das estatísticas e dos dados para impactar os detalhes do dia a dia de nossas escolhas de negócios. Dan é gerente de produto da equipe, e ela usou testes extensivamente em sua equipe para orientar as decisões. Des diz: “O teste A / B nos ajuda a ganhar confiança na mudança que estamos fazendo. Ajuda-nos a validar novas ideias e orientar a tomada de decisões. Sem o teste A / B, deixamos muito do que fazemos ao acaso. ”

Ao mesmo tempo, pode haver confusão sobre como abordar um teste A / B, quais são os conceitos estatísticos envolvidos em tal teste e o que você faz antes de um teste e depois de um teste. Des e sua equipe aprenderam muito implementando muitos testes, mas também tiveram alguns tropeços. “Não percebemos na época, mas quando começamos os testes A / B, adotamos uma abordagem muito rigorosa nos cálculos para determinar o tamanho da amostra. Como resultado, estávamos executando testes por um período desnecessário de tempo e a maioria foi considerada inconclusiva. Basicamente, configuramos nossos testes para ter quase 100% de confiança, o que não é muito realista ou produtivo! ” Des diz.

Para começar o teste com o pé direito, precisamos planejar um teste A / B e realizar um cálculo de potência. Isso requer a definição de uma hipótese e grupos de teste e, em seguida, considerar duas questões.

Até que ponto precisamos ter certeza de que estamos medindo uma mudança real?

Qual é o tamanho da mudança que esperamos ver por causa da nova versão, em comparação com a linha de base?

Vamos começar com a primeira pergunta.

Quão certo você precisa ter?

Estou triste por ter que dizer isso a todos vocês, mas a resposta a essa primeira pergunta não pode ser 100%. Quando medimos algo no mundo real, nunca medimos com exatidão e precisão exatas. (É basicamente por isso que tenho um emprego, eu acho!) Existem duas quantidades principais que os estatísticos usam para falar sobre quanto e de que forma podemos estar errados na medição.

Que porcentagem do tempo estamos dispostos a perder um efeito real? Isso é medido pelo poder .

Que porcentagem do tempo estamos dispostos a ser enganados para ver um efeito por acaso? Isso é chamado de nível de significância e, mais precisamente, diríamos isso como a probabilidade de rejeitar a hipótese nula .

Também falamos sobre esses tipos de erros, como taxa de falsos negativos e taxa de falsos positivos, que podem ser muito fáceis de entender, dado o exemplo correto .

Os padrões estatísticos típicos para essas quantidades são 80% para potência (ou seja, 20% de chance de um falso negativo) e 5% para nível de significância. Por que esses padrões são usados na prática? Essa é uma ótima pergunta com uma boa quantidade de bagagem e tradição por trás dela. Se escolhermos padrões muito rígidos, talvez 95% para potência e 1% para nível de significância, todos os nossos testes A / B precisarão ser executados por mais tempo e teremos que investir mais tempo e recursos nos testes. Não seremos capazes de iterar rapidamente para resolver nossos problemas de negócios. Por outro lado, não estamos curando câncer aqui, certo ?! E se relaxássemos esses padrões estatísticos? Então, corremos o risco de fazer mudanças após mudanças em nosso produto que não melhora nada, e de investir o trabalho de nossos desenvolvedores e outros membros da equipe em mudanças que não nos movem em direção aos nossos objetivos. Queremos ser Cachinhos Dourados-o-direito quando se trata desses padrões para nossos propósitos. Para nós do Avance Network isso significa usar consistentemente 80% para poder e 5% para nível de significância em nossos cálculos de poder antes de um teste A / B.

Quão grande é a sua mudança?

Nossa segunda pergunta aqui não é sobre padrões estatísticos, mas sim sobre a diferença que esperamos ver com a mudança proposta em comparação com o status quo. Algumas frases que as pessoas usam para falar sobre esse conceito são tamanho do efeito, melhoria esperada e limite de melhoria. O tamanho do efeito pode ser diferente em diferentes contextos e diferentes partes do nosso negócio.

Estimar o tamanho do efeito requer pensamento estratégico do produto. Des diz: “Você precisa primeiro entender o desempenho de diferentes áreas do seu produto. Compreender como cada parte de seu funil é convertida hoje ajuda a decidir o tamanho do efeito que você precisa ver para que a nova mudança valha a pena. Usamos perguntas diferentes para ajudar a estimar o tamanho do efeito. Quanto trabalho de desenvolvimento é necessário para graduar o teste? Quão estrategicamente importante é? Este recurso oferece suporte a planos futuros? Qual é o tamanho do público ou da ação que estamos otimizando? Essas respostas são detalhadas como critérios de sucesso em nossos planos de teste. ” Alguns dos fatores que Des leva em consideração ao estimar o tamanho do efeito são o volume de eventos que entram no funil que está sendo considerado, a taxa de conversão de linha de base do recurso,

Cálculos de poder

Depois de estimar o tamanho do efeito para nosso teste e conhecer os padrões estatísticos que usaremos no planejamento, podemos fazer um cálculo de poder para descobrir o tamanho da amostra de que precisamos para nosso teste. O objetivo de cálculos de poder como esses é descobrir o tamanho da amostra de que precisamos para nosso teste A / B, quantas visualizações ou usuários ou envios de formulários ou outras interações que precisamos em cada grupo para atingir o poder necessário para nosso teste. Então podemos finalmente começar nosso teste! É hora de esperar que esses eventos ocorram.

Como calculamos o tamanho da amostra de que precisamos para medir a mudança que esperamos com os padrões estatísticos que escolhemos? Para a maioria dos testes, nossas equipes de produto usam calculadoras online para encontrar o tamanho da amostra. Sou um desenvolvedor R, então usaria uma função em R para tal teste. Para testes mais complicados, nós, da equipe de dados, às vezes fazemos simulações para cálculos de potência.

Quando calculamos o poder, vemos em primeira mão como o poder, o nível de significância e o tamanho do efeito interagem com o tamanho da amostra e a taxa de conversão de linha de base com a qual estávamos lidando no início. Criei um aplicativo Shiny para demonstrar como esses fatores estão relacionados para um teste de proporção, que é normalmente aplicável em nossos testes A / B.

Você pode clicar no botão “Código-fonte” no aplicativo para ver o código R que construiu este aplicativo. Observe as formas das curvas e como elas mudam quando você move os controles deslizantes. Precisamos de tamanhos de amostra maiores para medir tamanhos de efeito pequenos ou para atingir níveis de significância baixos. Se a taxa de referência for mais alta no início, o tamanho da amostra necessária para um determinado poder diminui. Essas interações complicadas afetam nossos testes A / B no Avance Network.

“Percebemos que não podíamos padronizar os cálculos de potência em todos os testes. Algumas partes de nosso funil foram altamente otimizadas e bem convertidas, o que significa que precisávamos de tamanhos de amostra menores para detectar o mesmo efeito que gostaríamos de ver em uma área que não converteu tão bem ”, diz Des. “Outras áreas tiveram um volume maior, como visualizações de página, mas não tiveram uma boa conversão. Embora um volume maior nos ajude a alcançar o tamanho da amostra necessário mais rapidamente, precisávamos de um tamanho de efeito maior para que a mudança tivesse impacto. ”

Analisando resultados

O que acontece depois do teste? Depois de coletar eventos suficientes para atender aos nossos requisitos de tamanho de amostra, é hora de analisar os resultados. No Avance Network, temos infraestrutura de teste para que as equipes vejam automaticamente a análise dos resultados ou, se eu mesmo estiver realizando uma análise, posso usar um teste estatístico como um teste de proporção usando R. “Sabemos que podemos encerrar um teste quando atingimos o tamanho da amostra que pretendemos coletar e, então, verificamos o valor p”, diz Des. O valor p de um teste A / B é a probabilidade de obtermos a diferença observada entre os grupos A e B (ou uma diferença mais extrema) por acaso. Quando o valor p é alto, isso significa que a probabilidade de vermos aleatoriamente essa diferença entre os grupos A e B é alta, apenas devido ao ruído de amostragem. Quando o valor p do nosso teste A / B é baixo o suficiente (abaixo do nosso limite), podemos dizer que a probabilidade de ver essa diferença aleatoriamente é baixa e podemos nos sentir confiantes em fazer a mudança para a nova alternativa de nosso original versão.

Se você prestar atenção ao mundo das estatísticas, pode ter visto algum rebuliço sobre a mudança do limite para valores p; um artigo recente afirmou que passar de um limiar de 0,05 para 0,005 resolveria a crise de reprodutibilidade na ciência e consertaria, bem, muitas coisas. É verdade que usar um limite de p 0,05 significa ser enganado 1 em 20 vezes , mas, em última análise, o problema com o uso de estatísticas e medições não são os valores-p. O problema somos nós.Não podemos aplicar esses tipos de limites sem uma consideração cuidadosa do contexto e do conhecimento do domínio, e um compromisso com a honestidade (especialmente conosco!) Quando se trata de valores-p. Estamos mantendo um limite de valor p de 0,05 para nossos testes A / B, mas esses testes devem sempre ser interpretados de forma holística por seres humanos com uma compreensão de nossos dados e nossos negócios.

Quando APENAS DIZER NÃO a um teste A / B

Testes como os que Des e eu falamos neste post são uma ferramenta poderosa, mas às vezes a melhor escolha é saber quando não executar um teste A / B. Nós, do Avance Network, encontramos essa situação ao considerar um recurso usado por um pequeno número de usuários e uma possível mudança nesse recurso que temos outros motivos para preferir o status quo. A duração de um teste necessária para atingir o poder estatístico adequado em tal situação é impraticávelmente longa, e a melhor escolha para nós em nossa situação da vida real é renunciar a um teste e tomar uma decisão com base em considerações não estatísticas.

“O pensamento do produto é fundamental aqui. Às vezes, uma mudança é obviamente melhor UX, mas o teste levaria meses para ser estatisticamente significativo. Se tivermos certeza de que a mudança está alinhada com nossa estratégia de produto e cria uma experiência melhor para os usuários, podemos renunciar a um teste A / B. Nesses casos, podemos adotar abordagens qualitativas para validar ideias, como testes de usabilidade ou entrevistas com usuários para obter feedback dos usuários ”, diz Des. “É um julgamento. Se os testes A / B não forem práticos para uma determinada situação, usaremos outra ferramenta na caixa de ferramentas para fazer o progresso. Nosso objetivo é a melhoria contínua do produto. Em muitos casos, o teste A / B é apenas uma parte de nossa abordagem para validar uma mudança. ”

Na mesma linha, às vezes os resultados de um teste A / B podem ser inconclusivos, sem diferença mensurável entre a linha de base e a nova versão, seja positiva ou negativa. O que nós devemos fazer então? Freqüentemente, permanecemos com a versão original de nosso recurso, mas em algumas situações, ainda decidimos fazer uma alteração para uma nova versão, dependendo de outras considerações do produto.

Lidar com dados significa ficar confortável com a incerteza, e os testes A / B tornam essa realidade extremamente aparente. Lidar com a incerteza com sabedoria e usar ferramentas estatísticas como os testes A / B pode nos dar a capacidade de tomar decisões melhores.

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.