Com os experimentos do Display & Video 360, que são uma estrutura integrada de testes, você pode iniciar testes A/B para um ou mais criativos, públicos-alvo, estratégias de lances ou táticas de segmentação. Isso é feito comparando pedidos de inserção ou itens de linha.
É possível categorizar os usuários em grupos e experimentos mutuamente exclusivos para testar diferentes combinações de segmentação, configurações e criativos e descobrir qual tem a melhor performance. Use esses resultados para planejar futuras campanhas ou otimizar a performance durante o período de veiculação.
Com os experimentos, é possível:
- testar todas as dimensões das variáveis que afetam uma campanha, incluindo segmentação, configurações, criativo e muito mais;
- gerar relatórios sobre as principais métricas, como CPC, CTR, CPA, CVR, CPM e assim por diante.
Identificação baseada no usuário
Com os identificadores baseados no usuário, o Display & Video 360 adapta seus experimentos à descontinuação de terceiros ao usar identificadores alternativos como desvio quando um ID de terceiros não está disponível. Isso aumenta as chances de um identificador estar disponível para cada impressão de anúncio.
Por padrão, os experimentos usam a identificação baseada no usuário e o desvio aleatório para maximizar a participação. Você pode excluir usuários não identificados ao filtrar o tráfego sem IDs de terceiros para minimizar a contaminação entre grupos, mas isso reduz o número de participantes do experimento.
Conceitos
Valores reais
São os resultados brutos do experimento. Representam o número real de conversões que a variante recebeu.
Grupo
Um grupo pode ter:
- um item de linha ou pedido de inserção individual; ou
- um grupo de itens de linha ou pedidos de inserção.
Por exemplo, a referência e a variante dela são grupos separados do experimento.
Valor de referência
É o item de linha ou pedido de inserção que determina o padrão para as comparações do experimento. Crie variantes e compare com o original para testes.
Intervalo de confiança
Indica o nível de certeza de que a diferença real entre as variantes está dentro do intervalo informado. É possível especificar uma probabilidade de 90% ou 95% de o valor real estar nesse intervalo.
Por exemplo, um intervalo de confiança de 90% indica que isso acontece em 90 de 100 testes repetidos.
Valores normalizados
Representam o valor superior para cliques, conversões, impressões ou receita calculado ao ampliar o valor de referência ou o valor real da variante para 100% da divisão do público-alvo.
Por exemplo, se houver 170 mil conversões reais para um item de linha com uma divisão de público-alvo de 34%, o valor normalizado será de 500 mil conversões se o mesmo item de linha receber 100% da divisão do público-alvo.
Valor-p
Representa a probabilidade calculada de que a diferença possa ter ocorrido por acaso.
Usado para determinar a significância estatística do resultado, testando a probabilidade de que haja uma diferença de performance real entre o valor de referência e a variante:
- Um valor-p mais baixo indica maior evidência de uma diferença de performance, sinalizando que os resultados são significativos.
- Um valor-p mais alto indica que talvez os resultados tenham sido gerados por acaso, sinalizando que não são significativos.
Variante
É um pedido de inserção ou item de linha experimental usado como variável na comparação com o pedido de inserção ou item de linha de referência.
Configurar um experimento A/B
- No anunciante, clique em Experimentos no menu à esquerda.
- Na guia Testes A/B, selecione Criar novo.
- Escolha uma das opções a seguir:
- Vários mercados
- YouTube e parceiros
- Insira os seguintes detalhes:
-
Nome: insira um identificador para o experimento e, opcionalmente, uma declaração de hipótese.
-
Duração do teste – datas de início e término:
-
Data de início: defina quando o experimento vai começar. A data precisa ser posterior à atual.
-
Data de término: é possível definir quando o experimento vai terminar. Quando você não especifica uma data de término, o experimento é realizado indefinidamente.
Quando possível, combine as datas de início e término com os pedidos de inserção ou itens de linha do experimento.
Exemplo:
- Se você interromper um experimento antes que os pedidos de inserção ou os itens de linha atinjam as datas de término, ele não seguirá a divisão do público-alvo nem será veiculado para 100% dos usuários.
As métricas de um experimento são baseadas somente nas impressões veiculadas após a data de início dele. Um número diferente de conversões poderá ser contabilizado nos relatórios se o item de linha estiver ativo antes ou depois das datas do experimento.
-
-
Grupos de teste: escolha se você está comparando pedidos de inserção ou itens de linha.
-
De acordo com o tipo do experimento, escolha ao menos dois pedidos de veiculação ou itens de linha para usar nele.
- Comparar individualmente: selecione os pedidos de inserção que serão incluídos no experimento.
- Se você usar vários pedidos de inserção, será possível ajustar a divisão de público-alvo para controlar a distribuição de todos os cookies do experimento entre os pedidos de inserção ou os itens de linha dele.
- Para vários pedidos de inserção, é possível identificar o grupo de controle ao definir o pedido de inserção como o Valor de referência.
- Comparar grupos: selecione os grupos de pedidos de inserção que serão incluídos em cada grupo do experimento.
- É possível ajustar a divisão de público-alvo para controlar a distribuição de todos os cookies do experimento entre os pedidos de inserção ou os itens de linha dele.
- Identifique o grupo de controle ao definir o pedido de inserção como o valor de referência.
- Comparar individualmente: selecione os pedidos de inserção que serão incluídos no experimento.
-
-
Avaliar:
- Metas de pesquisa: selecione a meta que você quer avaliar no experimento.
- Conversões
- Cliques
- Exibições de vídeos concluídas
- Valor total de impressões personalizadas (ao usar lances personalizados)
- Intervalo de confiança: escolha 95% (o mais comum) ou 90%.
- Participação (somente para experimentos em vários mercados): por padrão, é definido para maximizar a participação no experimento usando identificadores no nível do usuário e o desvio aleatório.
- Ative a opção Excluir usuários não identificados para remover o tráfego sem IDs de terceiros, minimizando a contaminação entre grupos.
Observação: excluir usuários não identificados pode fazer com que seu experimento não seja representativo devido à redução de participantes.
- Ative a opção Excluir usuários não identificados para remover o tráfego sem IDs de terceiros, minimizando a contaminação entre grupos.
- Configuração do estudo de aumento (somente para experimentos opcionais e do YouTube e parceiros):
- Marque a caixa de seleção "Brand Lift".
- Selecione entre 1 e 3 métricas do Lift para medir. A barra lateral esquerda mostra os critérios de qualificação para analisar o aumento e se os grupos experimentais estão qualificados. Saiba como configurar a medição de Brand Lift.
- Insira os seguintes detalhes da pesquisa:
- Sua marca ou nome do produto
- Até 3 nomes de marcas ou produtos concorrentes
- Insira as seguintes configurações da pesquisa:
- Idioma: o idioma usado na pesquisa
- Tipo de objeto: o setor ou campo que você quer pesquisar
- Ação pretendida: o que você espera que o usuário faça depois de ver seu anúncio
- Metas de pesquisa: selecione a meta que você quer avaliar no experimento.
-
-
Clique em Salvar.
Avaliar os resultados de um experimento
- Comece no anunciante.
- No menu à esquerda, acesse Experimentos.
- Na guia Testes A/B, selecione o link Nome do estudo para ver os resultados de um experimento.
- Se você configurou uma pesquisa de Brand Lift em um experimento, clique em Ver relatório de Brand Lift ao lado do nome do grupo de teste para conferir os resultados do estudo.
-
Na guia Resultados do experimento:
-
Em Conversões (meta principal): Y, é possível conferir o resumo dos resultados, incluindo um gráfico para entender a diferença entre o valor de referência, as variantes e o aumento:
- Métrica: você pode avaliar a diferença entre o valor de referência e as variantes para conferir a significância estatística.
- Status: indica se os resultados são estatisticamente significativos ou não. Um resultado tem significância estatística quando há uma grande diferença entre o valor de referência e qualquer variante da meta do experimento.
- Datas do teste: são as datas que você definiu para o experimento.
- Tipo: reflete sua escolha de comparar pedidos de inserção ou itens de linha.
- Nível de confiança: é o nível de confiança que você definiu para o experimento.
- Intervalo de confiança: quando ativado, aplica o nível de confiança definido para o experimento.
-
-
É possível atualizar os resultados das seguintes maneiras:
-
Selecione um valor de referência: por padrão, o gráfico compara o valor de referência com diversas variantes. É possível selecionar uma variante para usar como referência na lista Valor de referência.
-
Selecione um modelo de atribuição: ao conferir os resultados dos experimentos de conversão, é possível escolher um modelo na lista Modelos de atribuição.
-
-
Como alternativa, é possível configurar dois estudos de Brand Lift independentes como grupos experimentais e conferir os resultados. Para acessar esses resultados em Experimentos:
Se você tiver estudos de Brand Lift criados para pedidos de inserção em um experimento, eles serão definidos automaticamente como medição acelerada. O estudo de Brand Lift vai tentar coletar as respostas da pesquisa assim que possível. Quando o número desejado de respostas é atingido, o estudo é interrompido.- As datas de início dos estudos e experimentos de Brand Lift precisam ser iguais.
- A seleção de métricas e as perguntas da pesquisa precisam ser as mesmas.
-
Por exemplo, com duas campanhas: é possível realizar um estudo de Brand Lift para cada campanha e criar um experimento com dois grupos, representando cada uma delas. Se o estudo de Brand Lift estiver concluído, você poderá conferir os resultados mesmo que o experimento ainda esteja em andamento.
Analisar as diferenças de um experimento
Navegue até a guia Dif. para analisar as diferenças entre as ramificações de um experimento. Isso permite saber se a única diferença é a variável usada no teste. É possível corrigir as diferenças antes que o experimento seja realizado, o que remove um possível viés ou o risco de fornecer resultados irrelevantes. Quando grupos de variantes tiverem mais de um item de linha, o Display & Video 360 fará a correspondência automática de comparações com base no número mínimo de diferenças observadas.
A ferramenta "Dif." foi criada para uso durante o processo de controle de qualidade, mas talvez ela não seja útil retroativamente. Ela compara os itens de linha e os pedidos de inserção como estão no momento, não como estavam quando o experimento foi realizado. Sendo assim, a ferramenta vai refletir todas as mudanças ocorridas após o experimento (inclusive o arquivamento de itens de linha), mesmo que elas não o afetem.
Práticas recomendadas
Tenha em mente o seguinte ao planejar um experimento.
Planejamento e configuração
-
Teste somente uma variável por experimento. Mantenha todos os grupos do experimento (linha de base e quaisquer variantes) iguais, exceto a única variável que você está testando.
-
Crie pedidos de inserção ou itens de linha para os experimentos ao duplicar eles, em vez de criar do zero. Assim fica mais fácil garantir que os itens dos experimentos sejam idênticos, exceto a única dimensão que você está testando como variável.
-
Use somente novos pedidos de inserção ou itens de linha nos experimentos. Se um pedido de inserção ou item de linha tiver sido usado anteriormente fora do experimento, isso poderá afetar a contagem de conversões.
-
Elimine influências externas. Verifique se os itens de linha que não fazem parte do experimento não estão competindo com os orçamentos dos itens de linha do experimento. Então, se possível, use um pedido de inserção separado para qualquer item de linha usado em um determinado experimento.
Além disso, se possível, tente não reutilizar o criativo usado em um experimento em qualquer lugar que não seja o experimento.
-
Defina um limite de frequência suficiente. Se você usar pedidos de inserção no experimento, confira se o limite de frequência da campanha é ao menos tão alto quanto a soma do maior limite de frequência de qualquer pedido de inserção do experimento com todos os limites de frequência dos pedidos de inserção restantes não usados no experimento.
Por exemplo, se você tiver uma campanha com três pedidos de inserção, mas apenas dois deles fizerem parte de um experimento, determine o limite de frequência mínimo da campanha somando o limite mais alto entre os dois pedidos participantes ao limite do pedido de inserção que não é usado no experimento. Assim, se os pedidos de inserção do experimento tiverem limites de frequência de 10 e 8, e o que ficou de fora tiver um limite de 5, a campanha vai precisar ter um limite de frequência de 15. Isso é determinado pela soma de 10 (o maior limite de frequência de qualquer pedido de inserção associado ao experimento) com 5 (a soma de todos os limites de frequência dos pedidos de inserção restantes na campanha que estão fora do experimento).
Essa mesma prática recomendada serve para o limite de frequência no nível do pedido de inserção quando o experimento compara itens de linha.
-
Planeje seu orçamento e defina um ritmo deliberadamente. O orçamento definido para cada grupo do experimento precisa ser proporcional à divisão do público-alvo do experimento. Se você alocar o orçamento de maneira diferente, e não proporcional, o orçamento fará parte das variáveis do experimento. Do mesmo modo, o ritmo precisa ser o mesmo ou também será outra variável do experimento. Essa prática recomendada precisa ser estendida para além dos itens de linha em um experimento e também para outros itens de linha que não estão no experimento, mas no mesmo pedido de inserção. A capacidade de gastar o orçamento e o ritmo vão afetar como os itens de linha do experimento compram inventário e, assim, influenciar os resultados.
-
Tenha cuidado quando seu alcance for limitado. Se você espera ter um alcance relativamente limitado, por exemplo, comprando um inventário de transações ou um inventário de público-alvo com alcance limitado, os experimentos talvez produzam intervalos de confiança amplos, o que pode dificultar a avaliação da eficácia das variantes.
-
Finalize as coisas antecipadamente. Os experimentos devem ter tempo suficiente para que todos os criativos sejam aprovados antes de serem iniciados.
Quando um experimento estiver em andamento
-
Não pause o experimento. Se você tiver que interromper temporariamente uma campanha, mas quiser continuar o experimento, pause os grupos que fazem parte dele, mas não o próprio experimento. Nesse caso, é preciso pausar todos esses grupos. Então, quando você retomar a campanha, ative todos os branches ao mesmo tempo.
Um experimento encerrado não pode ser reiniciado. Além disso, todas as entidades atribuídas ao experimento voltarão a ser veiculadas para 100% dos usuários. -
Faça edições uniformes. Para mudar os pedidos de inserção ou itens de linha durante a execução de um experimento, aplique a mesma alteração a todos os grupos. Talvez seja necessário fazer isso para remover um site que não atende às diretrizes de adequação da marca.
Considerações
- Não é possível fazer experimentos nos seguintes tipos de inventário:
- Itens de linha ou pedidos de inserção padrão de programática garantida com itens de linha padrão
- Inventário de Reserva instantânea
- Os experimentos podem ser ativados 24 horas após a configuração. Não é possível selecionar o dia de hoje nem o de amanhã como data de início durante a configuração.
- Um item de linha ou pedido de inserção só pode ser usado em um único experimento ativo em um determinado momento.
- Não é possível ajustar as porcentagens de divisão do público-alvo após o início de um experimento.
- No momento, a estrutura de experimentos não reconhece dispositivos diferentes. Por isso, um usuário pode ser exposto a uma variante do experimento no dispositivo móvel e à linha de base no computador.
- O número de conversões contadas pode ser diferente entre experimentos e outras formas de relatório, incluindo as métricas exibidas nas tabelas. Isso ocorre porque as métricas registradas durante os experimentos consideram apenas as impressões veiculadas enquanto o experimento estava ativo.
- Os estudos de aumento criados em testes A/B não estão disponíveis para novas medições. Se você quiser medir novamente o estudo de Brand Lift, interrompa o experimento, remova o pedido de inserção desse estudo e crie outro na guia "Estudos de aumento".
Perguntas frequentes
Qual é a diferença entre a segmentação de audiência do Campaign Manager 360 e os experimentos do Display & Video 360?
A segmentação de audiência do Campaign Manager 360 se concentra na divisão do tráfego entre diferentes criativos. Por exemplo, com a segmentação de audiência, é possível dividir o tráfego de uma campanha do Campaign Manager 360 em diferentes grupos de usuários e programar um criativo diferente para cada segmento.
Os experimentos do Display & Video 360 permitem dividir o tráfego no nível do pedido de inserção ou item de linha, o que possibilita testar qualquer configuração ou dimensão segmentável além dos criativos.
Por que não é possível adicionar um pedido de inserção ou item de linha específico ao meu experimento?
Os pedidos de inserção ou itens de linha indisponíveis para o experimento ficam ocultos na visualização ou aparecem como não selecionáveis durante a configuração do experimento.
Talvez seja possível determinar o motivo de não conseguir adicionar um pedido de inserção ou item de linha a um experimento usando o ícone de dica.
Qual é a diferença entre o Google Optimize e os experimentos do Display & Video 360?
Os experimentos do Display & Video 360 permitem comparar táticas de campanhas publicitárias, como segmentação e configurações. Já o Google Optimize permite comparar sites ou páginas de destino diferentes.
Os experimentos do Display & Video 360 usam um modelo frequencista, semelhante a outras soluções de métricas de performance de anúncios. O Google Optimize usa um modelo bayesiano, que é mais adequado para gerenciar comparações com tamanhos pequenos de amostras.