Framework testowania kreacji: wolumen czy precyzja

Większość kont nie ma problemu z kreacjami. Ma problem z procesem kreatywnym. Kiedy przejmujemy konto wydające 20–60 tys. $ miesięcznie, biblioteka reklam zwykle opowiada tę samą historię: czterdzieści reklam odpalonych w sześć miesięcy, żadnej konwencji nazewnictwa, żadnego zapisu, co która reklama miała udowodnić, i trzech zwycięzców niosących 80% budżetu, aż się wypalili. Framework testowania kreacji to nie szablon ani arkusz. To system decyzyjny: co produkować, w jakiej ilości, kiedy wyłączać i jak rozliczyć pieniądze, które to wszystko pochłonęło.

Ten artykuł opisuje framework, który prowadzimy w kontach od 5 do 80 tys. $ miesięcznego budżetu — w tym w kontach polskich marek skalujących się na rynkach US i UK, gdzie wyższe CPM-y karzą brak systemu jeszcze szybciej. Jest opiniotwórczy. Jest też nudny — i o to chodzi: testowanie kreacji działa wtedy, gdy przestaje być wydarzeniem, a staje się harmonogramem.

Dwie szkoły: zalewanie wolumenem kontra chirurgiczna precyzja

Istnieją dwa dominujące podejścia do testowania kreacji i oba mają uprawnioną logikę.

Szkoła wolumenu odpala 20–50 nowych reklam tygodniowo, pozwala systemowi emisji je posortować i traktuje każdą kreację jak los na loterii. Argument: współczesne aukcje reklamowe to maszyny rankingujące kreacje. Ludzkie przewidywania, co zadziała, są zawodne, więc maksymalizuj liczbę losowań. Tak pracują duzi operatorzy DTC i arbitrażowe zespoły lead genu. Działa to, gdy spełnione są trzy warunki: tania produkcja (pipeline UGC, szablonowe wariacje), wysoki budżet (dość pieniędzy, żeby dać każdemu losowi uczciwy odczyt) i krótkie pętle zwrotne (zakup lub lead w 1–3 dni).

Szkoła precyzji odpala 3–6 starannie zbudowanych konceptów miesięcznie, każdy oparty na badaniu klienta, każdy testujący jedną jawną hipotezę. Argument: wolumen bez tezy produkuje szum. Pięćdziesiąt wariacji słabego konceptu to nadal słaby koncept. Tak zwykle działają marki z przemyślanym zakupem i reklamodawcy B2B — i działa to, gdy produkcja jest droga, budżet umiarkowany, a cykl zakupowy na tyle długi, że statystyczne odczyty i tak zajmują tygodnie.

Tryby awarii są symetryczne. Konta czystego wolumenu generują zwycięzców, których nie umieją wyjaśnić, więc nie umieją ich odtworzyć; gdy zwycięzca umiera, konto resetuje się do zerowej wiedzy. Konta czystej precyzji uczą się wolno i głodzą system emisji świeżym materiałem; wyniki gniją między premierami „wielkich idei”, a każdy test niesie zbyt duży ciężar emocjonalny i finansowy, żeby wyłączyć go uczciwie.

Dlaczego pracujemy hybrydą: precyzja na poziomie konceptu, wolumen na poziomie wariacji

Nasze rozstrzygnięcie jest strukturalne, nie filozoficzne. Dzielimy kreacje na dwie warstwy i do każdej stosujemy inną logikę testowania.

Koncepty to odrębne kąty perswazji: inne ujęcie problemu, inny mechanizm dowodu, inny rejestr emocjonalny. „Kotwiczenie ceny względem wizyt w salonie” i „transparentność składu” to różne koncepty. Koncepty traktujemy precyzyjnie: każdy jest spisaną hipotezą, ugruntowaną w analizie recenzji, ticketach supportu albo danych z zapytań. Odpalamy 2–4 nowe koncepty miesięcznie, nie więcej. Każdy koncept przed startem dostaje jednozdaniową predykcję: kogo powinien poruszyć i która metryka powinna zareagować.

Wariacje to egzekucje konceptu: różne hooki, otwarcia, formaty, proporcje kadru, długości. Wariacje dostają wolumen: 4–8 na koncept, produkowane tanio, odpalane razem. Platforma sortuje wariacje o niebo lepiej niż my, a koszt przegranej wariacji jest pomijalny.

Efekt praktyczny: gdy wariacja wygrywa, wiemy dlaczego — należy do konceptu ze spisaną tezą. Wiedza się kumuluje. W koncie e-commerce modowym, które prowadzimy (zobacz case e-commerce mody), ta struktura podniosła łączny ROAS z 2.1 do 4.3 w siedem miesięcy — nie dlatego, że któraś pojedyncza reklama była genialna, ale dlatego, że koncepty miesiąca czwartego były budowane na zwalidowanych tezach miesięcy od pierwszego do trzeciego.

To także miejsce, w którym porządna usługa analityki kreacji zarabia na swoje utrzymanie: tagowanie każdej reklamy po koncepcie, typie hooka, formacie i claimie, żeby wyniki rolowały się do warstwy, na której naprawdę zapadają decyzje.

Tygodniowa kadencja: hipoteza, kontrola, wyłączenie

Testowanie umiera od nieregularności. Nasza kadencja jest tygodniowa i każdy tydzień ma cztery stałe kroki.

Poniedziałek — odczyt. Ściągamy ostatnie 7 dni na poziomie konceptu, nie reklamy. Porównujemy każdy żywy koncept z obowiązującą kontrolą konta (aktualnie najlepszy wynik z ostatnich 30 dni przy znaczącym budżecie). Odczyty na poziomie reklamy przy mniej niż ~300–500 $ wydatków to szum; agregacja na poziomie konceptu dochodzi do istotności szybciej.
Wtorek — decyzja. Każdy żywy test dostaje jeden z trzech werdyktów: wyłączyć, przedłużyć albo promować. Przedłużenia są ograniczone do jednego tygodnia — test, który nie umie zapracować na werdykt w 14 dni przy właściwym budżecie, sam jest do wyłączenia.
Środa — brief. Nowe koncepty i kolejne rundy wariacji są briefowane na piśmie: hipoteza, docelowy segment, kontrola do pobicia, alokacja budżetu, próg wyłączenia. Jeśli nie umiemy zapisać hipotezy w jednym zdaniu, koncept nie jest gotowy.
Czwartek–piątek — produkcja i start. Nowe testy idą live do piątku, żeby tańszy weekendowy inventory dołożył się do odczytu, a poniedziałkowy przegląd miał 3 pełne dni danych.

Dwie zasady utrzymują to w uczciwości. Po pierwsze, kontrola nigdy nie śpi: każdy test biegnie przeciwko jawnemu urzędującemu liderowi, a „lepsze niż nic” nie jest zaliczeniem. Po drugie, kryteria wyłączania są spisane przed startem, nie negocjowane po. Nasze domyślne progi na Meta: wariację wyłączamy przy 2× docelowego CPA i zeru konwersji; koncept wyłączamy, jeśli po 500–1 000 $ wydatków na jego wariacje jego najlepsza wariacja przegrywa z CPA kontroli o ponad 25%.

Zadeklarowane z góry kryteria wyłączania znaczą więcej niż jakakolwiek decyzja targetingowa czy bidowa. Każdy buyer, którego zatrudniliśmy, w którymś momencie trzymał przy życiu przegraną reklamę, bo ją lubił. System istnieje po to, żeby to uniemożliwić.

Progi zmęczenia: kiedy zwycięzcy przestają wygrywać

Druga połowa frameworku testowego to emerytura. Zwycięzcy gasną, a ich gaśnięcie jest mierzalne na długo przed zawaleniem się CPA. Na każdej reklamie powyżej 10% budżetu konta monitorujemy trzy sygnały:

Częstotliwość. Na prospectingu 7-dniowa częstotliwość powyżej 2.5–3.0 oznacza, że osiągalna pula przy obecnych stawkach się nasyca. To najwcześniejszy i najmniej zaszumiony sygnał.
Dryf CPM. Indeksujemy CPM każdej reklamy względem jej własnych pierwszych dwóch tygodni. Utrzymany wzrost o 20%+ przy stabilnych warunkach aukcji (sprawdź CPM na poziomie konta, żeby odizolować sezonowość) oznacza, że system emisji płaci coraz więcej za znajdowanie ludzi, którzy reagują — algorytmiczna definicja zmęczenia.
Spadek CTR. Zjazd o 25–30% od własnego szczytu reklamy, utrzymany przez 7+ dni, potwierdza zużycie kreacji, a nie zły tydzień.

Jeden sygnał to pozycja obserwacyjna. Dwa to zaplanowana wymiana: reklama zostaje live, a jej następca — zwykle odświeżona wariacja tego samego konceptu — wchodzi do testów. Trzy to natychmiastowy limit na udział w budżecie. Celem jest nigdy nie dać się zaskoczyć śmiercią zwycięzcy; na dobrze prowadzonym koncie następca jest zwalidowany 2–3 tygodnie przed emeryturą urzędującego.

Matematyka zmęczenia ustawia też normy produkcyjne. Jeśli zwycięzcy żyją 6–10 tygodni na skali i potrzebujesz 2–3 równoległych zwycięzców, żeby bezpiecznie wydawać 40 tys. $ miesięcznie — potrzebujesz zwalidowanego nowego zwycięzcy mniej więcej co 3 tygodnie. Co przy realistycznej skuteczności (1 na 4–6 konceptów daje skalowalnego zwycięzcę) oznacza, że kadencja 2–4 konceptów miesięcznie nie jest preferencją. Jest arytmetyką.

Miesięczny P&L kreacji

Raz na kwartał ktoś pyta, co „zwrócił” budżet testowy. Uczciwa odpowiedź wymaga rozliczania kreacji jak portfela — i my produkujemy je co miesiąc. Format jest prosty: pięć linijek na koncept.

Koszt produkcji — faktyczny: godziny wewnętrzne po stawkach obciążonych plus faktury kontraktorów, typowo 150–400 $ za wariację UGC, 800–2 500 $ za koncept produkowany.
Budżet testowy — media skonsumowane przed werdyktem promuj/wyłącz.
Werdykt — wyłączony, iterowany albo promowany, z datą.
Budżet i przychód po skalowaniu — dla konceptów promowanych: wszystko, co koncept zarobił po promocji.
ROI konceptu — (przychód ze skali − wydatki na skalę − budżet testowy − produkcja) / (budżet testowy + produkcja).

Typowy miesiąc na koncie za 50 tys. $: 3 koncepty, 16 wariacji, ~1 800 $ produkcji, ~4 500 $ budżetu testowego (9% budżetu — testowanie trzymamy między 8% a 15%). Dwa koncepty wyłączone, jeden promowany. Promowany koncept absorbuje potem 25 tys. $ przez kolejne dwa miesiące przy CPA 30–40% poniżej średniej konta. Dwa wyłączenia to nie straty; to cena jednego zwycięzcy, a P&L czyni tę cenę jawną — zwykle 4–7 tys. $ za zwalidowanego zwycięzcę na średnim koncie.

P&L zmienia rozmowy. „Wydaliśmy 6 300 $, żeby znaleźć koncept, który ściął CPA o 35% na 25 tys. $ miesięcznego budżetu” to zdanie, które CFO akceptuje. „Ciągle testujemy” — nie. Na koncie z produktami informacyjnymi samo to raportowanie uzasadniło podwojenie budżetu testowego po drugim miesiącu — liczby pokazały, że każdy kolejny zwycięzca był wart mniej więcej 12× kosztu swojego odkrycia (szczegóły w casie produktów informacyjnych).

Co z tego wziąć

Jeśli w tym kwartale zbudujesz jedną rzecz, zbuduj dwuwarstwowy podział: koncepty ze spisanymi hipotezami, wariacje w wolumenie pod spodem. Jeśli dwie — dodaj do każdego startu zadeklarowane z góry kryteria wyłączania. Kadencja, progi zmęczenia i P&L wynikną naturalnie, gdy te dwie rzeczy już istnieją. Framework testowania kreacji to ostatecznie po prostu dyscyplina decydowania z wyprzedzeniem, jaki dowód zmieni twoje zdanie — a potem pozwolenia mu na to.

Intelligent Syndicate Research

Piszą operatorzy, którzy prowadzą konta. Bez ghostwriterów i wymyślonych person.

Systemy testowania kreacji: wolumen kontra precyzja