Testowanie A/B: Jak mierzyć skuteczność zmian

Mariusz Słowik
Head of design

> encyklopedia > testowanie a-b

Wprowadzenie do statystyki w testowaniu A/B

Wyobraźmy sobie prostą sytuację: rzucamy kostką do gry. Teoretycznie każda liczba (od 1 do 6) powinna wypaść z takim samym prawdopodobieństwem - około 16,7%. Jednak gdy wykonamy tylko 30 rzutów, możemy zaobserwować bardzo nieregularne wyniki.

Na przykład:

Szóstka może wypaść 8 razy (26,7%), Jedynka tylko 2 razy (6,7%), Trójka 4 razy (13,3%). 

To samo zjawisko występuje w testach stron internetowych. Przy małej liczbie odwiedzających, przypadkowe wahania mogą znacząco wpływać na wyniki. Dlatego tak ważne jest zebranie odpowiednio dużej próby i środowiska testowego, aby nasze wnioski były wiarygodne.

Czym jest testowanie A/B

Testowanie A/B to metoda porównywania dwóch wersji strony internetowej, aby określić, która z nich lepiej realizuje założone cele (np. sprzedaż, zapisy do newslettera, wypełnienie formularza). Wersja A to obecna strona (kontrolna), a wersja B to nowa propozycja ze zmianami.Weźmy jako przykład sklep internetowy sprzedający koszule. Obecnie nasza strona produktowa ma konwersję na poziomie 5% (czyli 5 na 100 osób dokonuje zakupu).

Zobaczmy, jak powinniśmy przeprowadzić testy i jakich błędów uniknąć.

Istotność statystyczna. “Statistical Significance”
- Czyli kiedy możemy ufać wynikom?

Często po trzech dniach testów chcemy już ogłosić zwycięzcę: "Świetnie! Wersja B ma o 15% wyższą konwersję!". To jednak błąd. To jak rzucenie kostką 20 razy i stwierdzenie: "Wow, wypadło 8 szóstek, ta kostka musi być magiczna!". Wiemy, że potrzebujemy więcej danych. Czekamy, aż test osiągnie istotność statystyczną 95%.

Wyobraźmy sobie, że wprowadziliśmy nowy przycisk "Kup teraz" na naszej stronie i po pierwszym dniu widzimy wzrost sprzedaży o 30%. Czy to oznacza, że zmiana jest skuteczna? Niekoniecznie. To może być po prostu szczęśliwy zbieg okoliczności, tak jak wygranie w rzucie monetą trzy razy pod rząd nie oznacza, że moneta jest zaczarowana.

Istotność statystyczna to nasza pewność, że zaobserwowane różnice między wersjami A i B nie są dziełem przypadku.

Standardowo w testach A/B dąży się do 95% pewności - oznacza to, że istnieje tylko 5% szans, że zaobserwowane różnice są przypadkowe.

To bardzo ważne, gdyż chroni nas przed pochopnymi decyzjami biznesowymi.
Unikamy wdrażania zmian, które mogą być efektem przypadku i nie podejmujemy decyzji na podstawie wczesnych, niepewnych wyników.

Dopiero gdy osiągniemy istotność statystyczną na poziomie 95%, możemy z względną pewnością stwierdzić, że nasza zmiana faktycznie wpływa na wyniki, a nie jest to tylko szczęśliwy (lub pechowy) przypadek.

Dlaczego nie 100%?

Aby osiągnąć 100% pewności:

  • Potrzebowalibyśmy nieskończonej liczby odwiedzin.
  • Test musiałby trwać bardzo długo.
  • Koszty byłyby nieproporcjonalne do korzyści.

Dlaczego moc testu jest kluczowa?

Moc testu to jak czułość naszego narzędzia pomiarowego - określa, jak dobrze potrafi ono wykryć prawdziwe zmiany w zachowaniu użytkowników. To nasza zdolność do wykrycia rzeczywistej różnicy między wersjami A i B, gdy taka różnica faktycznie istnieje.

1. Rodzaje błędów w testowaniu

W testach A/B możemy popełnić dwa rodzaje błędów:

Błąd I rodzaju (Fałszywy Pozytyw)

  • Uznajemy, że jest różnica, gdy jej nie ma
  • Kontrolowany przez poziom istotności (α = 5%)
  • Jak fałszywy alarm przeciwpożarowy

Błąd II rodzaju (Fałszywy Negatyw)

  • Nie wykrywamy różnicy, która faktycznie istnieje
  • Kontrolowany przez moc testu (1 - β)
  • Jak niedziałający alarm przeciwpożarowy

2. Standardowa moc testu = 80%

Przy mocy 80%:

  • Mamy 80% szans na wykrycie prawdziwej różnicy
  • Akceptujemy 20% ryzyko przeoczenia różnicy (β = 0.2)
  • To branżowy standard wynikający z lat doświadczeń

Dla większości testów A/B, Gdy balansujemy między dokładnością a czasem przyjmuje się moc statystyczną na poziomie 80%. (To branżowy standard).

Moc testu vs Istotność statystyczna - kluczowe różnice.

Minimalna wykrywalna różnica (MDE)

Gdy planujemy test, musimy określić, jaką minimalną zmianę chcemy wykryć. Załóżmy, że chcemy być pewni wzrostu konwersji o minimum 20% (z 5% do 6%). To jak powiedzenie: "Chcemy być pewni, że nowa wersja strony faktycznie jest lepsza, a nie tylko mieliśmy szczęście w kilku próbach".

Minimalna wykrywalna różnica (MDE) to najmniejsza zmiana w wynikach, którą chcemy pewnie wykryć w naszym teście. To jak ustalenie progu, od którego mówimy "tak, ta zmiana jest dla nas biznesowo znacząca". Im mniejszą różnicę chcemy wykryć, tym więcej czasu i odwiedzin potrzebujemy na test. Dlatego tak ważne jest ustalenie realistycznego progu, który ma sens biznesowy.


Zazwyczaj rekomendujemy:
Minimum 10% MDE dla stron o dużym ruchu oraz 15% dla stron o małym ruchu. 

Testowanie równoległe.
- kluczowy element wiarygodnych testów.

Testowanie równoległe oznacza, że wszystkie wersje testowe (A i B) działają jednocześnie, a ruch użytkowników jest dzielony między nie w czasie rzeczywistym. To podstawa wiarygodnych testów A/B, bez której nasze wyniki mogą być zafałszowane.Równoległe testowanie jest kluczowe, ponieważ:

  • Eliminuje wpływ zewnętrznych wydarzeń (np. akcje konkurencji, zmiany na rynku)
  • Neutralizuje wpływ zmian algorytmów w mediach społecznościowych

Gwarantuje, że obie wersje działają w identycznych warunkach.

Dlaczego źródła ruchu muszą być jednolite?

Wyobraźmy sobie, że testujemy dwie wersje strony. Aby test był wiarygodny, musimy zapewnić identyczne warunki dla obu wersji. To jak przeprowadzanie eksperymentu naukowego - zmieniamy tylko jeden element a wszystkie pozostałe czynniki muszą być takie same.

A. Równowaga platform reklamowych

Każda platforma reklamowa przyciąga inny typ użytkowników:

  • Użytkownicy z Facebooka często są w fazie inspiracji i przeglądania
  • Osoby z Google Ads zazwyczaj mają sprecyzowane intencje zakupowe
  • Ruch organiczny może mieć zupełnie inny poziom zaangażowania

Dlatego w obu wersjach testu musimy zachować dokładnie taki sam źródeł ruchu:

  • Jeśli 40% ruchu pochodzi z Facebooka, to musi to dotyczyć obu wersji
  • Jeśli 30% to Google Ads - również musi być po równo w A i B
  • To samo dotyczy pozostałych źródeł ruchu

B. Wymiar czasowy i sezonowość

Zachowanie użytkowników zmienia się w czasie: Dlatego obie wersje muszą być testowane równolegle (w tym samym czasie). Nie możemy testować wersji A w listopadzie, a wersji B w grudniu.

Dlaczego?

  • W poniedziałki ludzie chętniej przeglądają, w piątki częściej kupują
  • W pierwszym tygodniu miesiąca (po wypłatach) konwersja jest zwykle wyższa
  • Sezonowe wydarzenia (Black Friday, święta, wyprzedaże) drastycznie zmieniają zachowania zakupowe

Praktyczne porady.

Poniżej znajdziesz praktyczny przewodnik, który pomoże Ci przygotować odpowiednie środowisko do przeprowadzenia wiarygodnych testów A/B. Przedstawiamy najważniejsze kroki i elementy, na które należy zwrócić szczególną uwagę.

Przygotowanie ruchu na stronie

Zanim rozpoczniesz test, upewnij się że:

  • Twoja strona ma stabilny ruch w odpowiedniej ilości.
  • Ruch pochodzi z tych samych źródeł co zwykle (np. jeśli normalnie 40% ruchu jest z Facebooka, utrzymaj to podczas testu)
  • Nie planujesz w tym czasie dodatkowych kampanii reklamowych, które mogłyby zaburzyć wyniki.

Równoległy podział ruchu

Wszystkie osoby odwiedzające stronę powinny być losowo przydzielane do dwóch grup:

  • 50% użytkowników zobaczy wersję A (obecną)
  • 50% użytkowników zobaczy wersję B (nową)

Upewnij się, że:

  • Obie wersje strony działają bezbłędnie na wszystkich urządzeniach
  • Wszystkie elementy śledzące (Google Analytics, piksel Facebooka itp.) są poprawnie zainstalowane na obu wersjach

Monitorowanie testu

Codziennie sprawdzaj:

  • Czy podział ruchu faktycznie jest równy (około 50/50)
  • Czy nie występują błędy techniczne
  • Czy nie ma nagłych spadków lub wzrostów ruchu

Kiedy zakończyć test?

Upewnij się, że przeznaczasz odpowiednio długi okres testowania do osiągnięcia pożądanej istotności statystycznej. Test można zakończyć gdy zebrano wystarczającą liczbę konwersji osiągając istotność statystyczną 95%.

Najczęstsze pułapki których należy unikać

  • Nie przerywaj testu zbyt wcześnie, nawet jeśli widzisz obiecujące wyniki
  • Nie wprowadzaj innych zmian na stronie podczas trwania testu
  • Nie zmieniaj budżetów reklamowych w trakcie testu

Pamiętaj: Lepiej przeprowadzić jeden dokładny test niż kilka niedokładnych. Jeśli masz wątpliwości lub pytania, zawsze możesz skonsultować się z naszym zespołem przed rozpoczęciem testowania.

Życzymy udanych testów!