Mariusz Słowik
Head of design
Wyobraźmy sobie prostą sytuację: rzucamy kostką do gry. Teoretycznie każda liczba (od 1 do 6) powinna wypaść z takim samym prawdopodobieństwem - około 16,7%. Jednak gdy wykonamy tylko 30 rzutów, możemy zaobserwować bardzo nieregularne wyniki.
Na przykład:
Szóstka może wypaść 8 razy (26,7%), Jedynka tylko 2 razy (6,7%), Trójka 4 razy (13,3%).
To samo zjawisko występuje w testach stron internetowych. Przy małej liczbie odwiedzających, przypadkowe wahania mogą znacząco wpływać na wyniki. Dlatego tak ważne jest zebranie odpowiednio dużej próby i środowiska testowego, aby nasze wnioski były wiarygodne.
Testowanie A/B to metoda porównywania dwóch wersji strony internetowej, aby określić, która z nich lepiej realizuje założone cele (np. sprzedaż, zapisy do newslettera, wypełnienie formularza). Wersja A to obecna strona (kontrolna), a wersja B to nowa propozycja ze zmianami.Weźmy jako przykład sklep internetowy sprzedający koszule. Obecnie nasza strona produktowa ma konwersję na poziomie 5% (czyli 5 na 100 osób dokonuje zakupu).
Zobaczmy, jak powinniśmy przeprowadzić testy i jakich błędów uniknąć.
Często po trzech dniach testów chcemy już ogłosić zwycięzcę: "Świetnie! Wersja B ma o 15% wyższą konwersję!". To jednak błąd. To jak rzucenie kostką 20 razy i stwierdzenie: "Wow, wypadło 8 szóstek, ta kostka musi być magiczna!". Wiemy, że potrzebujemy więcej danych. Czekamy, aż test osiągnie istotność statystyczną 95%.
Wyobraźmy sobie, że wprowadziliśmy nowy przycisk "Kup teraz" na naszej stronie i po pierwszym dniu widzimy wzrost sprzedaży o 30%. Czy to oznacza, że zmiana jest skuteczna? Niekoniecznie. To może być po prostu szczęśliwy zbieg okoliczności, tak jak wygranie w rzucie monetą trzy razy pod rząd nie oznacza, że moneta jest zaczarowana.
Istotność statystyczna to nasza pewność, że zaobserwowane różnice między wersjami A i B nie są dziełem przypadku.
Standardowo w testach A/B dąży się do 95% pewności - oznacza to, że istnieje tylko 5% szans, że zaobserwowane różnice są przypadkowe.
To bardzo ważne, gdyż chroni nas przed pochopnymi decyzjami biznesowymi.
Unikamy wdrażania zmian, które mogą być efektem przypadku i nie podejmujemy decyzji na podstawie wczesnych, niepewnych wyników.
Dopiero gdy osiągniemy istotność statystyczną na poziomie 95%, możemy z względną pewnością stwierdzić, że nasza zmiana faktycznie wpływa na wyniki, a nie jest to tylko szczęśliwy (lub pechowy) przypadek.
Aby osiągnąć 100% pewności:
Moc testu to jak czułość naszego narzędzia pomiarowego - określa, jak dobrze potrafi ono wykryć prawdziwe zmiany w zachowaniu użytkowników. To nasza zdolność do wykrycia rzeczywistej różnicy między wersjami A i B, gdy taka różnica faktycznie istnieje.
W testach A/B możemy popełnić dwa rodzaje błędów:
Błąd I rodzaju (Fałszywy Pozytyw)
Błąd II rodzaju (Fałszywy Negatyw)
Przy mocy 80%:
Dla większości testów A/B, Gdy balansujemy między dokładnością a czasem przyjmuje się moc statystyczną na poziomie 80%. (To branżowy standard).
Moc testu vs Istotność statystyczna - kluczowe różnice.
Gdy planujemy test, musimy określić, jaką minimalną zmianę chcemy wykryć. Załóżmy, że chcemy być pewni wzrostu konwersji o minimum 20% (z 5% do 6%). To jak powiedzenie: "Chcemy być pewni, że nowa wersja strony faktycznie jest lepsza, a nie tylko mieliśmy szczęście w kilku próbach".
Minimalna wykrywalna różnica (MDE) to najmniejsza zmiana w wynikach, którą chcemy pewnie wykryć w naszym teście. To jak ustalenie progu, od którego mówimy "tak, ta zmiana jest dla nas biznesowo znacząca". Im mniejszą różnicę chcemy wykryć, tym więcej czasu i odwiedzin potrzebujemy na test. Dlatego tak ważne jest ustalenie realistycznego progu, który ma sens biznesowy.
Zazwyczaj rekomendujemy: Minimum 10% MDE dla stron o dużym ruchu oraz 15% dla stron o małym ruchu.
Testowanie równoległe oznacza, że wszystkie wersje testowe (A i B) działają jednocześnie, a ruch użytkowników jest dzielony między nie w czasie rzeczywistym. To podstawa wiarygodnych testów A/B, bez której nasze wyniki mogą być zafałszowane.Równoległe testowanie jest kluczowe, ponieważ:
Gwarantuje, że obie wersje działają w identycznych warunkach.
Wyobraźmy sobie, że testujemy dwie wersje strony. Aby test był wiarygodny, musimy zapewnić identyczne warunki dla obu wersji. To jak przeprowadzanie eksperymentu naukowego - zmieniamy tylko jeden element a wszystkie pozostałe czynniki muszą być takie same.
A. Równowaga platform reklamowych
Każda platforma reklamowa przyciąga inny typ użytkowników:
Dlatego w obu wersjach testu musimy zachować dokładnie taki sam źródeł ruchu:
B. Wymiar czasowy i sezonowość
Zachowanie użytkowników zmienia się w czasie: Dlatego obie wersje muszą być testowane równolegle (w tym samym czasie). Nie możemy testować wersji A w listopadzie, a wersji B w grudniu.
Dlaczego?
Poniżej znajdziesz praktyczny przewodnik, który pomoże Ci przygotować odpowiednie środowisko do przeprowadzenia wiarygodnych testów A/B. Przedstawiamy najważniejsze kroki i elementy, na które należy zwrócić szczególną uwagę.
Zanim rozpoczniesz test, upewnij się że:
Równoległy podział ruchu
Wszystkie osoby odwiedzające stronę powinny być losowo przydzielane do dwóch grup:
Upewnij się, że:
Monitorowanie testu
Codziennie sprawdzaj:
Kiedy zakończyć test?
Upewnij się, że przeznaczasz odpowiednio długi okres testowania do osiągnięcia pożądanej istotności statystycznej. Test można zakończyć gdy zebrano wystarczającą liczbę konwersji osiągając istotność statystyczną 95%.
Najczęstsze pułapki których należy unikać
Pamiętaj: Lepiej przeprowadzić jeden dokładny test niż kilka niedokładnych. Jeśli masz wątpliwości lub pytania, zawsze możesz skonsultować się z naszym zespołem przed rozpoczęciem testowania.
Życzymy udanych testów!