A/B Split Tests - Wieso, weshalb, warum?


Egal ob man nun einer bestimmten Entwicklungs- Philosophie folgt oder einfach nur dem gesunden Menschenverstand: Klar ist, dass bei der modernen (Web-) Entwicklung nur derjenige die Nase vorn hat, der sein Produkt ständig verbessert. Egal ob Shop, Blog, App, Newsletter oder Desktop - Anwendung.

Klassische Situation in einem Team Meeting: Alle diskutieren ein neues Feature das heiß gewünscht ist. Da gibts dann die "Das wird NIEMALS klappen" Fraktion und die "das wird bestimmt Super" Abteilung. Am Ende sind sich aber alle, zumindest wenn sie ehrlich sind, einig, dass niemand wirklich weiß ob das Produkt durch das neue Feature verbessert wird. Also gar nicht erst bauen, oder bauen und hoffen das es schon besser wird? Beides blöd. Die spannende Frage ist also: Wiso, weshalb, warum hat sich was verbessert oder verschlechtert? Und wer diese Frage nicht stellt bleibt eben, Zitat Sesamstrasse, dumm. Genau in solchen Situationen ist es dann an der Zeit für ein A/B Split Test.

Und was ist jetzt so ein A/B Split Test?

Kurz zusammengefaßt: Eine unveränderte Seite wird einem Teil der User gezeigt, eine veränderte Variante dieser Seite dem anderen Teil. Die User werden also auf Variante A und B "aufgesplitted", daher die Bezeichnung A/B Split Test. Die Veränderungen können minimal sein (z.B. Buttons mit abgerundeten Ecken anstatt ohne) oder umfassend (komplett andere Seite). Gleichzeitig werden wichtige Kennzahlen erfaßt. Zum Beispiel die Conversion Rate für Verkäufe, Newsletteranmeldungen, Apsprungrate etc. Eben die Zahl(en) die man hofft durch die Änderung zu verbessern. Sind die Ergebnisse signifikant kann ein Gewinner ermittelt werden und man kann ziemlich genau sagen ob sich durch die Änderung etwas verbessert oder sogar verschlechtert hat. Einem solchen Test muss immer eine Hypothese vorangestellt werden. Z.B "wenn wir Elemente X auf die Weise Y auf der Seite B ändern, wird sich Kennzahl Z signifikant verbessern". Auf Basis dieser Hypothese wird der Test durchgeführt und bewertet. So weit so gut.

"A-B-Test ist eine Testmethode für Werbetestzwecke, bei der eine Originalversion eines Werbemittels gegen eine veränderte Version getestet wird."Wikipedia

Signifikanz und Aussagekraft von A/B Tests

Jetzt stellt sich natürlich schnell die Frage wann die Ergebnisse eines solchen Tests aussagekräftig sind. Ab wann kann man sagen "Hey, Variante A (oder eben B) hat gewonnen"? Generell steigt die Signifikanz mit der Anzahl Usern die an einem solchen Test teilgenommen haben. Weiterer Faktor ist die Differenz zwischen den erfaßten Kennzahlen. Ist diese Differenz sehr hoch reichen weniger User aus für eine relevante Aussage. Ist diese Differenz sehr gering benötigt es mehr User.

Optimizely, einer der größten A/B Testing Anbieter, hat einen kleinen Rechner zur Ermittlung der Stichprobengrösse online gestellt.


Kleines Rechenbeispiel: Variante A hat eine Conversion Rate von 5%, Variante B aber von 6%. Die Abweichung in Relation beträgt also 20%. Ich gebe als "Ausgangswertkonversionsrate" also 5%, und als "Kleinster messbarer Effekt" 20% an. Damit erhalte ich eine Stichprobengrösse pro Variante von 5568. Wurden beide Varianten also von mindestens 5568 Usern genutzt, kann angenommen werden das Variante B der Sieger ist.


Zum Beginn eines Tests hat man natürlich noch keine verlässlichen Ergebnisse für die Conversion Rate. Diese wird sich auch, zumindest anfänglich, stark ändern. Die Zahlen müssen also laufend kontrolliert werden. Die Stichprobengröße ändert sich damit ebenfalls laufend. Mit der Dauer des Tests werden die Schwankungen jedoch geringer und man nähert sich immer mehr verlässlichen Zahlen an. Im besten Fall paßt irgendwann alles und der Test kann abgeschlossen werden. Im schlechtesten Fall wird die Differenz immer geringer und die Stichprobengröße steigt schneller als man neue User auf die Seite holen kann. In dem Fall muss man nach einer bestimmten (am besten vorher festgelegten) Zeit die Reißleine ziehen und den Test abbrechen. In diesem Fall wäre das Ergebniss eben, dass keine der beiden Varianten besser ist.

Wann und was soll "ge-A/B testet" werden?

ab_split_testing Als "Pi-mal-Daumen" Regel gilt: Eine einzelne zu testende Seite sollte mindestens 10.000 Besucher monatlich haben damit sich A/B Tests überhaupt lohnen. Ansonsten besteht die Gefahr das ein Test viel zu lange laufen muss und die Ergebnisse dadurch gar nicht mehr relevant sind oder verwässert werden. Schließlich liegt die typische Stichprobengröße mal schnell bei 50.000 Usern und mehr. Insbesondere kleinste Variationen benötigen meist eine weitaus höhere Stichprobengröße. Riesige Seiten wie amazon.com, apple.com und google.com können vermutlich kleinste Abweichungen innerhalb kürzester Zeit signifikant vertesten. Bei kleinen Seiten mit den oben genannten 10.000+ Besuchern im Monat lohnt es sich nur größere und weitreichende Varianten zu testen. Dabei sollte auf der entsprechenden (Unter-) Seite immer nur ein Test gleichzeitig laufen. Typisches Beispiel ist hier die "Preise" Seite, oder die "Newsletter anmelde" Seite. Im ersten Fall lohnt es sich als Kennzahl die "E-Commerce Conversion Rate" zu testen, im zweiten natürlich die Newsletter Anmeldungen etc. Grundsätzlich sollten immer die Seiten getestet werden, die den User auf den Weg zu einer Interaktion begleiten. Der sogenannte "Conversion Funnel". Auch Landingpages sind beliebte 2Ziele" für A/B Tests. Schließlich kann man hier isolierter vom Experimente durchführen. Das Risiko ist kleiner, die Ergebnisse genauer. Das Impressum oder die AGB Seite auf ihre Converion Rate hin zu optimieren sollte lieber den ganz Grossen überlassen werden.

Tools für das A/B Testing

Neben dem oben bereits genannten Optimizely gibt es eine Vielzahl von Diensten die einem das anlegen von A/B Tests vereinfachen. Normalerweise wird nur ein kleiner JavaScript Code Schnipsel in die zu testende Seite eingefügt und dann über ein visuellen Editor Änderungen vorgenommen. Die Besucher bekommen dann entweder die ursprüngliche Version oder die Variante zu sehen. Die meisten dieser Tools lassen sich darüberhinaus mit anderen Analyse Diensten, wie z.B. Google Analytics, verknüpfen. So können auch Kennzahlen aus anderen Tools verglichen werden. Bei Google Analytics gibt es darüber hinaus ebenfalls die Möglichkeit Tests anzulegen. Hier können jedoch nur zwei verschiedene URL´s gegeneinander getestet werden. Die Variations- Seite muss also vorher manuell erstellt werden. hier eine kleine (nicht abschließende) Aufzählung bekannter Tools: - Optimizely - Visual Website Optimizer - Google Analytics - KISSMetrics - Webtrekk

Auch für WordPress gibt es eine ganze Reihe an entsprechenden Plugins. Und auch jeder größere Newsletter Dienst, wie z.B. MailChimp, bietet eine entsprechende Funktion an.

Auch einige Open Source Skripte haben sich etabliert. Hier gilt meist das mehr technisches Verständnis und Vorarbeiten nötig sind, die Anwendung aber kostenlos und freier möglich ist. Hier einige dieser Skripte: - sixpack.js - phpabtest - planOut - Proctor

6 9 grundlegende Tipps für A/B Tests

1. Erfaßt mehr als eine Kennzahl

Neben der Ziel- Kennzahle sollten auch anderen wichtige Kennzahlen im Rahmen eines Tests überprüft werden. Was bringt einem eine höhere Registrierungszahl wenn gleichzeitig die Sales Rate sinkt?


2. Denkt über den Tellerrand hinaus

Viele andere Faktoren können einen Test beeinflussen und müssen berücksichtigt werden. Saisonale Faktoren, eine geänderte SEO Kampagne, zu kurze oder zu lange Tests etc.


3. A/B Tests sind für alle da

Alle müssen mitziehen. Nicht nur Entwickler und Designer, sondern auch Marketing, Support etc. Eine Änderung kann zum Beispiel in besseren Kennzahlen resultieren, aber gleichzeitig steigt das Supportaufkommen an.


4. UX- und Designprinzipien müssen außen vor gelassen

Auch wenn es jedem UX Designer in der Seele weh tut, Tests sind dazu da Prinzipien zu hinterfragen.


5. Klare Hypothesen

Bevor ein Test umgesetzt wird muss eine saubere Hypothese samt Ziel definiert werden. Wenn alle Beteiligten nicht klar wissen was Sinn, Zweck und Ziel ist kommt es leicht zu Unstimmigkeiten.


6. Vergeßt nicht die Performance!

Gerade bei Test- Variationen neigt man dazu nicht die gleiche Sorgfalt walten zu lassen. Schließlich investiert man eventuell viel Zeit und Mühe und am Ende war alles für den Papierkorb. Wozu sollte man also noch mehr Zeit für die Performance Optimierung investieren? Ganz einfach: Laut Amazon führt eine 0.1 Sekunden länger Landezeit zu einer Minderung der Conversionrate um 1%. Eine Variation sollte also im besten Fall gleich schnell oder sogar schneller sein.


7. Bedenkt die Langzeitfolgen

Nur weil ein gelber Button leicht besser performed als ein blauer, muss dies nicht eine Aufweichung der CI rechtfertigen. Mittelfrisitg kann soetwas zu einer "schludrig" wirkenden Website führen. Das Vertrauen sinkt, die Sales auch. Hier müssen taktischen (kleine, isolierte Änderungen) und strategische Tests (große, weitreichende Änderungen) unterschieden werden.


8. Jeder A/B Test ist ein guter Test

Auch wenn ein Test "schlecht" gelaufen ist, sprich Variante B nicht besser war, ist es ein guter Test. Schließlich hat das Team so auch etwas gelernt. Zu wissen was nicht funktioniert ist mindestens genauso wertvoll wie zu wissen was funktioniert.


9. Transparenz, Transparenz und nochmal Transparenz

Die Testergebnisse müssen innerhalb der Firma und der Teams veröffentlicht und transparent gemacht werden. Nur dann könne diese von allen mitgetragen werden. Wir lassen sogar alle Mitarbeiter bei einem kleinen Tipp- Spiel mitmachen. Die Gewinner erhalten kleine Preise. Die Ergebnisse werden laufend auf einem gut einsehbarem Monitor im Büro angezeigt.


Fazit

A/B Tests sind kein Allheilmittel sondern nur ein Werkzeug im großen "Testing" Werkzeugkoffer. Sie spiegeln nur eine Momentaufnahme wieder und dienen dazu Argumente und Entscheidungen zu untermauern, nicht dazu Entscheidungsprozess abzulösen. Und genau so sollten A/B Tests auch behandelt werden. In Kombination mit Expertenevaluationen, Usability- Tests, automatisierten Tests und der Bereitschaft Testergebnisse konstruktiv aufzunehmen, sind A/B Tests aber ein guter Weg Anwendungen kontinuierlich an den tatsächlichen Usern auszurichten. Und damit kann man dann nicht nur Unternehmens- Kennzahlen kurz- mittel- und langfrisitg verbessern, sondern auch die eigenen User zu zufriedeneren Menschen machen.