AB Testing DE - SS 2020 PDF

Title AB Testing DE - SS 2020
Author Martin Nussbaumer
Course Marketing
Institution Wirtschaftsuniversität Wien
Pages 7
File Size 174.3 KB
File Type PDF
Total Downloads 4
Total Views 188

Summary

SS 2020...


Description

Abonnieren Sie DeepL Pro, um dieses Dokument zu bearbeiten. Weitere Informationen finden Sie auf www.DeepL.com/Pro

Der A/B-Test: Innerhalb der Technologie, die die Geschäftsregeln verändert

Foto: Spencer Higgins; Abbildung: Si Scott DAN SIROKER HELPS Unternehmen entdecken winzige Wahrheiten, aber seine Geschichte beginnt mit einer Lüge. Es war im November 2007, und Barack Obama, damals ein demokratischer Präsidentschaftskandidat, hielt im Google-Hauptquartier in Mountain View, Kalifornien, eine Rede. Siroker - der heute CEO der Web-Testfirma Optimizely ist, damals jedoch Produktmanager im Google-Browserteam war - versuchte, die riesige Schlange zu durchtrennen, indem er sich durch einen Hintereingang hineinschlich. "Ich ging auf den Sicherheitsmann zu und sagte: 'Ich muss da drinnen zu einem Meeting", erinnert sich Siroker. Es gab kein Treffen, aber sein Bluff brachte ihn hinein. Während des Gesprächs stellte Obama dem damaligen CEO Eric Schmidt die Frage: "Was ist der effizienteste Weg, eine Million 32-Bit-Ganzzahlen zu sortieren? Schmidt hatte ein bisschen Spaß, aber bevor er zu einer richtigen Frage übergehen konnte, stoppte Obama ihn. "Nun, ich denke, die Sortierung nach Blasen wäre der falsche Weg", sagte er - richtig. Schmidt hielt sich ungläubig die Hand an die Stirn, und der Saal brach in tosenden Applaus aus. Siroker war sofort hingerissen. "Er hatte mich in der 'Bubble-Sortierung'," sagt er. Zwei Wochen später hatte er sich von Google beurlauben lassen, war nach Chicago gezogen und schloss sich Obamas Kampagne als digitaler Berater an. Zuerst war er sich nicht sicher, wie er helfen könnte. Aber er erinnerte sich an etwas anderes, das Obama zu den Googlern gesagt hatte: "Ich glaube fest an die Vernunft und an Fakten und Beweise und an die Wissenschaft und an Feedback - an alles, was es einem ermöglicht, das zu tun, was man tut. Das ist es, was wir in unserer Regierung tun sollten". Und so entschied Siroker, dass er Obamas Kampagne mit einer entscheidenden Technik bekannt machen würde - fast schon ein Regierungsethos -, auf die sich Google bei der Entwicklung und Verfeinerung seiner Produkte verlässt. Er zeigte ihnen, wie man A/B-Tests durchführt. In den letzten zehn Jahren ist die Macht der A/B-Tests zu einem offenen Geheimnis der Web-Entwicklung mit hohen Einsätzen geworden. Es ist jetzt das Standardmittel (aber selten beworben), mit dem Silicon Valley seine OnlineProdukte verbessert. Mit A/B können neue Ideen im Wesentlichen in Echtzeit in Fokusgruppen getestet werden: Ein Bruchteil der Benutzer wird, ohne dass es ihnen mitgeteilt wird, zu einer etwas anderen Version einer bestimmten Webseite umgeleitet und ihr Verhalten mit der Masse der Benutzer auf der Standardseite verglichen. Wenn sich die neue Version als überlegen erweist - mehr Klicks, längere Besuche, mehr Käufe - verdrängt sie das Original; wenn die neue Version schlechter ist, wird sie still und leise abgeschaltet, ohne dass die meisten Benutzer sie jemals sehen. A/B lässt scheinbar subjektive Fragen des Designs - Farbe, Layout, Bildauswahl, Text - zu unumstößlichen Fragen der datengesteuerten Sozialwissenschaft werden. Nach dem Beitritt zur Obama-Kampagne nutzte Siroker A/B, um die grundlegenden Elemente der Wahlkampf-Website zu überdenken. Das Team für neue Medien wusste bereits, dass ihre größte Herausforderung darin bestand, die Besucher der Website zu Abonnenten zu machen - eine E-Mail-Adresse zu erlangen, damit ein Paukenschlag von Kampagnen-E-Mails sie schließlich zu Spendern machen konnte. Ihr Besuch würde mit einer Splash-Seite beginnen - einem leuchtend türkisfarbenen Foto von Obama und einem knallroten "Sign Up"-Button. Doch zu wenige Menschen klickten auf die Schaltfläche. Unter Sirokers Anleitung ging das Team das Problem mit einer neuen Präzision an. Sie zerlegten die Seite in ihre Einzelteile und bereiteten für jeden eine Handvoll Alternativen vor. Für die Schaltfläche ergab ein A/B-Test mit drei neuen Wortwahlen - "Learn More", "Join Us Now" und "Sign Up Now" -, dass "Learn More" 18,6 Prozent mehr Anmeldungen pro Besucher erzielte als der Standardwert von "Sign Up". In ähnlicher Weise übertraf ein Schwarz-Weiß-Foto der Familie Obama das standardmäßige Türkisbild um 13,1 Prozent. Wenn man sowohl das Familienbild als auch "Erfahren Sie mehr" verwendet, stiegen die

Anmeldungen um stolze 40 Prozent. Am schockierendsten war für Obamas Team, wie wenig ihre Instinkte ihnen während des Tests geholfen haben. Fast einstimmig erwarteten die Mitarbeiter, dass ein Video von Obamas Rede bei einer Kundgebung jedes Standfoto übertreffen würde. Tatsächlich aber schnitt das Video um 30,3 Prozent schlechter ab als selbst das türkise Bild. Hätte das Team auf seinen Instinkt gehört - wenn es "Anmelden" als Text der Schaltfläche beibehalten und das Foto gegen das Video ausgetauscht hätte - wäre die Anmelderate auf 70 Prozent des Ausgangswertes gesunken. ("Annahmen neigen dazu, falsch zu sein", wie Siroker es kurz und bündig formuliert.) Und ohne die rigorose Datenerfassung und die Kontrollen der A/B-Tests hätte das Team vielleicht nicht einmal gewusst, warum ihre Zahl zurückgegangen war, was vielleicht eher auf einen Rückgang der Begeisterung für den Kandidaten als auf die minderwertige Neugestaltung der Website zurückzuführen ist. Als die Rate stattdessen auf 140 Prozent des Ausgangswertes sprang, wusste das Team genau, was und wem es zu danken hatte. Am Ende der Kampagne wurde geschätzt, dass ganze 4 Millionen der 13 Millionen Adressen in der E-Mail-Liste der Kampagne und etwa 75 Millionen Dollar an Spendengeldern aus den sorgfältigen Experimenten von Siroker stammten. Die A/B-Tests waren eine neue Einsicht in den Bereich der Politik, aber ihre Verwendung im Web reicht mindestens bis zur Jahrtausendwende zurück. Bei Google - dessen Aufstieg zum Silicon-Valley-Kraftwerk in den letzten zehn Jahren mehr als alles andere zur Verbreitung des A/B-Evangeliums beigetragen hat - führten die Ingenieure am 27. Februar 2000 ihren ersten A/B-Test durch. Sie hatten sich oft gefragt, ob die Anzahl der Ergebnisse, die die Suchmaschine pro Seite anzeigte und die damals (wie heute) auf 10 voreingestellt war, für die Benutzer optimal war. Also führten sie ein Experiment durch. Bei 0,1 Prozent des Verkehrs der Suchmaschine präsentierten sie 20 Ergebnisse pro Seite; weitere 0,1 Prozent sahen 25 Ergebnisse und weitere 30. Aufgrund einer technischen Panne war das Experiment eine Katastrophe. Die von den Versuchsgruppen angezeigten Seiten luden sich signifikant langsamer als die Kontrolle, wodurch die relevanten Metriken ins Wanken gerieten. Aber das allein erbrachte schon eine kritische Einsicht Zehntelsekunden konnten die Zufriedenheit der Benutzer auf genau quantifizierbare Weise bestimmen oder brechen. Bald optimierte Google seine Antwortzeiten und ließ echte A/B-Tests aufblühen. Im Jahr 2011 führte das Unternehmen mehr als 7.000 A/B-Tests für seinen Suchalgorithmus durch. Amazon.com, Netflix und eBay sind ebenfalls A/B-süchtig und testen ständig potenzielle Website-Änderungen an live (und ahnungslosen) Nutzern. Heute ist A/B allgegenwärtig, und eine der seltsamen Folgen dieser Allgegenwart ist, dass die Art und Weise, wie wir über das Web denken, zunehmend veraltet ist. Wir sprechen von der Google-Startseite oder dem AmazonKassenbildschirm, aber es ist nun genauer zu sagen, dass Sie eine Google-Startseite, einen AmazonKassenbildschirm, besucht haben. Wie viel Prozent der Google-Nutzer erhalten eine Art "experimentelle" Seite oder Ergebnisse, wenn sie eine Suche starten? Die Google-Mitarbeiter, mit denen ich sprach, gaben keine präzise Antwort - "anständig", lacht Scott Huffman, der die Tests der Google-Suche beaufsichtigt. Die Verwendung einer Technik namens multivariate Tests, bei der unzählige A/B-Tests im Wesentlichen gleichzeitig in möglichst vielen Kombinationen durchgeführt werden, bedeutet, dass der Prozentsatz der Nutzer, die irgendeine Art von Feineinstellung erhalten, sich durchaus 100 Prozent nähern kann, was "die Google-Sucherfahrung" zu einer Art platonischem Ideal macht: nie direkt angetroffen, sondern nur durch unvollkommene Ableitungen und Variationen erahnt. Dennoch ist die Technik trotz ihrer zunehmenden Verbreitung nicht einfach. Es bedarf einiger ausgeklügelter technologischer Meisterleistungen, um den Nutzerverkehr umzuleiten und eine Website on the fly" neu zu gestalten; die Segmentierung der Nutzer und die Sinnhaftigkeit der Ergebnisse erfordert tiefgreifende statistische Kenntnisse. Dies ist ein Hindernis für jede Firma, die nicht über die Ressourcen verfügt, um eigene Tests zu erstellen und zu beurteilen. Im Jahr 2006 veröffentlichte Google seinen Website-Optimierer, der ein kostenloses Tool für jeden, der A/B-Tests durchführen wollte, zur Verfügung stellte. Aber das Tool verlangte von den Website-Designern die

Erstellung vollständiger Codesätze sowohl für A als auch für B - was bedeutet, dass Nichtprogrammierer (Marketing-, Redaktions- oder Produktleute) keine Tests durchführen konnten, ohne zuvor ihre Ingenieure damit zu belasten, mehrere Versionen von allem zu schreiben. Folglich gab es eine enorme Verzögerung bei der Erzielung von Ergebnissen, da die Unternehmen darauf warteten, dass der Code geschrieben und in Betrieb genommen wurde. Auch 2009 blieb dies ein Problem, für das eine Lösung gefunden werden musste. Nach dem Ende der Obama-Kampagne war Siroker erstaunt über die Wirksamkeit der A/B-Tests, aber auch über den Mangel an Tools, die sie leicht zugänglich machen würden. "Der Gedanke, die Werkzeuge zu benutzen, die wir damals benutzten, machte mich grimmig", sagt er. Gegen Ende des Jahres schloss sich Siroker mit einem anderen Ex-Googler namens Pete Koomen zusammen, und sie starteten ein Startup mit dem Ziel, A/B-Tools der breiten Masse der Unternehmen zugänglich zu machen, und nannten es "Optimal". Sie meldeten ihren ersten Kunden zufällig an. "Noch bevor wir überhaupt viel Zeit mit der Arbeit an dem Produkt verbracht hatten", erklärt Siroker, "rief ich einen der Jungs aus der Obama-Kampagne an, der eine Firma für digitales Marketing gegründet hatte. Ich erzählte ihm, was ich vorhatte, und nach etwa 20 Minuten sagte er plötzlich: "Nun, das klingt großartig. Schicken Sie mir eine Rechnung. Er dachte, es sei ein Verkaufsgespräch." Die beiden hatten einen Verkauf getätigt, aber sie hatten immer noch kein Produkt. Also begannen Siroker und Koomen mit der Codierung. Im Gegensatz zu den früheren A/B-Tools entwarfen sie optimal, um auch von Nichtprogrammierern benutzt werden zu können, mit einer leistungsfähigen grafischen Oberfläche, die es den Kunden ermöglicht, "on the fly" zu ziehen, die Größe zu ändern, neu einzugeben, zu ersetzen, einzufügen und zu löschen. Dann verfolgt sie das Benutzerverhalten und liefert Ergebnisse. Es handelt sich um eine intuitive Plattform, die das A/BErlebnis, das bisher nur Web-Giganten wie Google und Amazon vorbehalten war, auch kleinen und mittleren Unternehmen bietet - selbst solchen, die nicht über ein Hardcore-Engineering- oder Testteam verfügen. Was dies bedeutet, geht weit über einen flinkeren Ansatz zur Website-Gestaltung hinaus. Indem A/B all diese Entscheidungen der Herrschaft der Daten unterwirft, tendiert es dazu, die gesamte Betriebsphilosophie - sogar die Machtstruktur der Unternehmen, die es übernehmen - zu verändern. A/B revolutioniert die Art und Weise, wie Unternehmen Websites entwickeln, und schreibt dabei einige der grundlegenden Geschäftsregeln neu. Hier sind einige dieser neuen Prinzipien. 1. Sie müssen Entscheidungen treffen. Wählen Sie alles. ------ Die Online-Zahlungsplattform WePay hat ihre gesamte Homepage in einem Testverfahren gestaltet. "Wir haben es als Wettbewerb gemacht", sagt CEO Bill Clerico. "Ein paar unserer Ingenieure haben verschiedene Homepages gebaut, und wir haben sie einfach in Rotation versetzt." Zwei Monate lang wurde jedem Benutzer, der zu WePay.com kam, nach dem Zufallsprinzip eine Homepage zugewiesen, und am Ende trafen die Zahlen die Entscheidung. In der Vergangenheit wäre diese Übung unmöglich gewesen - und weil sie unmöglich war, wäre das Design auf eine völlig andere Art und Weise entstanden. Jemand in der Firma, vielleicht Clerico selbst, hätte am Ende ein Design gewählt. Aber mit den A/B-Tests hätte WePay keine Entscheidung treffen müssen. Denn wenn Sie alles testen können, dann wählen Sie einfach alle oben genannten Punkte aus und lassen Sie die Kunden das Problem lösen. Aus dem gleichen Grund macht A/B Meetings zunehmend irrelevant. Wenn die Redakteure einer Nachrichtenwebsite beispielsweise 15 Minuten lang an einem Tisch gesessen und versucht haben, sich für die beste Formulierung einer wichtigen Überschrift zu entscheiden, können sie einfach alle vorgeschlagenen Überschriften durchgehen und den Test entscheiden lassen. Konsens, ja sogar Demokratie, ist durch Pluralismus ersetzt worden, der durch Daten gelöst wird. Das Mantra "Wähle alles" wird für Unternehmen auch zu einer Möglichkeit, die Beziehungen zu anderen Unternehmen zu testen - und wird so für sie zu einem mächtigen Mittel, um neue Geschäfte zu gewinnen und es mit größeren Konkurrenten aufzunehmen. Im Jahr 2011 sprach eine Fundraising-Website namens GoFundMe mit WePay über die Möglichkeit, vom Zahlungsriesen PayPal auf seinen Service

umzusteigen. Der CEO von GoFundMe, Brad Damphousse, äußerte sich offen über seine Unzufriedenheit mit dem Service von PayPal; WePay antwortete, wie es Startups normalerweise tun, mit der Behauptung, dass sein Produkt alle Probleme löste, die den größeren Konkurrenten plagten. "Natürlich waren wir skeptisch und haben ihnen nicht wirklich geglaubt", erinnert sich Damphousse lachend. Aber mit A/B konnte WePay Damphousse ein unwiderstehliches Angebot unterbreiten: Geben Sie uns 10 Prozent Ihres Datenverkehrs und testen Sie die Ergebnisse gegen PayPal in Echtzeit. Es war eine fast völlig risikofreie Möglichkeit für das Startup, sich zu beweisen, und es hat sich ausgezahlt. Nachdem Damphousse die Daten am ersten Morgen gesehen hatte, verlagerte er die Hälfte seines Datenverkehrs bis zum Nachmittag - und am nächsten Tag den gesamten Datenverkehr. 2. Die Person an der Spitze macht den Anruf. Data tätigt den Anruf. ------- Google-Insider und A/BEnthusiasten im Allgemeinen haben einen spöttischen Begriff, um ein Entscheidungssystem zu beschreiben, das die Daten nicht in den Mittelpunkt stellt: HiPPO - "die Meinung der bestbezahlten Person". Wie der Google-Analyseexperte Avinash Kaushik erklärt: "Die meisten Websites sind scheiße, weil HiPPOs sie erstellen". In Technikerkreisen kursieren Geschichten über den ahnungslosen Boss, der ein Projekt wegen einer "bloßen Meinung" fast umgebracht hätte. In den frühen Tagen von Amazon kam der Entwickler Greg Linden auf die Idee, den Kunden beim Auschecken personalisierte "Impulskauf"-Empfehlungen zu geben, basierend auf dem, was im Einkaufswagen lag. Er fertigte eine Demo für die neue Funktion an, wurde aber abgelehnt. Linden sträubte sich gegen den Gedanken, dass die Idee nicht einmal getestet werden könnte. "Mir wurde gesagt, dass es mir verboten sei, weiter daran zu arbeiten. Es hätte dort aufhören sollen." Stattdessen arbeitete Linden einen A/B-Test aus. Er zeigte, dass Amazon mit dem Feature so viel Geld verdienen würde, dass alle Argumente gegen das Feature durch die Daten sofort zunichte gemacht wurden. "Ich weiß, dass es in einigen Organisationen ein fataler Fehler wäre, eine SVP anzufechten, ob richtig oder falsch", schrieb Linden in einem Blog-Post zu diesem Thema. Aber nachdem er einen objektiven Test durchgeführt hatte, bei dem er die Idee vor echte Kunden gestellt hatte, mussten sich die Vorgesetzten beugen. Amazons Kultur würde es nicht anders erlauben. Siroker erinnert sich an ähnliche Verschiebungen während seiner Zeit mit der Obama-Kampagne. "Es begann als ein hübsches politisches Umfeld - wo, wie Sie sich vorstellen können, das HiPPO-Syndrom vorherrschte. Und ich glaube, mit der Zeit begannen die Menschen den Wert darin zu sehen, einen Schritt zurückzutreten und zu sagen: "Nun, hier sind drei Dinge, die wir versuchen sollten. Lasst uns ein Experiment durchführen und sehen, was funktioniert. Wir wissen es nicht.'" Das war die Kultur, aus der er bei Google hervorgegangen war, was man eine Demokratie der Daten nennen könnte. "Sehr früh in den Anfängen von Google", erklärt Siroker, "wenn ein Ingenieur eine Idee hatte und über die Daten verfügte, um sie zu sichern, spielte es keine Rolle, dass er nicht der VP irgendeiner Geschäftseinheit war. Sie konnten einen Fall vorbringen. Und das ist die Kultur, an die Google von Anfang an geglaubt hat", erklärt Siroker. Einmal angenommen, wird dieser Ansatz die HiPPOs jedes Mal schlagen, sagt er. "A/B wird eine ganze Klasse von Unternehmen in die Lage versetzen, zu sagen: 'Wir wollen es so machen, wie Google es macht. Wir wollen es so machen, wie Amazon es macht.'" Bill Clerico von WePay sagt dazu: "Auf Facebook steht in meinem Profil unter der Rubrik Religiöse Ansichten: 'Wir vertrauen auf Gott. Alle anderen, bringt Daten mit.'"" 3. Das Risiko ist, einen großen Fehler zu machen. Das Risiko besteht darin, nur winzige Verbesserungen vorzunehmen. -------------- Eine Folge dieser datengesteuerten Revolution ist, dass die gesamte Einstellung zum Schreiben von Software oder auch nur die Vorstellung davon subtil eingeschränkt wird. Eine Reihe von Entwicklern sagte mir, daß A/B wahrscheinlich die Anzahl der großen, dramatischen Änderungen an ihren Produkten reduziert hat. Sie halten Großrevisionen jetzt einfach für zu riskant - stattdessen wollen sie jede Idee in kleinere Teile zerlegen, wobei jeder Teil getestet und dann allmählich und vorsichtig in den Verkehr gebracht wird. Aber dieser Ansatz und die damit verbundene Denkweise birgt seine eigenen Gefahren. Unternehmen können sich zwar vor größeren Fauxpassfehlern schützen, riskieren aber eine Art von zögerlichem Inkrementalismus. Sie

könnten sich auf der Jagd nach "lokalen Maxima" wiederfinden - Orten, an denen die A/B-Tests innerhalb enger Grenzen das bestmögliche Ergebnis erzielen könnten - anstatt nach echten Durchbrüchen zu streben. Scott Huffman von Google führt dies als eine der größten Gefahren einer testorientierten Mentalität an: "Eine Sache, über die wir viel Zeit sprechen, ist die Frage, wie wir uns vor Inkrementalismus schützen können, wenn größere Veränderungen erforderlich sind. Das ist schwierig, denn diese Testwerkzeuge können das Ingenieursteam wirklich motivieren, aber sie können auch dazu führen, dass es enorme Anreize erhält, nur kleine Änderungen auszuprobieren. Wir wollen diese kleinen Verbesserungen, aber wir wollen auch die Sprünge über den Tellerrand hinaus". In Anlehnung an eine berühmte Maxime von Henry Ford - "Hätte ich meine Kunden gefragt, was sie wollen, hätten sie ein schnelleres Pferd gesagt" - fügt Huffman hinzu: "Wenn man sich zu sehr auf die Daten verlässt, verzweigt man sich nie. Man stellt einfach immer bessere Buggy-Peitschen her." 4. Die Erfahrung lehrt uns Lektionen. Daten können die Idee der Lektionen überflüssig machen. -------------- Die größte Entwicklung in der Geschichte der A/B-Tests besteht nicht darin, wie durchdringend sie geworden sind, sondern vielmehr darin, wie schnell sie geworden sind. In den frühen '00er Jahren wurden die Testergebnisse in der Regel um 24 Stunden verzögert: Sie führten heute einen Test durch, sahen die Ergebnisse morgen und lernten etwas - ein Prinzip, eine Faustregel, die auf zukünftige Designs angewendet werden kann. Dies könnte erklären, warum die Tests in Marketing-Teams begannen, bevor sie zu Produktteams wurden: Anzeigen bleiben in der Regel über viele Tage und Wochen bestehen, so dass sie in diesem Tempo überarbeitet werden können. Aber für viele Web-Unternehmen ist das Produkt zu dynamisch, um so lange stillzusitzen. Das ist heute alles anders. "Vor zehn Jahren hatten Sie noch keine Daten. Vor fünf Jahren waren die besten ReportingTools einen Tag im Rückstand", sagt Yulie Kim, VP of Product beim Möbelhändler One Kings Lane. "Aber wir befinden uns heute in einer Welt, in der man keinen ganzen Tag auf die Daten warten kann". Kims Chef, CEO Doug Mack, sagt, dass die Schnelligkeit des Feedbacks zu einem wesentlichen Bestandteil des Betriebs geworden ist: "Große Daten sind nicht genug. Es müssen Echtzeitdaten sein, auf die wir im Laufe des Tages rea...


Similar Free PDFs