Durch Befragungszeitreihen zu besserer Datenqualität

Seit jeher wer­den neue Erkenntnisse durch Befragungen erschlos­sen, um den Puls der Zeit erfas­sen und ver­ste­hen zu kön­nen. Doch stellt man immer wie­der in der Branche fest, dass auch tief­grei­fen­de Fehlentscheidungen getrof­fen wer­den kön­nen. Und das geschieht trotz der Datenlage, die anhand ihrer gro­ßen Fallzahl erst­mal viel­ver­spre­chend wir­ken mag. Bleibt die Datenqualität aller­dings unge­prüft, so wer­den womög­lich pro­fi­ta­ble Kundensegmente nicht erkannt und Produkte auf den Markt gewor­fen, die noch sel­te­ner Absatz fin­den als das Blei im Regal daneben.

Mitverantwortlich für man­gel­haf­te Ergebnisse sind hier­bei Umfrageteilnehmer, die mit rea­li­täts­fer­nen Angaben die Ergebnisse der ehr­li­chen Masse ver­zer­ren, was ins­be­son­de­re in Online-Studien eine Herausforderung dar­stellt. Uns Forscher beschäf­tigt immer wie­der aufs Neue die Frage: Wie kön­nen wir hier die sprich­wört­li­che Spreu vom Weizen trennen?

Schaffen es doch mal Befragte mit frag­wür­di­gen Absichten durchs Screening ohne geflaggt (= für wei­te­re Prüfungen zur Sicherung der Datenqualität mar­kiert und hin­ter­her unter Umständen ent­fernt) zu wer­den, so haben wir immer noch ein paar Asse im Ärmel. Neben inhalt­li­chen Plausibilitätsprüfungen fin­det sich ein Bereinigungsansatz bei der Begutachtung der Befragungszeitdaten. Schließlich bie­tet es eine wei­te­re Dimension zur Prüfung von auf­fäl­li­gen Befragten, die sich sehr gut mit der Inhaltskontrolle ergänzt und genau drauf wer­fen wir heu­te einen tie­fe­ren Blick.

Ein erster Überblick

Im Regelfalle bie­tet das Survey-Tool Ihres Vertrauens stan­dard­mä­ßig eine Variable an, die Ihnen auf­zeigt, wie viel Zeit ein Befragter ins­ge­samt in der Befragung ver­bracht hat. Optimalerweise haben Sie bereits zu Feldbeginn Ihren Fragebogen auch aus­gie­big auf den Zeitaufwand getes­tet und soll­ten abschät­zen kön­nen, wel­che Zeit ein Mensch unmög­lich unter­schrit­ten haben könn­te, wenn die Fragen wirk­lich gele­sen wer­den. Dies lässt sich als Daumenregel für eine Untergrenze nut­zen, anhand derer schon mal ano­ma­les Verhalten – hier Speeder – ermit­telt wer­den kann.

Folgendes Beispiel: Nehmen wir an, wir haben eine simp­le Online-Studie ohne Filterführung durch­ge­führt. Die Netto-Stichprobe umfasst dabei 652 Fälle. Die Betrachtung der Befragungsdauer pro Befragten zeigt uns fol­gen­de Parameter:

ParameterMinuten (dezi­mal)Minuten umge­rech­net
Mittelwert14,9114 Minuten 54 Sekunden
Median13,1113 Minuten 6 Sekunden
Standardabweichung7,577 Minuten 34 Sekunden
Minimum3,943 Minuten 56 Sekunden
Maximum63,8363 Minuten 50 Sekunden

Um ein bes­se­res Gefühl für die Verteilung zu bekom­men, wer­fen wir noch einen Blick auf das Histogramm über die Befragungsdauer:

Die Verteilung über die gesamte Befragungszeit erlaubt einen ersten Überblick über die Datenlage.

Der regu­lä­re Befragte scheint sich nach den Daten ca. 13 – 15 Minuten mit dem Fragebogen zu beschäf­ti­gen. Die Ausreißer nach oben sind recht typisch für Teilnehmer, die mal ent­we­der sehr lan­ge zum Nachdenken benö­ti­gen oder ein­fach an einer oder meh­re­ren Stellen den Fragebogen unter­bre­chen und sind damit zumin­dest logisch erklär­bar. Jedoch soll­ten die­se nicht aus den Augen gelas­sen wer­den (dar­auf kom­men wir noch­mal zurück).

Konkreter set­zen wir erst­mal bei der Untergrenze an, und zwar wis­sen wir aus dem Fragebogentest vor Beginn der Feldzeit, dass der Bogen nicht unter fünf Minuten beant­wor­tet wer­den kann, wenn man selbst Schnellleser berück­sich­tigt. Zweifelsohne gibt es hier jedoch ein paar, die in die­se Kategorie fal­len und ent­spre­chend berei­nigt wer­den kön­nen. Übrig blei­ben nach die­sem Schritt schon mal 644 Fälle.

Dieser Bereinigungsansatz ist noch rela­tiv ein­gän­gig und fin­det in der Praxis auch häu­fi­ge Anwendung. So man­che legen bereits an die­ser Stelle den Hammer nie­der, doch ins­ge­heim wis­sen wir, dass wir gera­de nur an der Oberfläche gekratzt haben. Speeder über die Gesamtdauer zu iden­ti­fi­zie­ren ist eine Sache, doch was ist zum Beispiel mit den Befragten, deren gesam­te Befragungszeit unauf­fäl­lig ist, aber bei einer ein­zi­gen Frage eine exor­bi­tant hohe Dauer auf­wei­sen, abge­se­hen von die­ser einen Frage aber ledig­lich zwei (!) Minuten ihrer Zeit inves­tiert haben? Auch die soll­te man geziel­ter betrachten.

Dies gelingt dadurch, indem man sich pro Frage die Betrachtungsdauer als Variable aus­ge­ben lässt. Die Nutzer unse­rer Befragungslösung GESS Q. haben es dabei beson­ders leicht; die kön­nen es sich mit einer Befehlszeile bequem kom­plett aus­ge­ben las­sen, und zwar mit:

writeViewingTime = all;

Dieser Befehl erzeugt uns soge­nann­te Duration-Variablen, womit wir uns einen Überblick über die Ansichtszeiten pro Frage als Zeitreihe bei den übri­gen 644 Fällen ver­schaf­fen kön­nen – hier gemes­sen am weni­ger aus­rei­ßer­emp­find­li­chen Median:

Die Zeitreihe über den gesamten Befragungsverlauf ermöglicht einen sehr viel tieferen Blick in das eigentliche Antwortverhalten, was unerlässlich zum Erhalt der Datenqualität ist.

Besonders die Fragen Q12 und Q27 fal­len mit hohen Werten auf, was erst­mal nicht ver­wun­der­lich ist, da es sich bei bei­den Fragen um grö­ße­re Matrixfragen mit über zehn Items und einer fünf-stu­fi­gen Skala han­delt. Möchte bedeu­ten: Die erfor­dern auch einen gewis­sen Zeitaufwand. Genau dies sind aber auch die bes­ten Gelegenheiten für die­je­ni­gen, die beson­ders viel Zeit spa­ren wol­len, da sie mehr damit beschäf­tigt sind zu kli­cken als zu verstehen.

Nachdem wir uns einen Überblick ver­schafft haben, kön­nen wir nun etwas tie­fer in die Materie ein­stei­gen. Dabei wer­den wir an die­ser Stelle nun zwi­schen grund­sätz­lich zwei Befragungsszenarien unter­schei­den, auf die wir im wei­te­ren Detail eingehen.

Szenario 1: Speeder

Die Speeder, von denen wir hier nun spre­chen, haben bereits unse­ren Test auf Totaldauer über­lebt. Nun haben wir aller­dings auch die Informationen über die ein­zel­nen Fragen und kön­nen somit sehr viel geziel­ter agie­ren. Beispielsweise kön­nen wir auch hier auf das Prinzip zurück­grei­fen, mit dem wir bereits die fünf Minuten als KO-Kriterium für die gesam­te Befragungsdauer fest­ge­legt haben – und zwar mit­tels Tests auf rea­lis­ti­sche Mindestdauer. Gerade bei zeit­auf­wen­di­gen Fragen (hier die Q12 und Q27) kön­nen wir recht ein­fach ermit­teln, wel­che Zeit benö­tigt wird, um Fragetexte und Antworten über­haupt gele­sen haben zu kön­nen. Wird die­se Schranke zu oft von einem Befragten unter­schrit­ten, kön­nen wir die­sen flaggen.

Um ganz sicher­zu­ge­hen, könn­ten wir nun von aus­ge­wähl­ten Fragen die unters­ten Perzentile der Zeitangaben (sprich die mit den nied­rigs­ten Befragungszeiten) zusätz­lich betrach­ten. Abhängig vom Vertrauen gegen­über der Datenquelle kann schon ein Perzentil von 3–4% aus­rei­chen, um poten­zi­ell frag­wür­di­ge Datensätze zu mar­kie­ren, da man auf die­se Weise die wirk­lich schnel­len Befragten abschöpft. Wendet man die­sen Ansatz in unse­rer Beispielstudie auf die Fragen Q12 und Q27 an, so erge­ben sich bei einem 4%-Perzentil die Grenzen von ~37 Sekunden bei Q12 und ca. ~29Sekunden bei Q27, die als Grenzwerte für unse­re Markierung dienen.

Szenario 2: Dragger

Einen ver­gleich­ba­ren Ansatz kön­nen wir uns auch bei den beson­ders lang­sa­men Befragten zu Nutze machen. Nutzen wir hier bspw. das 98%-Perzentil bei den bekann­ten Fragen Q12 und Q27, so erhal­ten wir Grenzwerte in Höhe von ~256 Sekunden (Q12) und ~354 Sekunden (Q27), durch die wir Befragte mit beson­ders lan­gen Zeiten zur wei­te­ren Prüfung mar­kie­ren können.

Der schlich­te Cutoff anhand von Perzentil-Grenzen ein­zel­ner Duration-Variablen ist hier­bei nur eine von meh­re­ren Möglichkeiten auf ver­däch­ti­ge Fälle zu sto­ßen. Zur Erkennung von Anomalien kön­nen wir ergän­zend auf Klassifizierungsmethoden wie dem Clustering zurück­grei­fen. Abhängig von der Datenlage und den mit­ge­ge­be­nen Parametern erhal­ten wir auch auf die­sem Wege nütz­li­che Vorschläge zur wei­te­ren Prüfung.

Ohne Sie groß mit zu tech­ni­schen Details zu irri­tie­ren, hier ein Beispiel: Ein geeig­ne­tes Verfahren ist der Clusteralgorithmus DBSCAN (kurz für „Density-Based Spatial Clustering of Applications with Noise“), der anders als das klas­si­sche K‑Means- oder K‑Median-Clustering imstan­de ist, Datensätze als Rauschen bzw. Ausreißer ein­zu­ord­nen, wenn es sich nicht in der Lage sieht, sie einem Segment zuzu­ord­nen. Hier sind dies Befragte, deren Verlauf über die Befragungszeiten von ande­ren zu stark abweicht. Nachdem Sie Ihre Duration-Variablen sau­ber stan­dar­di­siert haben, ver­sucht der Algorithmus gemäß dem k‑Nearest-Neighbor-Ansatz (= „Finde den nächs­ten Nachbar zu mir“) die nächst­ge­le­ge­nen und damit ähn­lichs­ten Befragten zu iden­ti­fi­zie­ren. Liegen bestimm­te Daten zu weit aus­ein­an­der, so wer­den sol­che als „Ausreißer“ eingestuft.

Angewandt auf unse­ren Beispielfall kön­nen wir dies über das fol­gen­de Streudiagramm visualisieren.

Der Clusterplot für die DBSCAN-Klassifizierung dient dazu, Ausreißer von regulären Befragten trennen können.

Hinweis zur Grafik: Bitte beach­ten Sie dabei, dass die bei­den Achsen sich aus den ers­ten bei­den Komponenten einer Principal Component Analysis (kurz „PCA“) auf Basis der Duration-Variablen erge­ben haben, um den Sachverhalt geeig­net darzustellen.

Ein kur­zer Blick auf die Grafik zeigt uns zwei Cluster und eine Menge von schwar­zen Punkten, die hier die Ausreißer dar­stel­len. Da das Cluster 2 auch nur sehr schwach besetzt ist, ord­nen wir die­se Fälle den Ausreißern zu. Die Beschriftung ent­spricht hier­bei der Fallnummer aus der Erhebung. Mit Hilfe die­ser Methode kön­nen wir eine zusätz­li­che Validierungsschicht in unse­re Datenbereinigung einfügen.

Der Vorteil die­ses Ansatzes liegt dar­in, dass man über die rei­ne Grenzwertbetrachtung hin­aus auch häu­fi­ger Fälle auf­spü­ren kann, die im Rahmen der Zeitreihenbetrachtung ein schlicht­weg „unge­wöhn­li­ches Verhalten“ an den sprich­wört­li­chen Tag legen. Solche Teilnehmer benö­ti­gen ten­den­zi­ell län­ger bei eigent­lich kur­zen Fragen und umge­kehrt. Dies setzt vor­aus, dass man zumin­dest die wirk­li­chen Extremwerte schon vor­her behan­delt und her­aus­se­lek­tiert hat, denn je grö­ßer die Abstände eini­ger weni­ger, des­to eher wer­den unge­wöhn­li­che Fälle als „nor­mal“ erfasst. Dies ist auch mit­un­ter ein Grund, wes­we­gen sich das Verfahren zur Identifizierung von Speedern nur bedingt eignet.

An die­ser Stelle haben wir nun meh­re­re Möglichkeiten, um wei­ter zu ver­fah­ren. Nach Anwendung der vor­he­ri­gen Methoden haben wir anhand der Zeitverlaufsdaten von den 644 Ausgangsfällen bereits 86 Fälle als „unge­wöhn­lich“ klas­si­fi­ziert. Beispielsweise könn­te man bei den­je­ni­gen, die wegen beson­ders gro­ßer Zeitwerte bei einer oder meh­re­ren Fragen auf­ge­fal­len sind, die Sekundenanzahl der Frage mit dem größ­ten Wert von der Totalzeit des Befragten abzie­hen und schau­en, wie viel von der Totalzeit noch übrigbleibt. 

In der Praxis bedeu­tet dies bei einem will­kür­lich gewähl­ten Beispiel: Befragter Nr. 785 hat bei der Frage Q19 etwas über eine Minute benö­tigt, wäh­rend der Median bei der Frage gera­de mal bei ~38 Sekunden liegt. Dieser Befragte hat eine Gesamtbefragungszeit von 6 Minuten und 12 Sekunden und damit wäre er, wenn er dem Median bei Q19 ent­spre­chen wür­de, abzüg­lich die­ser einen Frage immer noch bei über fünf Minuten. Damit läge er über der KO-Grenze aus dem ers­ten Bereinigungsschritt. Jedoch lan­det er nach die­sem Abzug mit dem eige­nen Wert von über einer Minute bei unter fünf Minuten in er Totalzeit und könn­te dem­nach ein Kandidat zum Herauscleanen sein.

Welche Herausforderungen gilt es zu beachten?

Es exis­tiert eine Vielzahl an Möglichkeiten, um mit Zeitverlaufsdaten zu arbei­ten und auf Basis des­sen ein Regelsystem auf­zu­set­zen, dass ein bes­se­res Quality Flagging als nur die Betrachtung der rei­nen Totalzeit ermög­licht. Selbstverständlich haben auch die vor­ge­nann­ten Ansätze ihre Tücken und Grenzen, die es zu berück­sich­ti­gen gilt.

Es gibt diver­se Gründe, wes­we­gen ein Befragter bei der ein oder ande­ren Frage beson­ders viel Zeit benö­tigt hat. Dies kann zum Beispiel dar­an lie­gen, dass die Person lan­ge zum Nachdenken brauch­te oder ein­fach nur abge­lenkt war. Daher ist es immer rat­sam, die Zeitreihen im Kontext zu betrach­ten, um die Datenqualität wirk­lich sichern zu kön­nen. Man kann nur sichern, was man auch versteht.

Des Weiteren gehen die meis­ten prä­sen­tier­ten Ansätze von den Grenzwertbetrachtungen aus. Jedoch kann fol­gen­der Umstand hier eine Problematik für die Interpretation bereit­stel­len: Es kann näm­lich auch sein, dass die Verantwortlichen für die Datenerhebung schlicht­weg einen guten Job gemacht haben und die Befragten alle­samt ver­nünf­ti­ge Teilnehmer gewe­sen sind. Auch in solch einem Fall wür­den wir über­schrit­te­ne Grenzwerte und Ausreißer sehen, die wir hier nicht über­sen­si­bel inter­pre­tie­ren dür­fen, da die­se in der Regel in Relation zur Verteilung der Daten ermit­telt wer­den. Verständnis über die Daten ist hier der Dreh- und Angelpunkt.

Die Wichtigkeit von Datenqualität kann nicht oft genug betont wer­den. Nur zu oft sehen wir Studien, in denen de fac­to die Rohdaten gesam­melt und ohne gro­ße Umschweife wei­ter­ver­ar­bei­tet wer­den. Es ist an uns Forschenden den Weg für Projekte zu ebnen, die wirk­li­chen Mehrwert stiften.

Vielleicht kön­nen wir auch Ihnen hel­fen mehr aus dem Potenzial Ihrer Daten zu machen. Rufen Sie uns ger­ne ein­fach jeder­zeit an oder schi­cken Sie eine Mail an unse­re Ansprechpartner für alle Fragen rund um Studiendesigns und Data Science. Wir sind für Sie da.