Von Ralf Keuper
Auf ihrem lesenswerten Blog Mathbabe warf Cathy O´Neil in dem Beitrag What’s the difference between big data and business analytics? die steile These in den Raum, die herkömmlichen Verfahren der Business Analytics, die im Grunde noch immer aus von Menschen in Excel durchgeführten Zahlenvergleichen bestehen, seien schon jetzt durch Big Data überflüssig.
Schon jetzt stehen die Algorithmen zur Verfügung, um die Jobs der Contoller, Business Anlaysten und damit wohl auch der Data Scientists komplett zu übernehmen. Als Beispiel führt sie Google an.
Big Data erlaubt einen mikroskopischen Blick auf die Daten und führt zu den für das Geschäft entscheidenden Fragen und Antworten.
So weit, so gut.
Auf SmartData Collecitve berichtet nun Travis Korte in Statisticians Push Back Against the “End of Theory” Problem von den neuesten Entwicklungen auf dem Gebiet der Statistik.
Ryan Tibshirani verspricht sich von dem von ihm und seinen Kollegen entworfenen Ansatz eine wirkungsvolle Kombination aus traditionellen statistischen Methoden und den neuesten Vorhersage-Technologien. Das größte Problem der sog. Lasso-Methode besteht in dem Hang zum Overfitting, d.h. es werden zuviele Variablen berücksichtigt, deren Trennschärfe sich jedoch bei genauerer Betrachtung deutlich unterscheidet. Gerd Gigerenzer sieht den Vorzug seiner Simple Heuristics gerade darin, dass sie das Overfitting vermeiden.
Tishirani und Kollegen haben nun einen speziellen Signifikanztest entwickelt, der die genannten Defizite der Lasso-Methode umgeht und eine Kombination mit den Vorhersage-Technologien erlaubt, die treffsichere Prognosen als bisher erlauben.
Das führt zurück zu den Aussagen von Cathy O’Neil. Ihr Ansatz der mikroskopischen Analyse, jedenfalls so wie sie ihn ihrem Blogbeitrag beschreibt, birgt die Gefahr des Overfitting. Mit anderen Worten, den Wald vor lauter Bäumen nicht mehr zu sehen.