BBL Statistiken, Daten und API
-
Hallo zusammen,
wie ja schon von einigen Nutzern bemängelt, bietet die Bundesliga nur sehr begrenzte Daten zu den Spielen. Boxscores fehlen erweiterte Statistiken und an die Daten ran zu kommen ist auch nicht so leicht. Eine API gibt es nicht.Deswegen habe ich mich mal ran gesetzt und angefangen so viele Daten wie möglich in einfachen CSV Dateien zu sammeln. So kann jeder darauf zugreifen und wir können zusammen daran rumbasteln.
Die aktuelle Version des Datensatzes findet ihr hier: https://github.com/CGessinger/BBL
Mit weiterer Dokumentation hier: https://github.com/CGessinger/BBL/wikiStand jetzt gibt es hier schonmal die Boxscores Pro Spiel Pro Spieler von 2004 bis heute
Ich würde gerne mal hören, was ihr dazu sagt
Ich würde mich freuen, wenn wir zusammen den Datensatz mit weiteren Daten füllen und so viele Statistiken wie möglich sammeln. Dabei könnt ihr gerne mit Stata, Python etc neue Spalten hinzufügen, um z.B. das PER zu berechnen, oder Possessions zu schätzen. Sofern die Berechnungen nachvollziehbar sind, können wir die neuen Variablen dann in den Datensatz aufnehmen.
Außerdem können wir auch gemeinsam die Dokumentation ausbauen. Vielleicht will ja jemand eine ordentliche README schreiben?Ich bin gerade dran, allgemeine Daten und Ergebnisse pro Spiel pro Team in einem weiteren Datensatz zusammenzufassen. Da habe ich die Daten bis 1997.
Lasst mich gerne wissen, was ihr davon haltet!
-
-
-
Danke für das ganz tolle Engagement! Mir schwebt etwas ganz ähnliches seit Ewigkeiten vor, aber kam bisher überhaupt nicht dazu, das irgendwie umzusetzen. Habe auch ein paar alte Basketballzeitungen im Keller, mit denen
Ich wäre sehr anders vorgegangen. Ich hätte wahrscheinlich die play-by-plays (soweit verfügbar) genommen und einzeln analysiert. Da stecken ja noch wesentlich mehr Informationen drin wie Lineups und man kann die Anzahl an Possessions exakt berechnen und nicht nur annähern. Ich weiß jetzt aber nur, dass man die bei der 2. Liga (theoretisch) als .csv abrufen kann und so auch auswerten könnte. BBL play by plays sind iirc aber auch nur ab 2004 verfügbar.
Insgesamt weiß ich nicht, ob eine einzeln csv das beste Datenformat ist, weil es am Ende ja sehr unübersichtlich wird. Hätte wahrscheinlich Datenbanken genutzt, die man dann verbindet - so könnte man das ganze theoretisch auch erweiterbar halten. Wie willst du z.B. Spieler vor 1997, die keine BBL-ID haben, einpflegen?
Was ich nämlich noch interessant wäre, wär eine Verbindung zu weiteren Datenbanken, z.B. FIBA für Nationalspieler oder 2. Liga für ProA/ProB-Statistiken. Damit hätte man am Ende eine komplette Leistungsstatistik eines Spielers, der in Deutschland aktiv war/ist.
Aber das ist blanke Theorie! Habe selber nur ganz rudimentäre Python und R Kenntnise, von Webscraping und API abgreifen ganz abgsehen. Einer der Gründe, weshalb ich das Projekt außerhalb meiner Gedanken bisher nicht wirklich verwirklichen konnte…
EDIT: Ich weiß gar nicht, ob es besser ist, Advanced Statistics rechnen zu lassen und in einer csv zu hinterlegen oder zB über ein Interface erst zu rechnen. Wenn man z.B. sehen will, wie sich das Offensivrating eines Teams innerhalb einer Saison verändert hat, müsste man es ja immer für einen bestimmten Zeitraum ausrechnen erst.
-
@antimatzist sagte in BBL Statistiken, Daten und API:
Wie willst du z.B. Spieler vor 1997, die keine BBL-ID haben, einpflegen?
Die scheinen alle welche zu bekommen - wenn man momentan bei den Statistikseiten der BBL reinschaut, findet man z.B. bei ALBA Teams von 1976 an. Gibt zwar momentan noch einen Serverfehler, aber insgesamt scheint man bei der BBL offenbar die Statistiken von damals langsam zu füllen.
-
@antimatzist vielen Dank für deine Antwort! Ich glaube unsere Ansätze gehen Hand in Hand.
Was ich hier versuche aufzubauen ist ein Haufen Rohdaten. Einfach eine Menge Zahlen, mit denen man so direkt, blöd gesagt, nichts anfangen kann.
Es liegt dann an der Community diese Daten zu interessanten Informationen umzuwandeln. Ich habe z.B. für diese Saison mal einen Graphen für Off-Ratings und Def-Ratings gemacht.Die Spieler zwischen den Ligen zu verknüpfen und nachzuverfolgen ist für mich schon eine Analyse. Das Repository soll aber die Datengrundlage für diese Analyse sein. Dabei müssen wir wohl auch mehrere Dateien mit verschiedenen Inhalten und Formatierungen einpflegen. Die Play-By-Play Daten der BBL hätte ich sogar. Nur habe ich noch nichts von der ProA.
Ob es aber eine CSV oder eine Datenbank ist, spielt für mich keine Rolle. Das eine in das andere umzuformen geht automatisiert.
Auch zwischen den Dateien könnte man die Spieler mit eigenen IDs (nicht von der easycredit) versehen und so eindeutig bestimmen. Ich notiere mir das schonmal.Wenn du noch alte Zeitschriften im Keller hast würde ich mich freuen, wenn du davon noch Informationen sammeln würdest!
-
@CGessinger Wie gesagt, alle Daumen die ich hab nach oben überhaupt für die Aktion. Wir können uns gerne auch mal über technische Details dahinter austauschen. Fände es allgemein einfach klasse, mehr Zahlen zu haben (und bereitzustellen), die es eh schon gibt.
-
Ich könnte mir vorstellen, dass wir hier eine Plattform zur Visualisierung bereitstellen - rechtliche Fragen müssten wir natürlich noch klären. Das wäre allerdings wirklich ein Projekt, das von der Community getragen werden müsste.
Wer Lust auf eine erste technische Diskussion hat, kann sich ja einfach mal hier oder bei mir melden. -
@jsb Das finde ich super. Gerne können wir uns mal über die technischen Details unterhalten.
Ob das rechtlich möglich ist, kann ich leider nicht genau sagen, vielleicht müsste man da die BBL mal direkt anfragen?
Ich habe das Repository schonmal so mit weiteren Team bezogenen Daten erweitert, dass man diese Dateien noch leichter in eine SQL Datenbank umformen könnte, wie es @antimatzist vorgeschlagen hatte.