Datenanalyse mit R
Organisatorisches
Wahlveranstaltung im 5. Semester (Winter) des Studiengangs Bachelor Informatik. Die Materialien zur Veranstaltung werden über den Moodle-Kurs DAR bereit gestellt.
Inhalt
Die Open Source Software R ist eine weit verbreitete Programmierumgebung zur Datenauswertung. In dieser Veranstaltung lernen wir den Umgang mit R und wie man damit Daten so analysiert, dass man
- Zusammenhänge erkennt und erklärt
- Werte vorhersagt
Wir werden uns dabei auf einfache Methoden beschränken, die "(Generalized) Linear Models", diese aber ausführlich behandeln und an verschiedenen Datensätzen in der Übung ausprobieren.
Literatur
- T. Hothorn, B.S. Everitt: A Handbook of Statistical Analyses Using R. Chapman & Hall, 2014 (3. Auflage)
- Der Aufbau der Veranstaltung orientiert sich an diesem Buch, in dem aber ein aber R-Kurs fehlt und statistische Methoden nur oberflächlich beschrieben sind. Darüber geht die Veranstaltung hinaus.
- D. Dalpiaz: Applied Statistics with R. (2016-2021)
- Leicht verständlich Einführung zu vielen Themen der Veranstaltung, die einem Kurs der University of Illinois at Urbana-Champaign entstammt.
- P.K. Dunn, G.K. Smyth: Generalized Linear Models With Examples in R. Springer, 2018
- In diesem Buch sind lineare Modelle gut beschrieben, aber GLM sehr kompliziert dargestellt, weil sie in allgemeinster Form behandelt werden. Das wird in der Veranstaltung verständlicher behandelt.
- W.N. Venables, B.D. Ripley: Modern Applied Statistics with S. Springer 2002 (4. Auflage)
- Weitgehend ohne Erklärungen und als Lehrbuch definitiv ungeeignet, aber das Buch führt zu einer großen Anzahl statistischer Methoden Beispiele vor und erläutert auch ein paar Besonderheiten von R.
- H. Wickham: Advanced R. Chapman & Hall, 2019 (2. Auflage)
- Hilfreich zum Verständnis von R Designfragen, wie z.B. des "Method Dispatching". Die erste Auflage ist auch online frei lesbar.
Diese Literaturliste wird noch ergänzt bei Bedarf.