Seminar ''Data Mining"
(mit dem Lehrstuhl für Statistik der WiWi Fakultät)

 Allgemeine Informationen: Termin
 Vorträge
Das Seminar wird gemeinsam mit dem Lehrstuhl für Statistik (Prof. Okhrin) der wirtschaftswissenschaftlichen Fakultät veranstaltet.

Die Anmeldung erfolgt per email an die Betreuer:
Alexander Pilhöfer (rosuda)
Anett Wins (WiWi)

In der Anmeldungsemail sollen 2 Themenpräferezen angegeben werden, die aus der folgenden
ausgewählt werden können.

TERMIN
Mittwochs 12.15 bis 13.45 Raum 1105 FW

VORTRÄGE
Die Vortragsfolien sollen bis spätestens eine Woche vor dem Vortragstermin mit einem Betreuer besprochen werden!

SOFTWARE
Verwendet werden sollen die statistische Software R, sowie die interaktive Visualisierungssoftware Mondrian.

BERICHTE (für Master Mathematik / WiMa)
Die Berichte sollen drei Wochen nach Ende der Lehrveranstaltungen per email als pdf Datei eingereicht werden.


DATENSÄTZE mit Beschreibungen
Claims **
DESCR claim amount
Forest DESCR cover type
Violence DESCR crime counts
Wine Quality Red & White DESCR red/white and quality
Breast Cancer D and P DESCR cancer 0/1
Poker

Heads up Spiele. Klassifikation der Limits
Kredit
DESCR

EcoTest
DESCR

VIM

missing values
R-Paket VIM

* noch nicht vorhanden/nicht aktualisiert
** subsample verlinkt

Weitere mögliche Datensätze gibt es bei
kaggle
amazon
data mining cup und mehr

METHODENSAMMLUNG:
  • Anwendung und Vergleich von Clusterverfahren
    • hierarchical clustering
    • k-means and k-medoids
    • model-based clustering
    • (fuzzy clustering)
    • (correlation based hierarchical clustering)
  • Partitionierungsmethoden:
    • Diskriminanzanalyse
    • Baumverfahren, ggf. Random forests
    • Neuronale Netze
    • (Multiple) Logistische Regression
    • Support Vector Machines
    • k-nearest-neighbor
  • Dimensionsreduktionsmethoden
    • Prinicpal Component Analysis
    • Faktorenanalyse
    • Multidimensional Scaling
    • (Correspondence Analysis)
  • Generalisierte Lineare Modelle
  • Zeitreihenmodelle
  • spezielle Visualisierung
    • interactive maps
    • heatmaps
    • mosaicplots + Varianten
    • parallel coordinates plots
    • Verfahrensspezifische Visualisierungen

wichtige R-Pakete:





30.05.

06.06.

13.06.

20.06.

27.06.

04.07.

11.07.

Huyen Pham - EcoTest (AP)

kein Vortrag

Nelli Eiring - Breast Cancer (AW)

kein Vortrag

kein Vortrag

Hagen Wurster - Forest Covertype (AP)

Andreas Binder - Violence (AP)

** Hauptbetreuer:
AW = Anett Wins
AP = Alexander Pilhöfer