Master-Seminar ''Data Mining"
(mit dem Lehrstuhl für Statistik der WiWi Fakultät)

 Allgemeine Informationen: Termin
 Vorträge
Das Seminar wird gemeinsam mit dem Lehrstuhl für Statistik (Prof. Okhrin) der wirtschaftswissenschaftlichen Fakultät veranstaltet.

Die Anmeldung erfolgt per email an die Betreuer:
Alexander Pilhöfer (rosuda)
Anett Wins (WiWi)
und im digicampus!

In der Anmeldungsemail sollen 2-3 Themenpräferezen angegeben werden, die aus der folgenden
ausgewählt werden können.
Bei einem einführenden Gespräch wird dann ein Thema vergeben.

TERMIN
Blockseminar am 27. und 28. Mai 2013

VORTRÄGE
Die Vortragsfolien sollen bis spätestens eine Woche vor dem Vortragstermin mit einem Betreuer besprochen werden!

SOFTWARE
Verwendet werden sollen die statistische Software R, sowie die interaktive Visualisierungssoftware Mondrian.

BERICHTE (nur für Master Mathematik / WiMa)
Die Berichte sollen drei Wochen nach Ende der Lehrveranstaltungen per email als pdf Datei eingereicht werden.


DATENSÄTZE mit Beschreibungen


affinity propagation
Vergleich von Clusterverfahren
Fahrzeugtypisierung
INFO
Mehrgruppenkalssifikation
Zehnkampf
INFO

Plants
INFO
seriation, Visualisierung, Clustering
Movies IMDB
MovieLens:
USER  MOVIES and
RATINGS (ca. 500MB)
RATzip0
RATonly
INFO
INFO2
Explorative und vergeichene Analyse, Veränderungen im Zeitverlauf
Forest INFO Vorhersage von "cover type"
Don't get kicked
INFO
Wiederverkaufbarkeit von Autos
Wine Quality Red & White INFO red/white and quality
Boston Housing
INFO

Kredit
INFO

Sonographie
INFO
INFO2

VIM

missing values
R-Paket VIM


Weitere mögliche Datensätze gibt es bei
kaggle
amazon
data mining cup und mehr

METHODENSAMMLUNG:
  • Anwendung und Vergleich von Clusterverfahren
    • hierarchical clustering
    • affinity propagation
    • k-means and k-medoids
    • model-based clustering
    • (fuzzy clustering)
    • (correlation based hierarchical clustering)
  • Partitionierungsmethoden:
    • Diskriminanzanalyse
    • Baumverfahren, ggf. Random forests
    • Neuronale Netze
    • (Multiple) Logistische Regression
    • Support Vector Machines
    • k-nearest-neighbor
  • Dimensionsreduktionsmethoden
    • Prinicpal Component Analysis
    • Faktorenanalyse
    • Multidimensional Scaling
    • (Correspondence Analysis)
  • Generalisierte Lineare Modelle
  • Zeitreihenmodelle
  • spezielle Visualisierung
    • interactive maps
    • heatmaps
    • mosaicplots + Varianten
    • parallel coordinates plots
    • Verfahrensspezifische Visualisierungen

wichtige R-Pakete: