Maschinelles Lernen - alle Grundlagen! Paul Wilmott ist für seine erhellende und unterhaltsame Darstellung angewandter Mathematik bekannt. Von der linearen Regression bis zu Neuronalen Netzwerken führt er Sie durch alle Verfahren, und zwar komplett Software-unabhängig. Der Vorteil dabei: Jeder Schritt ist schwarz auf weiß zu sehen, kein Framework kann etwas "verstecken", es geht immer um die Sache selbst. Mit vielen Beispielen, Grafiken und Schritt-für-Schritt-Kästen. Für alle, die wirklich verstehen wollen, wie Maschinen lernen.
Aus dem Inhalt:
- Lineare Regression
- k-Nearest Neighbors
- Naive Bayes-Klassifikatoren
- k-Means-Algorithmus
- Support Vector Machines
- Logistische Regression
- Selbstorganisierende Karten
- Entscheidungsbäume
- Reinforcement Learning
- Neuronale Netze
Inhaltsverzeichnis
Vorwort . . . 13 1. Einführung . . . 17 1. 1 . . . Maschinelles Lernen . . . 18 1. 2 . . . Lernen ist der Schlüssel . . . 19 1. 3 . . . Ein wenig Geschichte . . . 20 1. 4 . . . Schlüsselmethodiken in diesem Buch . . . 22 1. 5 . . . Klassische mathematische Modellierung . . . 26 1. 6 . . . Maschinelles Lernen ist anders . . . 28 1. 7 . . . Einfachheit führt zu Komplexität . . . 29 1. 8 . . . Weiterführende Literatur . . . 33 2. Allgemeines . . . 35 2. 1 . . . Jargon und Notation . . . 35 2. 2 . . . Skalierung . . . 37 2. 3 . . . Distanzmessung . . . 38 2. 4 . . . Fluch der Dimensionalität . . . 39 2. 5 . . . Hauptkomponentenanalyse . . . 39 2. 6 . . . Maximum-Likelihood-Schätzung . . . 40 2. 7 . . . Konfusionsmatrix . . . 44 2. 8 . . . Kostenfunktion . . . 47 2. 9 . . . Gradientenabstieg . . . 52 2. 10 . . . Training, Testen und Validieren . . . 54 2. 11 . . . Bias und Varianz . . . 57 2. 12 . . . Lagrange-Multiplikatoren . . . 63 2. 13 . . . Mehrfachklassen . . . 65 2. 14 . . . Informationstheorie und Entropie . . . 67 2. 15 . . . Verarbeitung natürlicher Sprache (NLP) . . . 70 2. 16 . . . Bayes-Theorem . . . 72 2. 17 . . . Was nun? . . . 73 2. 18 . . . Weiterführende Literatur . . . 74 3. K-nächste Nachbarn . . . 75 3. 1 . . . Wofür können wir die Methode verwenden? . . . 75 3. 2 . . . Wie die Methode funktioniert . . . 76 3. 3 . . . Der Algorithmus . . . 78 3. 4 . . . Probleme mit KNN . . . 78 3. 5 . . . Beispiel: Körpergröße und -gewicht . . . 79 3. 6 . . . Regression . . . 83 3. 7 . . . Weiterführende Literatur . . . 85 4. K-Means Clustering . . . 87 4. 1 . . . Wofür können wir die Methode verwenden? . . . 87 4. 2 . . . Was macht K-Means Clustering? . . . 89 4. 3 . . . Scree-Plots . . . 93 4. 4 . . . Beispiel: Kriminalität in England, 13 Dimensionen . . . 94 4. 5 . . . Beispiel: Volatiliät . . . 98 4. 6 . . . Beispiel: Zinssatz und Inflation . . . 100 4. 7 . . . Beispiel: Zinssätze, Inflation und BIP-Wachstum . . . 103 4. 8 . . . Ein paar Kommentare . . . 104 4. 9 . . . Weiterführende Literatur . . . 105 5. Naiver Bayes-Klassifikator . . . 107 5. 1 . . . Wofür können wir ihn verwenden? . . . 107 5. 2 . . . Verwendung des Bayes-Theorems . . . 108 5. 3 . . . Anwendung des NBK . . . 108 5. 4 . . . In Symbolen . . . 110 5. 5 . . . Beispiel: Politische Reden . . . 111 5. 6 . . . Weiterführende Literatur . . . 114 6. Regressionsmethoden . . . 115 6. 1 . . . Wofür können wir sie verwenden? . . . 115 6. 2 . . . Mehrdimensionale lineare Regression . . . 116 6. 3 . . . Logistische Regression . . . 117 6. 4 . . . Beispiel: Noch einmal politische Reden . . . 119 6. 5 . . . Weitere Regressionsmethoden . . . 121 6. 6 . . . Weiterführende Literatur . . . 122 7. Support-Vektor-Maschinen . . . 123 7. 1 . . . Wofür können wir sie verwenden? . . . 123 7. 2 . . . Harte Ränder . . . 123 7. 3 . . . Beispiel: Iris (Schwertlilie) . . . 126 7. 4 . . . Lagrange-Multiplier-Version . . . 128 7. 5 . . . Weiche Ränder . . . 130 7. 6 . . . Kernel-Trick . . . 132 7. 7 . . . Weiterführende Literatur . . . 136 8. Selbstorganisierende Karten . . . 137 8. 1 . . . Wofür können wir sie verwenden? . . . 137 8. 2 . . . Die Methode . . . 138 8. 3 . . . Der Lernalgorithmus . . . 140 8. 4 . . . Beispiel: Gruppierung von Aktien . . . 142 8. 5 . . . Beispiel: Abstimmungen im Unterhaus . . . 147 8. 6 . . . Weiterführende Literatur . . . 149 9. Entscheidungsbäume . . . 151 9. 1 . . . Wofür können wir sie verwenden? . . . 151 9. 2 . . . Beispiel: Zeitschriftenabo . . . 153 9. 3 . . . Entropie . . . 158 9. 4 . . . Überanpassung und Abbruchregeln . . . 161 9. 5 . . . Zuschneiden . . . 162 9. 6 . . . Numerische Merkmale/Attribute . . . 162 9. 7 . . . Regression . . . 164 9. 8 . . . Ausblick . . . 171 9. 9 . . . Bagging und Random Forest . . . 171 9. 10 . . . Weiterführende Literatur . . . 17210. Neuronale Netze . . . 173 10. 1 . . . Wofür können wir sie verwenden? . . . 173 10. 2 . . . Ein sehr einfaches Netzwerk . . . 173 10. 3 . . . Universelles Approximations-Theorem . . . 174 10. 4 . . . Ein noch einfacheres Netzwerk . . . 176 10. 5 . . . Die mathematische Manipulation im Detail . . . 177 10. 6 . . . Häufige Aktivierungsfunktionen . . . 181 10. 7 . . . Das Ziel . . . 182 10. 8 . . . Beispiel: Approximation einer Funktion . . . 183 10. 9 . . . Kostenfunktion . . . 184 10. 10 . . . Backpropagation . . . 185 10. 11 . . . Beispiel: Buchstabenerkennung . . . 188 10. 12 . . . Training und Testen . . . 190 10. 13 . . . Mehr Architekturen . . . 194 10. 14 . . . Deep Learning . . . 196 10. 15 . . . Weiterführende Literatur . . . 19711. Verstärkendes Lernen . . . 199 11. 1 . . . Wofür können wir es verwenden? . . . 199 11. 2 . . . Geländeausfahrt mit Ihrem Lamborghini 400 GT . . . 200 11. 3 . . . Jargon . . . 202 11. 4 . . . Ein erster Blick auf Blackjack . . . 203 11. 5 . . . Der klassische Markow-Entscheidungsprozess für Tic-Tac-Toe . . . 204 11. 6 . . . Noch mehr Jargon . . . 206 11. 7 . . . Beispiel: Der mehrarmige Bandit . . . 207 11. 8 . . . Etwas anspruchsvoller 1: Bekannte Umgebung . . . 211 11. 9 . . . Beispiel: Ein Labyrinth . . . 214 11. 10 . . . Notation zu Wertefunktionen . . . 218 11. 11 . . . Die Bellman-Gleichung . . . 220 11. 12 . . . Optimale Policy . . . 221 11. 13 . . . Die Bedeutung der Wahrscheinlichkeit . . . 222 11. 14 . . . Etwas anspruchsvoller 2: Modell-frei . . . 223 11. 15 . . . Monte Carlo Policy Evaluation . . . 224 11. 16 . . . Temporal-Difference-Lernen . . . 227 11. 17 . . . Vor- und Nachteile: MC versus TD . . . 228 11. 18 . . . Finden der optimalen Policy . . . 229 11. 19 . . . Sarsa . . . 230 11. 20 . . . Q-Lernen . . . 232 11. 21 . . . Beispiel: Blackjack . . . 233 11. 22 . . . Große Zustandsräume . . . 245 11. 23 . . . Weiterführende Literatur . . . 245 Datensätze . . . 247 Epilog . . . 251 Index . . . 253