Die Berechnung der Ausgabe des Perzeptrons besteht aus zwei Schritten:
Summation
Aktivierung
Formal
Das Skalarprodukt aus Gewichtsvektor und Eingabevektor bestimmt den Output.
Neuronale Netze
Beispiel: Logisches Oder
Mögliche Konfiguration:
Gewichte: ,
Bias
A ()
B ()
Summe
Ergebnis
0
0
-1
0
0
1
1
1
1
0
1
1
1
1
3
1
Neuronale Netze
Beispiel: Logisches Oder
Mögliche Konfiguration:
Gewichte: ,
Bias
A ()
B ()
Summe
Ergebnis
0
0
-1
0
0
1
1
1
1
0
1
1
1
1
3
1
Neuronale Netze
Agenda
Einordnung und Geschichte der KI
Das Perzeptron: Grundlagen und Berechnung
Grenzen des Perzeptrons und Multi-Layer Architekturen
Der Lernprozess: Backpropagation und Fehlerfunktionen
Ausblick
Neuronale Netze
Das XOR-Problem
A ()
B ()
Ergebnis
0
0
0
0
1
1
1
0
1
1
1
0
Neuronale Netze
Multi-Layer Perzeptron
Ein einzelnes Perzeptron fungiert als linearer Klassifikator.
Es kann nur Probleme lösen, bei denen die Klassen durch eine Gerade (2D) oder Hyperebene (nD) voneinander getrennt werden können.
Die Entweder-Oder Funktion (XOR) kann mit einem Perzeptron nicht dargestellt werden!
Lösung
Durch das Hintereinanderschalten von Neuronen können komplexere Probleme gelöst werden.
Neuronale Netze
Neuronale Netze
Ein Multi-Layer Perzeptron (MLP) mit einer Vielzahl von künstlichen Neuronen, die in mehreren Schichten organisiert sind, bezeichnet man als (künstliches) Neuronales Netz (KNN / ANN).
Die grundlegende Architektur besteht aus drei Arten von Schichten (Layers):
Input Layer (Eingabeschicht)
Hidden Layer(s) (Verborgene Schichten)
Output Layer (Ausgabeschicht)
Im Zusammenhang mit LLM ist of von Parametern die Rede. Jede Linie in dieser Graphik ist einen Parameter ().
Neuronale Netze
Agenda
Einordnung und Geschichte der KI
Das Perzeptron: Grundlagen und Berechnung
Grenzen des Perzeptrons und Multi-Layer Architekturen
Der Lernprozess: Backpropagation und Fehlerfunktionen
Ausblick
Neuronale Netze
Lernprozess: Gewichte anpassen
Damit das KNN korrekte Vorhersage machen kann, müssen die richtigen Werte für verschiedenen Matrizen gefunden werden.
Vorgehen (Backpropagation)
Initialisierung: Gewichte werden mit zufälligen Werten initialisiert.
Forward Propagation: Mit aktuellen Gewichten wird für Trainingsdaten eine Vorhersage berechnet.
Fehler-Berechnung: Berechnung der Abweichung der Vorhersage vom tatsächlichem Label.
Update: Anpassung der Gewichte damit Vorhersage sich dem tatsächlichen Label annähert.
Wiederholung der Schritte 1 -3 bis Abbruchkriterium erreicht ist.
Ziel: Minimierung der Fehlerfunktion (Loss Function).
Grenzen des Perzeptrons und Multi-Layer Architekturen
Der Lernprozess: Backpropagation und Fehlerfunktionen
Ausblick
Neuronale Netze
Ausblick & Demo: Komplexere Architekturen
Neuronale Netze können weitaus komplexere Strukturen annehmen als die einfachen gezeigten KNN. Ein prominentes Beispiel hierfür sind Autoencoder.
Encoder: Komprimiert hochdimensionale Eingabedaten (z. B. Bilder) auf die wesentlichen Merkmale in eine kompakte Repräsentation (den latenten Raum).
Decoder: Rekonstruiert aus dieser komprimierten Repräsentation wieder die ursprünglichen Daten.
Neuronale Netze
Referenzen
[1] S. J. Russell and P. Norvig, Artificial intelligence: a modern approach, Fourth edition. in Pearson series in artificial intelligence. Hoboken: Pearson, 2021. ⏎