Backpropagation

Probleme des Gradientenabstiegsverfahrens

Problem: lediglich Kenntnis der lokalen Umgebung

Leider steht dem Vorteil des geringeren Rechenaufwands der Nachteil gegenüber, dass dem Verfahren lediglich die lokale Umgebung (der Gradient) bekannt ist. Daraus resultieren folgende Probleme:

Lokale Minima: Man weiß beim Gradientenabstiegsverfahren nie, ob man nach der Durchführung ein lokales oder absolutes Minimum gefunden hat. Dieses Problem tritt verstärkt bei höherer Dimension des Netzes (= Anzahl der Verbindungen zwischen den Neuronen) auf. Eine höhere Dimension führt dazu, dass die Hyperebene des Fehlerterms stärker zerklüftet und sich somit die Anzahl der lokalen Minima erhöht.
Flache Plateaus: Im Grunde genommen besteht hier genau das umgekehrte Problem. Statt einer (zu) starken Zerklüftung existieren - zumindest in Teilen der Hyperebene - kaum "Berge und Täler", sondern ein relativ flaches "Plateau". Dadurch wird der Gradient beim Gradientenabstiegsverfahren sehr klein, so dass das nächste "Tal" gar nicht mehr erreicht wird. Das Verfahren stagniert.
Verlassen guter Minima: Auch dieses Problem lässt sich als Gegenstück zum Problem lokaler Minima auffassen. Statt ein globales Minimum gar nicht zu erreichen, wird hier das globale Minimum "übersprungen". Dies passiert vornehmlich dann, wenn solch ein "tiefes Tal" mit relativ geringer Ausdehnung in der Hyperebene liegt. In der Folge findet das Gradientenabstiegsverfahren nur ein lokales Minimum (s. o.).
Direkte Oszillation: Im Falle der direkten Oszillation entdeckt das Gradientenabstiegsverfahren weder ein globales noch ein lokales Minimum. Dies passiert dann, wenn der Gradient von einem "Abhang" eines Tals zum gegenüberliegenden "Abhang" springt und von dort wieder zur selben Stelle zurück. In diesem Fall sind die Beträge der Gradienten gleich, lediglich die Vorzeichen wechseln hin und her. Dem Gradientenabstiegsverfahren gelingt es nicht in die "Tiefe der Hyperebene hervorzustoßen". Das Verfahren oszilliert.
Indirekte Oszillation: Im Gegensatz zur direkten Oszillation kann es auch passieren, dass das Verfahren nicht direkt zurückspringt, sondern mehrere Schritte benötigt, um wieder zum Ausgangspunkt zurückkehren.