Ψ Die Informatikseite

Menü
Unterabschnitte

Einzelnes Neuron

Das MLP besteht aus vielen einzelnen Neuronen. MLP steht für Multilayerperzeptron. Häufig wird ein solches neuronales Netz jedoch auch als Perzeptron bezeichnet, so dass Verwechslungsgefahr zu wirklich einzelnen Perzeptrons besteht.

Aufbau

\includegraphics[scale=0.5]{perzeptron.eps}
Das Perzeptron $k$ besteht von oben nach unten
  • aus $J$ Eingängen. Jeder Eingang hat einen Wert mit $\tilde {o}_{j}$ bezeichnet,
  • einem Eingang $\tilde {o}_{0}$, welcher immer $1$ ist. Dies wird für den Schwellwert (BIAS) benötigt.
  • $J+1$ Gewichten. Die Zählung beginnt bei dem Gewicht für den Schwellwert mit $0$ und läuft bis $J$. Die Gewichte werden angegeben mit $w_{\mbox{von},\mbox{nach}}$. Siehe dazu auch rechts stehendes kleines Bild. Die Gewichte vom vorhergehenden Neuron oder von der Eingabe werden mit ausgefüllten Kreisen angegeben. Das eine Gewicht für den Schwellwert (BIAS) hat einen unausgefüllten Kreis.
  • der Summe $net_{k}$. Summiert werden die Produkte aus den Eingaben und den Gewichten. (incl. BIAS-Gewicht mit 1-Eingabe)
  • der Aktivierungsfunktion (auch Transferfunktion, Schwellfunktion, Neuronenfunktion ... genannt) $f_{k}$. Die Eingabe dieser Funktion ist die Summe $net_{k}$.
  • der Ausgabe $o_{k}$. Sie wird berechnet durch

    \begin{displaymath}o_{k}=f_{k}(net_{k})=f_{k}\left(\sum_{j=0}^{J}w_{jk}\tilde{o}_{j}\right).\end{displaymath}

  • die Gewichte der nächsten Schicht werden mit $w_{kl}$ bezeichnet.

Aktivierungsfunktionen (Transferfunktionen)

Es gibt verschiedene Aktivierungsfunktionen, die eingesetzt werden können, um die Netzsumme in die Ausgabe zu verrechnen. Die Aktivierungsfunktion sollte
  • streng monoton steigend
  • differenzierbar (einige Funktionen (Sprungfunktion) sind nicht differenzierbar; sie funktionieren so nicht im Backpropagation-Verfahren)
  • nach oben und nach unten beschränkt (die lineare Funktion ist nicht beschränkt)
  • Werte zwischen $-1$ und $1$ oder $0$ und $1$ (die lineare Funktion liefert keine Werte dazwischen, sondern auch viel größere bzw. kleinere Werte)
  • Wendepunkt bei $z=0$
Folgende Aktivierungsfunktionen sind die am häufigsten benutzten3:
  • Lineare Kennlinie (Identität): $f_{k}(z)=z$
    \includegraphics[scale=0.5]{lineare_kennlinie.eps}
  • Sprungfunktion (Stufenfunktion, Heoviside Funktion):

    \begin{displaymath}f_{k}(z)=\left\{\begin {array}{ll}
+1&z\geq 0\\
-1&z<0\\
\e...
...\begin {array}{cl}
+1&z\geq 0\\
0&z<0\\
\end {array}
\right.
\end{displaymath}

    \includegraphics[scale=0.5]{sprung_funktion.eps}
  • Fermifunktion (Logistische Funktion, eine sigmoide Funktion):

    \begin{displaymath}f(z)=\frac{1}{1+e^{-z}}\end{displaymath}

    \includegraphics[scale=0.5]{fermi.eps}
  • Tangenshyperbolikus:

    \begin{displaymath}f(z)=\tanh(z)=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}\end{displaymath}

    \includegraphics[scale=0.5]{tanh.eps}
Tangentshyperbolicus und Fermifunktion durch Gnuplot dargestellt:
Image fermi-tanh-gnuplot

Umrechnung Tangenshyperbolicus in Fermifunktion

Der Tangenshyperbolicus läßt sich in die Fermifunktion umrechnen. Hierbei benutzen wir $e^{z}=\frac{1}{e^{-z}}$

\begin{displaymath}\begin{array}{lll}\tanh(z)&=&\displaystyle\frac{e^{z}-e^{-z}}...
...yle 2 f(z)-1 \mbox{ ,wobei f die Fermifunktion}\\
\end {array}\end{displaymath}