Arquitectura de red neuronal superficial multicapa
En este tema se presenta parte de un flujo de trabajo de una red superficial multicapa típica. Para obtener más información y otros pasos, consulte Redes neuronales superficiales multicapa y entrenamiento de retropropagación.
Modelo de neurona (logsig, tansig, purelin)
A continuación se muestra una neurona elemental con R entradas. Cada entrada está ponderada con un peso w apropiado. La suma de las entradas ponderadas y el sesgo forman la entrada a la función de transferencia f. Las neuronas pueden utilizar cualquier función de transferencia diferenciable f para generar su salida.
Las redes multicapa a menudo usan la función de transferencia sigmoide logarítmica logsig
.
La función logsig
genera salidas entre 0 y 1 cuando la entrada combinada de la neurona pasa de infinito negativo a positivo.
De forma alternativa, las redes multicapa pueden usar la función de transferencia sigmoide tangencial tansig
.
Las neuronas de salida sigmoides se utilizan a menudo para problemas de reconocimiento de patrones, mientras que las neuronas de salida lineales se utilizan para problemas de ajuste de funciones. A continuación se muestra la función de transferencia lineal purelin
.
Las tres funciones de transferencia que se describen aquí son las que se utilizan con más frecuencia en redes multicapa, pero si se desea, se pueden crear y utilizar otras funciones de transferencia diferenciables.
Red neuronal prealimentada
A continuación se muestra una red de una sola capa de S neuronas logsig
que tienen entradas R con todo detalle a la izquierda y con un diagrama de capa a la derecha.
Las redes prealimentadas a menudo tienen una o varias capas ocultas de neuronas sigmoides seguidas de una capa de salida de neuronas lineales. Varias capas de neuronas con funciones de transferencia no lineales permiten a la red aprender relaciones no lineales entre vectores de entrada y salida. La capa de salida lineal se usa con mayor frecuencia para problemas de ajuste de funciones (o regresión no lineal).
Por otro lado, si desea limitar las salidas de una red (por ejemplo, entre 0 y 1), entonces la capa de salida debe utilizar una función de transferencia sigmoide (como logsig
). Esto ocurre cuando la red se utiliza para problemas de reconocimiento de patrones (en los que la red está tomando una decisión).
Para redes multicapa, el número de capa determina el superíndice en la matriz de pesos. La notación apropiada se usa en la red de dos capas tansig
/purelin
que se muestra a continuación.
Esta red se puede usar como un aproximador de función general. Puede aproximar cualquier función con un número finito de discontinuidades de manera arbitrariamente precisa, siempre y cuando tenga suficientes neuronas en la capa oculta.
Ahora que se ha definido la arquitectura de la red multicapa, el proceso de diseño se describe en las secciones siguientes.