Percettrone

Il percettrone (in inglese perceptron) è un modello di rete neurale artificiale, il primo di questo genere, introdotto nel 1943 da Warren McCulloch e Walter Pitts^[1]

Descrizione

Nell'apprendimento automatico, il percettrone è un tipo di classificatore binario che mappa i suoi ingressi $x$ (un vettore di tipo reale) in un valore di output $f(x)$ (uno scalare di tipo reale) calcolato con

$f(x)=\chi (\langle w,x\rangle +b)$

dove $w$ è un vettore di pesi con valori reali, l'operatore $\langle \cdot ,\cdot \rangle$ è il prodotto scalare (che calcola una somma pesata degli input), $b$ è il bias, un termine costante che non dipende da alcun valore in input e $\chi (y)$ è la funzione di output. Le scelte più comuni per la funzione $\chi (y)$ sono:

$\chi (y)=\operatorname {sign} (y)$
$\chi (y)=y\,\Theta (y)$
$\chi (y)=y$

dove $\Theta (y)$ è la funzione di Heaviside

Il primo caso corrisponde a un classificatore binario (l'output può assumere solamente i valori $+1$ e $-1$ ); un caso particolarmente studiato è quello in cui sia gli input $x$ che l'output $f(x)$ sono binari.

Il bias $b$ può essere pensato come un settaggio della funzione di attivazione (per esempio quando $\chi (y)$ è come nel caso 3), o come un livello base di attivazione per l'output del neurone (per esempio quando $\chi (y)$ è come nei casi 1 e 2). In quest'ultima situazione, il valore $-b$ rappresenta un valore di soglia che la somma pesata degli input deve superare affinché il dispositivo sia attivo (cioè che l'output sia positivo).

Il percettrone può essere considerato come il più semplice modello di rete neurale feed-forward,^[2]^[3] in quanto gli input alimentano direttamente l'unità di output attraverso connessioni pesate. Nel caso in cui gli input e gli output sono dello stesso tipo, è possibile creare reti più complesse unendo più percettroni insieme, per esempio usando un gruppo (o strato) di percettroni come input per un secondo gruppo di percettroni, oppure facendo in modo che l'input di ogni percettrone della rete sia dato dall'output di ogni altro percettrone (rete fully-connected).

Storia

Il percettrone fu proposto da Frank Rosenblatt nel 1958 come un'entità con uno strato di ingresso ed uno di uscita ed una regola di apprendimento basata sulla minimizzazione dell'errore, la cosiddetta funzione di error back-propagation (retropropagazione dell'errore) che in base alla valutazione sull'uscita effettiva della rete rispetto ad un dato ingresso altera i pesi delle connessioni (sinapsi) come differenza tra l'uscita effettiva e quella desiderata.

L'entusiasmo fu enorme e nacque il settore della cibernetica, ma dopo che Marvin Minsky e Seymour Papert dimostrarono i limiti del percettrone e cioè la sua capacità di riconoscere dopo un opportuno addestramento solamente funzioni linearmente separabili (ad esempio la funzione logica XOR non può essere implementata da un percettrone) l'interesse scemò rapidamente.

Di fatto una rete a più livelli di percettroni poteva risolvere problemi più complessi, ma la crescente complessità computazionale dell'addestramento rendeva impraticabile questa strada. Solo nel decennio successivo si riprese a considerare l'utilità di questa entità operazionale.

Il problema dell'apprendimento

Simulazione di un percettrone con un neurone. Il compito è trovare una linea che divide i dati in due gruppi diversi. Questo approccio non funziona a causa del problema XOR

Modificando il vettore dei pesi $w$ , è possibile modulare l'output di un percettrone, con lo scopo d'ottenere delle proprietà di apprendimento o di memorizzazione. Per esempio, si può cercare di istruire un percettrone in modo che, dato un input $x$ , l'output $f(x)$ sia quanto più vicino possibile a un dato valore $g(x)$ scelto a priori; le capacità computazionali di un singolo percettrone sono tuttavia limitate, e le prestazioni che è possibile ottenere dipendono fortemente sia dalla scelta degli input (che potrebbero per esempio essere limitati ad un sottoinsieme di tutti gli input possibili, oppure venire estratti a caso secondo una certa distribuzione di probabilità prefissata) che dalla scelta della funzione che si desidera implementare, $g(x)$ . In misura minore, dipendono anche da come viene quantificata la distanza tra gli output effettivi e quelli attesi.

Una volta che si sia definito il problema dell'apprendimento, si può cercare di trovare l'assegnazione ottimale di pesi ${\overline {w}}$ per il problema dato.

Algoritmo di apprendimento standard

L'algoritmo di apprendimento standard è un algoritmo iterativo, definito come segue: ad ogni iterazione $t$ , un vettore di input $x^{t}$ viene presentato al percettrone, che calcola l'output $f(x^{t})$ e lo confronta con il risultato desiderato $g(x^{t})$ ; quindi, il vettore dei pesi $w^{t}$ viene aggiornato come segue:

$w^{t+1}=w^{t}+\alpha \,(g(x^{t})-f(x^{t}))x^{t}$

dove $\alpha$ è una costante di apprendimento strettamente positiva che regola la velocità dell'apprendimento^[4]. Al passo successivo, il nuovo input $x^{t+1}$ verrà pesato secondo il nuovo vettore $w^{t+1}$ , che verrà poi nuovamente modificato in $w^{t+2}$ e così via.

L'insieme $D_{x}$ da cui sono estratti i campioni $x$ presentati al percettrone durante il periodo dell'apprendimento è detto training set.

I pesi appropriati (w) vengono applicati agli input (x) che passati ad una funzione che produce l'output (y)

Nel caso in cui esistano:

un certo vettore ${\hat {w}}\ t.c.\lVert {\hat {w}}\rVert =1$
una certa costante $\gamma >0\ t.c.g(x^{t})\langle x^{t},{\hat {w}}\rangle \geq \gamma \ \forall t$
una certa costante $R\ t.c.\lVert x^{t}\rVert \leq R\ \forall t$

il training set è detto linearmente separabile (geometricamente, questa condizione descrive la situazione in cui esiste un iperpiano in grado di separare, nello spazio vettoriale degli input, quelli che richiedono un output positivo da quelli che richiedono un output negativo). In questo caso, Novikoff (1962) ha provato che l'algoritmo standard converge, nel senso che il numero di errori è limitato da ${\tfrac {R^{2}}{\gamma ^{2}}}$ , in un numero finito di passi.^[5] Non è invece garantito che l'algoritmo descritto converga se il training set non è linearmente separabile. Inoltre, altri algoritmi (per esempio l'algoritmo adatron), possono avere, in determinate situazioni, prestazioni migliori in termini di tempo di convergenza, di capacità di apprendimento, di generalizzazione, eccetera.

Note

^ (EN) Warren S. McCulloch e Walter Pitts, A logical calculus of the ideas immanent in nervous activity, in The Bulletin of Mathematical Biophysics, vol. 5, n. 4, 1943-12, pp. 115–133, DOI:10.1007/BF02478259. URL consultato il 13 giugno 2024.
^ Cristianini, Nello; Shawe-Taylor, John. Support Vector Machines and other Kernel-based learning methods. Cambridge University Press: 2000.
^ HAYKIN , Simon . Neural Networks - A Comprehensive Foundation. Second edition. Pearson Prentice Hall: 1999.
^ (EN) Bishop, Christopher M., Pattern recognition and machine learning, Springer, 2006, pp. 192-196, ISBN 0387310738, OCLC 71008143. URL consultato il 10 agosto 2018.
^ Michael Collins, Convergence Proof for the Perceptron Algorithm (PDF), su cs.columbia.edu, Columbia University - Dipartimento di informatica. URL consultato il 1º luglio 2017 (archiviato il 25 giugno 2017).

Bibliografia

Rosenblatt, Frank (1958), The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408. DOI: 10.1037/h0042519.
Rosenblatt, Frank (1962), Principles of Neurodynamics. Washington, DC: Spartan Books.
Minsky, M. L. and Papert, S. A. 1969. Perceptrons. Cambridge, MA: MIT Press.
Reti neurali e Pattern Recognition - finalmente un cervello elettronico? (JPG), in MCmicrocomputer, n. 102, Roma, Technimedia, dicembre 1990, pp. 210-213, ISSN 1123-2714 (WC · ACNP).
Reti neurali. Primi passi: il Perceptron (JPG), in MCmicrocomputer, n. 103, Roma, Technimedia, gennaio 1991, pp. 178-181, ISSN 1123-2714 (WC · ACNP).

Voci correlate

Percettrone multistrato

Collegamenti esterni

Perceptron, su Treccani.it – Enciclopedie on line, Istituto dell'Enciclopedia Italiana.
Perceptron, in Dizionario delle scienze fisiche, Istituto dell'Enciclopedia Italiana, 1996.
Mauro Cappelli, Percettrone, in Enciclopedia della scienza e della tecnica, Istituto dell'Enciclopedia Italiana, 2007-2008.
Gérard Dreyfus, Léon Personnaz e Gérard Toulouse, Perceptron, in Enciclopedia della scienza e della tecnica, Istituto dell'Enciclopedia Italiana, 2007-2008.
Perceptron, in Dizionario di medicina, Istituto dell'Enciclopedia Italiana, 2010.
perceptróne, su sapere.it, De Agostini.
(EN) B.J. Copeland, perceptrons, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
Apprendimento del percettrone, su dii.unisi.it.
Reti a percettrone, su automatica.ing.unibs.it. URL consultato il 14 dicembre 2006 (archiviato dall'url originale il 9 maggio 2006).

Controllo di autorità	LCCN (EN) sh85099714 · GND (DE) 4173941-3 · J9U (EN, HE) 987007536098005171 · NDL (EN, JA) 00569067

Portale Informatica

Portale Ingegneria

Portale Statistica

[1] (EN) Warren S. McCulloch e Walter Pitts, A logical calculus of the ideas immanent in nervous activity, in The Bulletin of Mathematical Biophysics, vol. 5, n. 4, 1943-12, pp. 115–133, DOI:10.1007/BF02478259. URL consultato il 13 giugno 2024.

[2] Cristianini, Nello; Shawe-Taylor, John. Support Vector Machines and other Kernel-based learning methods. Cambridge University Press: 2000.

[3] HAYKIN , Simon . Neural Networks - A Comprehensive Foundation. Second edition. Pearson Prentice Hall: 1999.

[4] (EN) Bishop, Christopher M., Pattern recognition and machine learning, Springer, 2006, pp. 192-196, ISBN 0387310738, OCLC 71008143. URL consultato il 10 agosto 2018.

[5] Michael Collins, Convergence Proof for the Perceptron Algorithm (PDF), su cs.columbia.edu, Columbia University - Dipartimento di informatica. URL consultato il 1º luglio 2017 (archiviato il 25 giugno 2017).

[1]

[2]

[3]

[4]

[5]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · DBSCAN · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields CRF · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Modelli grafici · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Analisi della correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Rete neurale grafica · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico