Apprendimento automatico e reti neurali artificiali - IDSIA

Area scientifica

Apprendimento automatico e reti neurali artificiali

Le nostre principali direzioni di ricerca in Apprendimento Automatico e Reti Neurali Artificiali includono:
  • Reti Neurali Ricorrenti
  • Apprendimento Automatico per l’elaborazione di dati temporali
  • Modelli grafici probabilistici e causalità
  • Apprendimento per rinforzo
  • Deep Learning geometrico
  
Leader di area:
Cesare Alippi (USI)
Jürgen Schmidhuber (USI)
Marco Zaffalon (SUPSI)

SUPSI Image Focus

Reti neurali ricorrenti

Il cervello umano è una rete neurale ricorrente (RNN): una rete di neuroni con connessioni di retroazione. Può apprendere molti comportamenti, compiti di elaborazione di sequenze, algoritmi e programmi che non sono apprendibili dai metodi tradizionali di apprendimento automatico. Questo spiega il crescente interesse per le RNN artificiali nelle applicazioni tecniche: computer generali in grado di apprendere algoritmi per mappare sequenze di input in sequenze di output, con o senza supervisione.

Le RNN sono computazionalmente più potenti e biologicamente più plausibili rispetto ad altri approcci adattivi come i Modelli di Markov Nascosti (senza stati interni continui), le reti feedforward e le Macchine a Vettori di Supporto (senza stati interni). Le nostre applicazioni recenti includono robotica adattiva e controllo, riconoscimento della scrittura a mano, riconoscimento vocale, rilevamento di parole chiave, composizione musicale, visione attentiva, analisi delle proteine, previsione dei mercati azionari e molti altri problemi legati alle sequenze.

Le prime RNN degli anni ’90 non erano in grado di apprendere a guardare molto indietro nel tempo. I loro limiti furono analizzati per la prima volta nel progetto di Schmidhuber sulle RNN con lunghi ritardi temporali dal suo dottorando Hochreiter (1991). Una rete a retroazione chiamata Long Short-Term Memory (LSTM, Neural Comp., 1997) ha superato i problemi fondamentali delle RNN tradizionali e ha imparato in modo efficiente a risolvere molti compiti precedentemente non apprendibili, tra cui:
  • Riconoscimento di schemi estesi nel tempo in sequenze di input rumorose
  • Riconoscimento dell’ordine temporale di eventi molto distanti in sequenze rumorose
  • Estrazione di informazioni trasmesse dalla distanza temporale tra eventi
  • Generazione stabile di ritmi precisamente temporizzati, traiettorie periodiche lisce e non lisce
  • Memorizzazione robusta di numeri reali ad alta precisione su intervalli di tempo estesi.
L’LSTM ha trasformato l’apprendimento automatico e l’Intelligenza Artificiale (IA) ed è oggi disponibile per miliardi di utenti tramite le quattro aziende pubbliche più preziose al mondo: Apple (n. 1 al 31 marzo 2017), Google/Alphabet (n. 2), Microsoft (n. 3) e Amazon (n. 4).
Deep Learning dal 1991: i primi Very Deep Learners a vincere competizioni ufficiali nel riconoscimento di pattern, nel rilevamento di oggetti, nella segmentazione di immagini e nell’apprendimento di sequenze, grazie a reti neurali veloci e profonde / ricorrenti.

Il Deep Learning nelle reti neurali artificiali (NN) riguarda l’assegnazione del credito attraverso molti (non solo pochi) stadi o livelli computazionali successivi, in reti neurali profonde o ricorrenti.

I primi sistemi di Deep Learning del tipo percettrone multistrato feedforward furono creati mezzo secolo fa (Ivakhnenko et al., 1965, 1967, 1968, 1971). L’articolo del 1971 descriveva già una rete profonda adattiva con 8 strati di neuroni.

Recentemente il settore ha conosciuto una rinascita. Dal 2009, il nostro team di Deep Learning ha vinto 9 (nove) primi premi in importanti e altamente competitive competizioni internazionali di riconoscimento di pattern (con set di test segreti noti solo agli organizzatori), molti più di qualsiasi altro team. Le nostre reti neurali sono state anche le prime Very Deep Learners a vincere tali competizioni (ad esempio in classificazione, rilevamento di oggetti e segmentazione) e i primi metodi di apprendimento automatico a raggiungere prestazioni superumane in una competizione di questo tipo.

Competizioni vinte:
  • MICCAI 2013 Grand Challenge on Mitosis Detection
  • ICPR 2012 Contest on Mitosis Detection in Breast Cancer Histological Images
  • ISBI 2012 Brain Image Segmentation Challenge (with superhuman pixel error rate)
  • 6. IJCNN 2011 Traffic Sign Recognition Competition (only our method achieved superhuman results)
  • ICDAR 2011 offline Chinese Handwriting Competition
  • Online German Traffic Sign Recognition Contest
  • ICDAR 2009 Arabic Connected Handwriting Competition
  • ICDAR 2009 Handwritten Farsi/Arabic Character Recognition Competition
  • ICDAR 2009 French Connected Handwriting Competition.

SUPSI Image Focus

Caption test
 

Una serie temporale è una sequenza di osservazioni della stessa variabile raccolte nel tempo. Fare previsione significa affrontare il problema di stimare come la serie temporale evolverà in futuro. Stimiamo sia lo sviluppo più probabile della serie sia la sua incertezza. Su questo tema, tre dottorandi del nostro gruppo sono stati premiati al 2025 International Symposium on Forecasting.

Abbiamo inoltre competenze nelle previsioni gerarchiche, cioè nella previsione di serie temporali caratterizzate da vincoli di aggregazione. Per esempio, la somma delle previsioni della domanda di energia delle diverse regioni di un paese deve essere uguale alla previsione della domanda di energia dell’intero paese. Abbiamo sviluppato algoritmi per gerarchie contenenti sia serie temporali regolari sia intermittenti.

Attualmente stiamo conducendo un progetto SNF sulla previsione e sulla previsione gerarchica; i nostri dottorandi hanno vinto tre premi presentando le loro ricerche su questi temi. Rilasciamo i nostri algoritmi in pacchetti open-source; svolgiamo sia ricerca metodologica sia collaborazioni con le aziende.

Come esempio di collaborazione con le imprese, abbiamo sviluppato algoritmi di rilevamento di anomalie per un processo industriale i cui sensori producevano un flusso di dati. Abbiamo inoltre sviluppato una soluzione di classificazione di serie temporali (cioè assegnare un’etichetta a una serie temporale) per prevedere il tipo di coltura (mais, avena, riso, ecc.) a partire da una sequenza temporale di immagini satellitari.

  • S. Damato, D. Azzimonti, G.Corani,  Forecasting intermittent time series with Gaussian Processes and Tweedie likelihood, Int. J. of Forecasting, 2025.
  • L. Zambon, D. Azzimonti, N. Rubattu, G. Corani, Probabilistic reconciliation of mixed-type hierarchical time series, Proc. UAI 2024 (The 40th  Conference on Uncertainty in Artificial Intelligence)
  • L. Zambon, D. Azzimonti, G. Corani, Efficient probabilistic reconciliation of forecasts for real-valued and count time series, Statistics and Computing, (2024, 34:21). 
  • G. Corani, D. Azzimonti, N. Rubattu, Probabilistic reconciliation of count time series, Int. Journal of Forecasting, 40(2), 457-469, 2024.
  •  G. Corani, A. Benavoli, M. Zaffalon (2021). Time series forecasting with Gaussian Processes needs priors. Proc. European Conference on Machine Learning and Knowledge Discovery in Databases, pp. 103–117.

SUPSI Image Focus

Caption test

Reti bayesiane

Le reti bayesiane sono un modello fondamentale nell’apprendimento automatico e nell’intelligenza artificiale. Esse forniscono una visione qualitativa della struttura di insiemi di dati complessi e, allo stesso tempo, si basano su solide fondamenta probabilistiche per offrire modelli rigorosi e interpretabili. Le reti bayesiane stanno rapidamente diventando uno strumento di riferimento in un’ampia gamma di campi applicativi, dalla pratica clinica all’epidemiologia, dalla genetica alle scienze ambientali.
Il nostro lavoro presso IDSIA mira ad adattare ed estendere le reti bayesiane per gestire i dati eterogenei e complessi che caratterizzano le applicazioni all’avanguardia della ricerca. Questi includono, ad esempio:
  • la gestione di big data in modo computazionalmente efficiente,
  • la considerazione delle dimensioni temporali e spaziali,
  • l’uso efficace di dati incompleti,
  • la combinazione di insiemi di dati raccolti in condizioni sperimentali differenti.
L’attenzione è rivolta a fornire implementazioni software pronte all’uso sia degli approcci standardizzati a livello industriale sia dei nostri metodi originali, per applicazioni concrete. Le scienze della vita e le scienze fisiche richiedono l’interpretabilità completa che contraddistingue le reti bayesiane rispetto ad altri modelli di machine learning, e i problemi di ricerca all’avanguardia in queste discipline producono abitualmente dati del tipo descritto sopra.
  • M. Scutari e J.-B. Denis (2021). Bayesian Networks with Examples in R. Chapman & Hall, 2ª edizione.
  • M. Scutari (2020). Bayesian Network Models for Incomplete and Dynamic Data. Statistica Neerlandica, 74(3), 397–419.
  • M. Scutari, C. E. Graafland e J. M. Gutiérrez (2019). Who Learns Better Bayesian Network Structures: Accuracy and Speed of Structure Learning Algorithms. International Journal of Approximate Reasoning, 115, 235–253.
  • M. Scutari, C. Vitolo e A. Tucker (2019). Learning Bayesian Networks from Big Data with Greedy Search: Computational Complexity and Efficient Implementation. Statistics and Computing, 29(5), 1095–1108.

SUPSI Image Focus

Caption test

Analisi causale e ingegneria della conoscenza

Il machine learning tradizionale si basa su modelli statistici che cercano di catturare le correlazioni nei dati di addestramento. L’obiettivo è ottenere previsioni accurate su dati non ancora osservati. Tuttavia, per comprendere le relazioni causali tra le variabili del modello, sono necessari strumenti matematici specifici, che sviluppiamo in questo ambito di ricerca.

I modelli causali strutturali di Judea Pearl sono tra gli esempi più importanti di strumenti matematici che possono aiutarci a svelare le complesse relazioni causali nei dati. Questi modelli, basati sulle reti bayesiane (vedi Sezione 5.5.3), permettono di rispondere a interrogativi più complessi, come gli effetti di interventi su alcune variabili e i controfattuali.

In alcuni recenti lavori, i ricercatori di IDSIA hanno identificato una relazione di equivalenza tra modelli causali e reti credali, una classe generalizzata di reti bayesiane su cui IDSIA vanta una lunga esperienza. L’analisi causale tramite equivalenza con reti credali appare come una promettente direzione di ricerca da approfondire nei prossimi anni. Viceversa, alcuni nuovi algoritmi sviluppati di recente per interrogazioni causali potrebbero essere applicati anche alle reti credali.

IDSIA utilizza tradizionalmente le reti credali in progetti applicativi per modellare la conoscenza esperta (knowledge engineering) e supportare o spiegare le decisioni corrispondenti. Sembra possibile sviluppare nuove tecniche approssimate per questi modelli e applicarle a tali problemi. È importante notare che le ricerche teoriche sopra descritte sono sempre state accompagnate da librerie software gratuite, sviluppate dal team IDSIA, che implementano i nuovi algoritmi. Ci si attende che lo stesso avvenga anche per i lavori futuri menzionati.

  • Zaffalon, M., Antonucci, A., & Cabañas, R. (2020). Structural causal models are (solvable by) credal networks. In International Conference on Probabilistic Graphical Models (pp. 581-592). PMLR.
  • Cabañas, R., Antonucci, A., Huber, D., & Zaffalon, M. (2020). CREDICI: A Java Library for Causal Inference by Credal Networks. In International Conference on Probabilistic Graphical Models (pp. 597-600). PMLR.
  • Zaffalon, M., Antonucci, A., & Cabañas, R. (2020). Causal Expectation Maximisation. arXiv preprint arXiv:2011.02912.

SUPSI Image Focus

Caption test

Graph and geometric deep learning

Il graph e geometric deep learning sono aree del machine learning che combinano rappresentazioni a grafo dei dati e tecniche di apprendimento automatico, allo scopo di sfruttare il bias induttivo associato alla presenza di dipendenze funzionali tra i dati. In questo ambito, IDSIA sta attualmente esplorando due principali direzioni di ricerca:
apprendimento di strutture grafiche di ordine superiore dai dati, studio dei sistemi dinamici a stato basato su grafi.
 
Apprendimento di strutture grafiche di ordine superiore dai dati
Questa linea di indagine mira a far progredire la ricerca nelle tecniche di representation learning per codificare informazioni relazionali di qualsiasi ordine e, allo stesso tempo, ricavare tale struttura relazionale direttamente dai dati. Identifichiamo tre principali compiti di ricerca:
  • Graph learning. L’attività mira a sviluppare una metodologia scalabile per affrontare il problema dell’inferenza da dati multivariati, sfruttando i bias induttivi relazionali. I domini applicativi possibili sono numerosi: dalle reti di sensori fisici/virtuali ai knowledge graph fino alle point cloud.
  • Valutazione statistica di stimatori di (iper)grafi. La ricerca prevede lo studio di strumenti statistici adeguati e lo sviluppo di test d’ipotesi per valutare la significatività del grafo appreso, nonché l’analisi delle condizioni in cui l’apprendimento è garantito.
  • Embedding quasi-invertibili di grafi. L’elaborazione in uno spazio latente è utile, ma spesso implica la perdita delle informazioni relazionali esplicite. L’indagine mira a sfruttare tecniche e risultati teorici sviluppati nell’ambito del graph learning per progettare metodologie di embedding mirate a risolvere questo problema di decodifica.
     
Modelli neurali a stato basato sui grafi
La ricerca mira a costruire teorie, metodologie e strumenti per modelli predittivi basati su (iper)grafi che estendano le rappresentazioni tradizionali a spazio di stato.

Le principali sfide di ricerca sono:
  • Modellazione completa dei sistemi dinamici a grafo, attraverso rappresentazioni a grafo per input, stati e – possibilmente – output.
  • Progettazione di architetture neurali avanzate per l’elaborazione dei grafi nello spazio dei grafi. Qui, il problema del costo computazionale è di primaria importanza soprattutto per i grafi di grandi dimensioni: di conseguenza, la complessità computazionale deve essere un criterio guida nella progettazione dell’architettura.
  • Scalabilità e apprendimento. Con l’aumentare della complessità dell’architettura e della dimensione dei dati, diventa necessario fornire tecniche solide di selezione dei modelli e criteri di valutazione delle prestazioni per garantire un fitting adeguato. Questa parte è cruciale ma troppo spesso trascurata nell’elaborazione dei grafi, a causa della mancanza di strumenti statistici come criteri di ottimalità per i predittori a grafo, oltre all’imparzialità e alla consistenza degli stimatori di stato basati su grafo.
  • F.M. Bianchi, D. Grattarola, L. Livi, C.Alippi, Graph Neural Networks with Convolutional ARMA Filters, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021 IRIS
  • D.Grattarola, L. Livi, C. Alippi, Learning Graph Cellular Automata, NeurIPS 2021

SUPSI Image Focus

Caption test

Sicurezza per l’apprendimento automatico, apprendimento automatico per la sicurezza

La sicurezza è sia un fattore abilitante fondamentale sia un ambito applicativo estremamente rilevante per l’apprendimento automatico.
  • Sicurezza come fattore abilitante, perché i dati utilizzati negli algoritmi devono essere gestiti in modo da preservare la privacy e perché gli algoritmi di apprendimento automatico, una volta implementati nel mondo reale, devono essere protetti da avversari che tentano di sottrarne il valore e/o comprometterne l’efficacia.
  • Sicurezza come applicazione rilevante, perché la sicurezza stessa dovrebbe trarre vantaggio dall’uso di tecniche di apprendimento automatico per identificare e mitigare gli attacchi.
Nel contesto dei progetti europei Horizon 2020 CPSoSAware ed EVEREST, IDSIA sta attualmente esplorando entrambi gli aspetti.

La ricerca mira, da un lato, a costruire metodologie, strumenti e architetture per garantire la sicurezza e la privacy delle applicazioni di apprendimento automatico e, dall’altro, a esplorare l’uso di tecniche di apprendimento automatico per rilevare precocemente attacchi e attività malevole, migliorando in ultima analisi la resilienza dei sistemi.

Principali sfide di ricerca
  • Concepire e validare sperimentalmente metodi per proteggere gli algoritmi di apprendimento automatico da attacchi fisici e da side-channel, senza comprometterne le prestazioni (o, in un approccio complementare, esplorare nuove strutture di algoritmi di apprendimento automatico più adatte a essere protette da tali attacchi).
  • Progettare e validare algoritmi e architetture per preservare la privacy dei dati nell’apprendimento automatico. Soluzioni basate su crittografia omomorfica e/o apprendimento federato scalabile sono candidati promettenti, ma vanno migliorate per renderle pratiche e la loro robustezza rispetto a diversi tipi di attacco deve essere valutata con attenzione.
  • Progettare e validare praticamente tecniche di apprendimento automatico per rilevare e contrastare attacchi condotti in applicazioni di analisi dati su larga scala. Quando i requisiti di tempo reale e ridotto consumo energetico sono stringenti, la sfida è garantire l’efficacia degli algoritmi di apprendimento automatico minimizzando al contempo l’impatto sulle prestazioni del sistema.

Hidden Widget