- Reti Neurali Ricorrenti
- Apprendimento Automatico per l’elaborazione di dati temporali
- Modelli grafici probabilistici e causalità
- Apprendimento per rinforzo
- Deep Learning geometrico
Apprendimento automatico e reti neurali artificiali - IDSIA
Area scientifica
Apprendimento automatico e reti neurali artificiali
Leader di area:
SUPSI Image Focus
Reti neurali ricorrenti
Le RNN sono computazionalmente più potenti e biologicamente più plausibili rispetto ad altri approcci adattivi come i Modelli di Markov Nascosti (senza stati interni continui), le reti feedforward e le Macchine a Vettori di Supporto (senza stati interni). Le nostre applicazioni recenti includono robotica adattiva e controllo, riconoscimento della scrittura a mano, riconoscimento vocale, rilevamento di parole chiave, composizione musicale, visione attentiva, analisi delle proteine, previsione dei mercati azionari e molti altri problemi legati alle sequenze.
Le prime RNN degli anni ’90 non erano in grado di apprendere a guardare molto indietro nel tempo. I loro limiti furono analizzati per la prima volta nel progetto di Schmidhuber sulle RNN con lunghi ritardi temporali dal suo dottorando Hochreiter (1991). Una rete a retroazione chiamata Long Short-Term Memory (LSTM, Neural Comp., 1997) ha superato i problemi fondamentali delle RNN tradizionali e ha imparato in modo efficiente a risolvere molti compiti precedentemente non apprendibili, tra cui:
- Riconoscimento di schemi estesi nel tempo in sequenze di input rumorose
- Riconoscimento dell’ordine temporale di eventi molto distanti in sequenze rumorose
- Estrazione di informazioni trasmesse dalla distanza temporale tra eventi
- Generazione stabile di ritmi precisamente temporizzati, traiettorie periodiche lisce e non lisce
- Memorizzazione robusta di numeri reali ad alta precisione su intervalli di tempo estesi.
Il Deep Learning nelle reti neurali artificiali (NN) riguarda l’assegnazione del credito attraverso molti (non solo pochi) stadi o livelli computazionali successivi, in reti neurali profonde o ricorrenti.
I primi sistemi di Deep Learning del tipo percettrone multistrato feedforward furono creati mezzo secolo fa (Ivakhnenko et al., 1965, 1967, 1968, 1971). L’articolo del 1971 descriveva già una rete profonda adattiva con 8 strati di neuroni.
Recentemente il settore ha conosciuto una rinascita. Dal 2009, il nostro team di Deep Learning ha vinto 9 (nove) primi premi in importanti e altamente competitive competizioni internazionali di riconoscimento di pattern (con set di test segreti noti solo agli organizzatori), molti più di qualsiasi altro team. Le nostre reti neurali sono state anche le prime Very Deep Learners a vincere tali competizioni (ad esempio in classificazione, rilevamento di oggetti e segmentazione) e i primi metodi di apprendimento automatico a raggiungere prestazioni superumane in una competizione di questo tipo.
Competizioni vinte:
- MICCAI 2013 Grand Challenge on Mitosis Detection
- ICPR 2012 Contest on Mitosis Detection in Breast Cancer Histological Images
- ISBI 2012 Brain Image Segmentation Challenge (with superhuman pixel error rate)
- 6. IJCNN 2011 Traffic Sign Recognition Competition (only our method achieved superhuman results)
- ICDAR 2011 offline Chinese Handwriting Competition
- Online German Traffic Sign Recognition Contest
- ICDAR 2009 Arabic Connected Handwriting Competition
- ICDAR 2009 Handwritten Farsi/Arabic Character Recognition Competition
- ICDAR 2009 French Connected Handwriting Competition.
SUPSI Image Focus
Previsioni probabilistiche
Una serie temporale è una sequenza di osservazioni della stessa variabile raccolte nel tempo. Fare previsione significa affrontare il problema di stimare come la serie temporale evolverà in futuro. Stimiamo sia lo sviluppo più probabile della serie sia la sua incertezza. Su questo tema, tre dottorandi del nostro gruppo sono stati premiati al 2025 International Symposium on Forecasting.
Abbiamo inoltre competenze nelle previsioni gerarchiche, cioè nella previsione di serie temporali caratterizzate da vincoli di aggregazione. Per esempio, la somma delle previsioni della domanda di energia delle diverse regioni di un paese deve essere uguale alla previsione della domanda di energia dell’intero paese. Abbiamo sviluppato algoritmi per gerarchie contenenti sia serie temporali regolari sia intermittenti.
Attualmente stiamo conducendo un progetto SNF sulla previsione e sulla previsione gerarchica; i nostri dottorandi hanno vinto tre premi presentando le loro ricerche su questi temi. Rilasciamo i nostri algoritmi in pacchetti open-source; svolgiamo sia ricerca metodologica sia collaborazioni con le aziende.
Come esempio di collaborazione con le imprese, abbiamo sviluppato algoritmi di rilevamento di anomalie per un processo industriale i cui sensori producevano un flusso di dati. Abbiamo inoltre sviluppato una soluzione di classificazione di serie temporali (cioè assegnare un’etichetta a una serie temporale) per prevedere il tipo di coltura (mais, avena, riso, ecc.) a partire da una sequenza temporale di immagini satellitari.
- S. Damato, D. Azzimonti, G.Corani, Forecasting intermittent time series with Gaussian Processes and Tweedie likelihood, Int. J. of Forecasting, 2025.
- L. Zambon, D. Azzimonti, N. Rubattu, G. Corani, Probabilistic reconciliation of mixed-type hierarchical time series, Proc. UAI 2024 (The 40th Conference on Uncertainty in Artificial Intelligence)
- L. Zambon, D. Azzimonti, G. Corani, Efficient probabilistic reconciliation of forecasts for real-valued and count time series, Statistics and Computing, (2024, 34:21).
- G. Corani, D. Azzimonti, N. Rubattu, Probabilistic reconciliation of count time series, Int. Journal of Forecasting, 40(2), 457-469, 2024.
- G. Corani, A. Benavoli, M. Zaffalon (2021). Time series forecasting with Gaussian Processes needs priors. Proc. European Conference on Machine Learning and Knowledge Discovery in Databases, pp. 103–117.
SUPSI Image Focus
Reti bayesiane
-
la gestione di big data in modo computazionalmente efficiente,
-
la considerazione delle dimensioni temporali e spaziali,
-
l’uso efficace di dati incompleti,
-
la combinazione di insiemi di dati raccolti in condizioni sperimentali differenti.
- M. Scutari e J.-B. Denis (2021). Bayesian Networks with Examples in R. Chapman & Hall, 2ª edizione.
- M. Scutari (2020). Bayesian Network Models for Incomplete and Dynamic Data. Statistica Neerlandica, 74(3), 397–419.
- M. Scutari, C. E. Graafland e J. M. Gutiérrez (2019). Who Learns Better Bayesian Network Structures: Accuracy and Speed of Structure Learning Algorithms. International Journal of Approximate Reasoning, 115, 235–253.
- M. Scutari, C. Vitolo e A. Tucker (2019). Learning Bayesian Networks from Big Data with Greedy Search: Computational Complexity and Efficient Implementation. Statistics and Computing, 29(5), 1095–1108.
SUPSI Image Focus
Analisi causale e ingegneria della conoscenza
Il machine learning tradizionale si basa su modelli statistici che cercano di catturare le correlazioni nei dati di addestramento. L’obiettivo è ottenere previsioni accurate su dati non ancora osservati. Tuttavia, per comprendere le relazioni causali tra le variabili del modello, sono necessari strumenti matematici specifici, che sviluppiamo in questo ambito di ricerca.
I modelli causali strutturali di Judea Pearl sono tra gli esempi più importanti di strumenti matematici che possono aiutarci a svelare le complesse relazioni causali nei dati. Questi modelli, basati sulle reti bayesiane (vedi Sezione 5.5.3), permettono di rispondere a interrogativi più complessi, come gli effetti di interventi su alcune variabili e i controfattuali.
In alcuni recenti lavori, i ricercatori di IDSIA hanno identificato una relazione di equivalenza tra modelli causali e reti credali, una classe generalizzata di reti bayesiane su cui IDSIA vanta una lunga esperienza. L’analisi causale tramite equivalenza con reti credali appare come una promettente direzione di ricerca da approfondire nei prossimi anni. Viceversa, alcuni nuovi algoritmi sviluppati di recente per interrogazioni causali potrebbero essere applicati anche alle reti credali.
IDSIA utilizza tradizionalmente le reti credali in progetti applicativi per modellare la conoscenza esperta (knowledge engineering) e supportare o spiegare le decisioni corrispondenti. Sembra possibile sviluppare nuove tecniche approssimate per questi modelli e applicarle a tali problemi. È importante notare che le ricerche teoriche sopra descritte sono sempre state accompagnate da librerie software gratuite, sviluppate dal team IDSIA, che implementano i nuovi algoritmi. Ci si attende che lo stesso avvenga anche per i lavori futuri menzionati.
- Zaffalon, M., Antonucci, A., & Cabañas, R. (2020). Structural causal models are (solvable by) credal networks. In International Conference on Probabilistic Graphical Models (pp. 581-592). PMLR.
- Cabañas, R., Antonucci, A., Huber, D., & Zaffalon, M. (2020). CREDICI: A Java Library for Causal Inference by Credal Networks. In International Conference on Probabilistic Graphical Models (pp. 597-600). PMLR.
- Zaffalon, M., Antonucci, A., & Cabañas, R. (2020). Causal Expectation Maximisation. arXiv preprint arXiv:2011.02912.
SUPSI Image Focus
Graph and geometric deep learning
apprendimento di strutture grafiche di ordine superiore dai dati, studio dei sistemi dinamici a stato basato su grafi.
Apprendimento di strutture grafiche di ordine superiore dai dati
- Graph learning. L’attività mira a sviluppare una metodologia scalabile per affrontare il problema dell’inferenza da dati multivariati, sfruttando i bias induttivi relazionali. I domini applicativi possibili sono numerosi: dalle reti di sensori fisici/virtuali ai knowledge graph fino alle point cloud.
- Valutazione statistica di stimatori di (iper)grafi. La ricerca prevede lo studio di strumenti statistici adeguati e lo sviluppo di test d’ipotesi per valutare la significatività del grafo appreso, nonché l’analisi delle condizioni in cui l’apprendimento è garantito.
- Embedding quasi-invertibili di grafi. L’elaborazione in uno spazio latente è utile, ma spesso implica la perdita delle informazioni relazionali esplicite. L’indagine mira a sfruttare tecniche e risultati teorici sviluppati nell’ambito del graph learning per progettare metodologie di embedding mirate a risolvere questo problema di decodifica.
Modelli neurali a stato basato sui grafi
La ricerca mira a costruire teorie, metodologie e strumenti per modelli predittivi basati su (iper)grafi che estendano le rappresentazioni tradizionali a spazio di stato.Le principali sfide di ricerca sono:
- Modellazione completa dei sistemi dinamici a grafo, attraverso rappresentazioni a grafo per input, stati e – possibilmente – output.
- Progettazione di architetture neurali avanzate per l’elaborazione dei grafi nello spazio dei grafi. Qui, il problema del costo computazionale è di primaria importanza soprattutto per i grafi di grandi dimensioni: di conseguenza, la complessità computazionale deve essere un criterio guida nella progettazione dell’architettura.
- Scalabilità e apprendimento. Con l’aumentare della complessità dell’architettura e della dimensione dei dati, diventa necessario fornire tecniche solide di selezione dei modelli e criteri di valutazione delle prestazioni per garantire un fitting adeguato. Questa parte è cruciale ma troppo spesso trascurata nell’elaborazione dei grafi, a causa della mancanza di strumenti statistici come criteri di ottimalità per i predittori a grafo, oltre all’imparzialità e alla consistenza degli stimatori di stato basati su grafo.
- F.M. Bianchi, D. Grattarola, L. Livi, C.Alippi, Graph Neural Networks with Convolutional ARMA Filters, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021 IRIS
- D.Grattarola, L. Livi, C. Alippi, Learning Graph Cellular Automata, NeurIPS 2021
SUPSI Image Focus
Sicurezza per l’apprendimento automatico, apprendimento automatico per la sicurezza
- Sicurezza come fattore abilitante, perché i dati utilizzati negli algoritmi devono essere gestiti in modo da preservare la privacy e perché gli algoritmi di apprendimento automatico, una volta implementati nel mondo reale, devono essere protetti da avversari che tentano di sottrarne il valore e/o comprometterne l’efficacia.
- Sicurezza come applicazione rilevante, perché la sicurezza stessa dovrebbe trarre vantaggio dall’uso di tecniche di apprendimento automatico per identificare e mitigare gli attacchi.
La ricerca mira, da un lato, a costruire metodologie, strumenti e architetture per garantire la sicurezza e la privacy delle applicazioni di apprendimento automatico e, dall’altro, a esplorare l’uso di tecniche di apprendimento automatico per rilevare precocemente attacchi e attività malevole, migliorando in ultima analisi la resilienza dei sistemi.
Principali sfide di ricerca
- Concepire e validare sperimentalmente metodi per proteggere gli algoritmi di apprendimento automatico da attacchi fisici e da side-channel, senza comprometterne le prestazioni (o, in un approccio complementare, esplorare nuove strutture di algoritmi di apprendimento automatico più adatte a essere protette da tali attacchi).
- Progettare e validare algoritmi e architetture per preservare la privacy dei dati nell’apprendimento automatico. Soluzioni basate su crittografia omomorfica e/o apprendimento federato scalabile sono candidati promettenti, ma vanno migliorate per renderle pratiche e la loro robustezza rispetto a diversi tipi di attacco deve essere valutata con attenzione.
- Progettare e validare praticamente tecniche di apprendimento automatico per rilevare e contrastare attacchi condotti in applicazioni di analisi dati su larga scala. Quando i requisiti di tempo reale e ridotto consumo energetico sono stringenti, la sfida è garantire l’efficacia degli algoritmi di apprendimento automatico minimizzando al contempo l’impatto sulle prestazioni del sistema.