Molti ne parlano, ma pochi hanno compreso fino in fondo l’utilità delle nuove tecnologie, soprattutto nel calcolo del rischio di credito.
Analizzare la relazione tra creditori e debitori attraverso le tecnologie adottate nelle piattaforme di P2P (peer-to-peer lending) e di robot advisory (quali ad esempio le reti neurali), al fine di valutare attraverso l’intelligenza artificiale il rischio di credito, dimostra che l’accuratezza della previsione del network migliora la stima del rischio.
L’utilizzo di un’analisi di raggruppamento può inoltre permettere l’individuazione delle scelte decisionali delle imprese, le connessioni tra loro e i comportamenti in differenti scenari economici.
Vediamo più in dettaglio di che si tratta
Scopo dell’analisi e modello utilizzato
Per meglio comprendere come possa essere migliorata l’analisi del rischio di credito, abbiamo svolto una ricerca empirica su un dataset composto da 15.045 osservazioni relative a piccole e medie imprese del Sud Europa e 24 variabili economico – finanziarie.
Usando le osservazioni e le variabili del dataset, e applicando un modello di regressione logistica, abbiamo quindi analizzato le correlazioni a livello di network. L’idea di fondo è quella di indagare e tentare quindi di prevedere la solvibilità delle imprese; la variabile dipendente è lo Status dell’impresa (in termini di merito creditizio), e lo scopo è quello di vedere quali risultati emergano in tema di collegamenti e somiglianze tra imprese richiedenti un prestito. A tal fine abbiamo ulteriormente analizzato un dataset ridotto di 2.313 piccole e medie imprese e di 8 variabili, per vedere i collegamenti di tipo economico-finanziario in differenti situazioni.
Come detto l’analisi è basata su 15.045 osservazioni di piccole e medie imprese del sud Europa, potenziali clienti delle piattaforme di P2P o di banche tradizionali. Da un punto di vista statistico, si utilizzano alcune variabili finanziarie come indipendenti (variabili X), mentre la variabile dipendente scelta (variabile Y) è lo Status secondo il merito creditizio (0 attivo; 1 default).
Di seguito viene riportato l’elenco delle variabili indipendenti X utilizzate nel modello.
Dalla statistica descrittiva, che si concentra sui principali elementi (numero delle osservazioni, media, deviazione standard, massimo e minimo, primo e terzo quartile) risulta che l’89.2% delle imprese del nostro campione è attivo, mentre il rimanente 10.8% è andato in default almeno una volta, avendo avuto problemi nei pagamenti. Poiché la presenza di outliers (valori anomali che differiscono dalla maggioranza delle osservazioni) rendeva la distribuzione dei dati non uniforme, si è deciso di standardizzare il dataset con una distribuzione Normale (media 0 e varianza 1), eliminando i valori anomali e ottenendo così dati più omogenei come emerge dalla seguente figura.
Distribuzione statistica delle variabili indipendenti
Nella figura sottostante viene invece rappresentata la matrice di correlazione. La correlazione viene considerata “forte” più i cerchi sono grandi e di colore blu intenso, mentre è “debole” se di colore rosso.
La costruzione del network è basato sulle correlazioni di cui sopra. La dimensione e il colore dei collegamenti tra i nodi è esattamente il risultato della matrice di correlazione. Si può notare come vi sia una forte correlazione positiva tra la variabile DPO (debiti commerciali sui ricavi) e DSO (crediti commerciali sui ricavi), e come esse siano negativamente correlate, insieme alla DIO (scorte di magazzino sui ricavi), alle variabili ratio017 (ricavi operativi sugli asset totali) e ratio018 (vendite su asset totali). Il grafico sottostante rappresenta quindi un modo alternativo di vedere l’analisi di raggruppamento data dalla matrice delle correlazioni.
Il network
A questo punto viene applicato un modello di regressione logistica, ossia un modello predittivo per la variabile qualitativa Y (invece di una variabile quantitativa). Esso mostra un problema a risposta qualitativa decomposto in problemi a risposta binaria, dove le imprese vengono classificate secondo uno status. Questo tipo di regressione ha la variabile con valori dicotomica, quindi una variabile binaria con valori 0/1; 1 indica il successo dell’evento, 0 il non verificarsi dello stesso. Essa viene calcolata come l’inversa della funzione lineare Logit; i valori predetti sono interpretati come le probabilità di successo dell’evento
La curva logistica mostra la dipendenza di sulle variabili X secondo la seguente formula:
Analogamente, il logaritmo delle probabilità è una funzione lineare delle variabili X.
Il modello Logit può essere usato per predire la probabilità di default di un prestito; in questo modo un creditore (la banca o la piattaforma) può decidere se investire o meno in tale prestito sulla base del risultato della predizione che, tuttavia, dipende dalla validità del modello usato.
Si noti inoltre che questa probabilità potrebbe essere sottostimata nelle piattaforme P2P a causa di una mancanza di variabili X che può essere migliorata sfruttando i dati del network dei debitori.
Il risultato del modello è la stima ottenuta da ogni variabile predittiva, attraverso un valore z della statistica (ratio tra il valore stimato e l’errore standard delle stime del coefficiente) che ha ugual segno della stima e un p-value (valore di significatività) compreso tra 0 e 1.
L’analisi viene compiuta ripetutamente al fine di aumentarne la robustezza, considerando solo le variabili con un p-value prossimo a zero, per evitare risultati sovrastimati. Una probabilità uguale a zero indica dunque la significatività delle variabili X indicate e dunque del modello.
Ma vediamo ora cosa ci dicono le variabili utilizzate. Risulta in particolare che un aumento del 10% dei ratio011 (Profit & Loss al lordo delle tasse) e ratio012 (P&L al netto delle tasse) implicano un miglioramento del valore di solvibilità rispettivamente uguale a -0.0881 e -0.0925, così come un aumento del ratio004 (attività su passività correnti) implica un valore stimato uguale a -0.3643.
Si è poi utilizzata la curva ROC (Receiver Operating Characteristics) per controllare l’accuratezza della previsione svolta. La curva ROC è infatti un grafico che mostra le prestazioni di un modello di classificazione. Essa traccia due parametri: il tasso dei veri positivi e il tasso dei falsi positivi.
Il colore mutevole della curva indica che questi due tassi sono tracciati a diverse soglie di classificazione e l’abbassamento delle stesse classifica più valori come positivi. In particolare l’AUC (Area Under the Curve) misura l’area sotto la curva ROC ed è uguale alla probabilità che un’istanza positiva random abbia un ranking maggiore di una negativa, ossia che il modello classifichi un esempio positivo casuale in modo più elevato rispetto a un esempio negativo casuale. Come a dire: il modello prevede adeguatamente se una impresa non andrà in default. La predizione ha un range tra 0 e 1 (accuratezza perfetta).
Per meglio comprendere l’affidabilità e la perfomance del modello, è possibile raffrontare le classificazioni attuali e predette attraverso la cosiddetta Confusion matrix.
Si tratta di una tabella avente quattro differenti combinazioni di valori predetti e attuali, e che fa distinzione tra lo stato attuale (Reference) e la predizione (Prediction) delle osservazioni. Entrambi possono avere valore 0 o 1 a seconda che il modello abbia stimato correttamente la presenza di Veri Positivi (Prediction = 1, Reference = 1, ovvero le imprese predette come solventi lo sono poi state veramente), Veri Negativi (Prediction = 0, Reference = 0, ossia le imprese predette come non solventi sono poi andate effettivamente in default), Falsi Positivi (Prediction = 1, Reference = 0, cioè imprese predette solventi ma poi andate in default) e Falsi Negativi (Prediction = 0, Reference = 1, imprese predette in default ma risultate poi solventi).
Il modello ha predetto correttamente:
- Veri Positivi uguali a 94
- Veri Negativi uguali a 3973
- Falsi Negativi uguali a 395 (il modello ha predetto una classe negativa, quando positiva)
- Falsi Positivi 50 (il modello ha predetto un evento quando non presente)
La seguente tabella mostra la statistica connessa alla Confusion matrix. L’accuratezza registra un valore pari a 0.9014, che significa che il 90% delle osservazioni sono correttamente classificate.
Le relazioni tra imprese
Il modello statistico predittivo sopra illustrato viene a questo punto implementato con un’analisi per gruppi su un dataset ridotto; si considerano solo le variabili che danno similarità alle aziende in termini di performance operazionale, sostenibilità finanziaria e di business come ad esempio il ROA, ROE, totale degli asset, indice di cassa, coefficiente di solvibilità (si veda tabella sottostante). Un ulteriore criterio adottato per ridurre il dataset è dato dalla scelta di valori del totale degli asset maggiori del terzo quartile, al fine di avere solo i risultati migliori.
Calcolando poi la matrice di correlazione delle variabili indicate in tabella e usando tre valori soglia (Theta) rispettivamente uguali a 0.5, 0.7 e 0.9, si dimostrano le differenti connessioni tra le imprese e come interagiscono tra loro sia positivamente che negativamente, attraverso un’analisi di classificazione in gruppi, dato il coefficiente di correlazione compreso tra i valori [-1,1] e prendendo i valori soglia sia negativi che positivi.
I grafici sotto riportati rappresentano l’analisi di raggruppamento effettuata, basata sulle caratteristiche di similitudine delle variabili.
Le imprese nello stesso gruppo (vedi i colori di dimensione uguale a K, con K uguale a numero gruppi individuati), saranno simili e dunque vicine, mentre quelle in altri gruppi saranno lontane e diverse. Il grafico a destra mostra gli stessi dati trasformati tramite la PCA (Principal Component Analysis) su assi cartesiani, chiamati Dimensione 1 e 2 o Componenti Principali, ossia le combinazioni delle variabili originali. Le variabili vengono dimensionate per avere una maggior interpretabilità dei risultati, minimizzando la perdita di informazioni attraverso la creazione di due nuove variabili indipendenti che massimizzano la varianza espressa tra parentesi.
Illustriamo i risultati ottenuti
Theta = 0.9. Nel network a sinistra i nodi rappresentano le aziende; la dimensione dei nodi stessi dipende dalla centralità del grado, ossia il numero di connessioni tra un’impresa e le altre. I collegamenti tra i nodi costituiscono le connessioni, i cui colori dipendono dai pesi della correlazione, mentre i colori dei nodi contraddistinguono i gruppi (K=8). Per alcuni nodi, specialmente quelli del gruppo rosso di maggior dimensione, le connessioni sono massime e dunque più dense, mentre quelle appartenenti a gruppi diversi sono sparse e più deboli. Dal punto di vista economico, una connessione positiva indica che i volumi di vendita delle imprese si muovono insieme, cioè vi è complementarietà; dunque se una delle due viene danneggiata da andamenti economici, avviene un effetto a cascata. Una connessione negativa indica invece una competizione sul mercato, dunque quando una viene danneggiata, l’altra acquisisce il corrispondente valore di mercato. Questo primo caso di complementarietà con theta uguale a 0.9 è il più evidente poiché i primi tre gruppi (rosso, verde e azzurro) rappresentano l’85% delle imprese.
Theta = 0.7. Significatività medio-alta in termini di correlazione. Effettuando una comparazione tra i due casi visti, si può notare qui un numero medio-alto di collegamenti all’interno dei gruppi, la similarità presente è alta, i gruppi sono abbastanza densi, quindi meno collegamenti tra entità diverse. Dal punto di vista economico tali somiglianze mostrano ad esempio che un incremento di debito su un’azienda si diffonde alle altre appartenenti allo stesso gruppo, poiché influenzate da eventi simili che generano un effetto a catena, anche se leggermente più debole rispetto al caso precedente.
Theta = 0.5. In questo caso la dimensione dei nodi è maggiore, dunque ogni azienda ha più collegamenti verso le altre rispetto ai casi precedenti; con un livello di correlazione medio non si hanno connessioni di imprese appartenenti allo stesso gruppo dense, ma quelle tra gruppi differenti (in questo caso K=3), sono più forti
Successivamente per le tre soglie di correlazione si possono notare le misure di network. La centralità media del grado (Mean) indica il valore medio di connessioni tra un nodo e gli altri. Come si può vedere tale misura aumenta col decrescere della correlazione; nel caso di Theta pari a 0,5 ogni azienda è legata in media ad altre 1.119. Per teta pari a 0.7 e a 0.9 i valori sono molto inferiori; ecco perché nel caso di correlazione maggiore le connessioni tra nodi di gruppi differenti non sono dense e dunque non vi è complementarietà tra loro sul mercato, ma competizione.
Dalla tabella sottostante, invece, emerge che la distanza media tra i nodi (Average Path Lehgth) per theta pari 0.9 è la maggiore. In questo caso la distanza tra due imprese è massima portando a connessioni deboli tra di esse e poche similarità. Ne emergono quindi 8 gruppi come visto in precedenza.
Per il livello di correlazione 0.5 è invece maggiore la densità, misura indicante le connessioni attuali e potenziali tra i nodi, ossia il livello di coesione della rete. Ciò indica in questo caso sia competitività sia complementarietà tra le imprese in termini di efficienza operazionale, poiché vi sono collegamenti che non hanno un’alta distanza media tra i nodi. Tutte le imprese sono ben collegate e ognuna ha grande rilevanza nel network avendo una centralità degli autovettori maggiore rispetto agli altri casi.
Quando la correlazione è negativa, per esempio, la competitività comporta che la riduzione delle vendite in una società a default diviene un fattore riducente del rischio di credito di una compagnia attiva. Un’altra misura da considerare è la centralità degli autovettori (Eigenvector centrality) che indica la misura di influenza di un nodo nel network. In questo caso le aziende sono molto centrali e più connesse rispetto ai casi con correlazione agli estremi. Se una compagnia attiva è positivamente correlata a una in default, una riduzione delle vendite in quest’ultima, può portare a una riduzione anche per quella sana, aumentando così il rischio di credito. Quando invece la correlazione è negativa, la competitività rende la diminuzione nelle vendite per l’azienda in default un fattore di riduzione del rischio per quelle sane.
Conclusioni
L’analisi implementata mirava a valutare se l’utilizzo di tecnologie basate su logiche di big data analytics può essere utile per una migliore gestione e previsione del rischio di credito. Il modello utilizzato è basato sullo studio di variabili finanziarie a livello di network di impresa; si è dimostrato come l’analisi di raggruppamento, che fa emergere le similitudini e i collegamenti tra gruppi di imprese, può aiutare a individuare e a prevedere il rischio,
In definitiva ne emerge che l’accuratezza predittiva di un modello di scoring può essere migliorata usando informazioni sulle imprese debitrici o richiedenti credito, una volta che esse sono catalogate all’interno di network. In particolare diviene fondamentale comprendere se le aziende stanno competendo o sono complementari sullo stesso mercato; ciò permette infatti di prevedere se, a seconda di una correlazione positiva o negativa, un incremento del fatturato per una azienda si traduca in un decremento/incremento per le altre dello stesso raggruppamento.
La valutazione del rischio di credito sulle piattaforme di P2P lending, che si basa appunto sull’utilizzo di reti neurali, è stata studiata in maniera approfondita durante gli ultimi anni e continua ad essere un interessante argomento di ricerca.
Il presente articolo è tratto dalla tesi di laurea di Alessandra Vidali dal titolo Peer to peer credit risk models, Università di Pavia, Relatore prof. Paolo Giudici
Reference shelf
- Hadji-Misheva B. Giudici P. “P2P Lending Scoring Models: Do they Predict Default?” In: Journal of Digital Banking. 2 (4), pp. 1-16 (2017).
- Jirasakuldech B. Lu M. Emekter R. Tu Y. “Evaluating credit risk and loan performance in online Peer-to-Peer (P2P) lending”. In: Applied Economics, Vol. 47:1, pp.54-70 (2015).
- Sarlin P. Giudici P. and Spelta A. The multivariate nature of systemic risk: direct and common exposures. Tech. rep. University of Pavia, Department of Economics and Management, 2016.
- Spelta A. Avdjiev S. Giudici P. “Measuring Contagion Risk in International Banking”. In: Journal of Financial Stability (2018)