LA QUALITÀ DEI DATI AMMINISTRATIVI PER LA STATISTICA
Valorizzare a fini statistici le informazioni raccolte per scopi amministrativi dagli enti che svolgono funzioni di pubblica utilità è da sempre un obiettivo perseguito dalle organizzazioni responsabili della produzione delle statistiche ufficiali. Questo obiettivo oggi è diventato di rilievo ancora più strategico a causa della crescente richiesta di informazioni tempestive connessa alla rapidità dei cambiamenti registrati nell'economia e nella società, a fronte della necessità di contenere i costi della raccolta dei dati.
In questo contesto l'Istat è chiamato ad assumere compiti di regolazione e supporto metodologico e strumentale finalizzati a garantire l'usabilità statistica di un insieme sempre più esteso di dati amministrativi (DA) da parte degli enti del Sistan.
Sia il Codice delle statistiche europee per le autorità statistiche nazionali ed Eurostat che il Codice italiano per la qualità delle statistiche ufficiali richiamano i concetti principali relativi al rafforzamento dell’uso dei DA: la possibilità di accedere alle fonti di DA; la protezione dei dati personali in esse contenuti; la necessità di collaborare con i titolari per aumentarne l’usabilità statistica; la riduzione del disturbo statistico e il contenimento dei costi attraverso il ricorso ai DA; la valutazione della qualità dei DA.
In Italia, in questi ultimi anni, l’utilizzo dei DA per la produzione di statistiche ufficiali si è andato sempre più consolidando. Per avere un quadro complessivo delle fonti di dati utilizzate, i processi statistici elencati nel Programma statistico nazionale (Psn) sono stati classificati in base alla tipologia dell’input: processi che utilizzano solo dati di indagine e non DA; processi che utilizzano dati di Indagine e DA; processi che utilizzano solo DA e non dati di indagine; processi il cui input è costituito solo da dati statistici definiti come output di altri processi statistici. Il Psn comprende più di 800 progetti ogni anno, di cui circa il 60% a titolarità dell’Istat. Analizzando i processi statistici del Sistan per tipo di raccolta dati (Psn 2020-2022 aggiornamento 2022, esclusi gli studi di fattibilità), risulta che il 57,2% dei processi utilizza DA e, di questi, il 42,4% non ricorre alla raccolta di dati da indagine. Sia per l’Istat che per gli altri Enti del Sistan, quindi, la modalità di uso dei DA senza ricorrere alle indagini è la modalità prevalente.
I DA si possono utilizzare in varie fasi del processo di produzione: direttamente per la produzione delle statistiche, dopo un processo di trattamento, per definire la lista della popolazione da cui derivare il campione, nei processi di stima, per il trattamento delle mancate risposte, per la validazione finale dei dati. Indipendentemente dal modo in cui i DA vengono utilizzati, la valutazione della loro qualità in termini di input del processo è un'informazione fondamentale da esplicitare.
Si intende per qualità o usabilità statistica dei DA l’insieme delle caratteristiche necessarie affinché i dati di input possano soddisfare la produzione di un output statistico di qualità in base agli standard di riferimento.
In generale, minore è la qualità dei dati di input e maggiore è lo sforzo per ricondurre i dati di output ai livelli di qualità accettabili per gli standard della statistica ufficiale.
Occorre sottolineare che la qualità statistica del dato amministrativo può essere diversa dalla qualità del dato amministrativo in sé: un dato amministrativo può essere di ottima qualità rispetto alle finalità per cui è stato prodotto senza tuttavia essere necessariamente dotato di un’elevata usabilità statistica. È il caso di dati che, pur rispondendo a specifiche finalità amministrative, si riferiscono a una popolazione target amministrativa che non coincide con la popolazione target statistica. Discrepanze analoghe si verificano con l’adozione di concetti e classificazioni dei dati amministrativi che sono diversi da quelli statistici, per cui è necessario operare delle trasformazioni.
Il monitoraggio della qualità dei dati utilizzati come input dei processi è anche un concetto fondamentale perché i DA dipendono da adempimenti amministrativi o finalità gestionali che possono mutare nel tempo: sarebbe utile per gli Uffici di statistica che utilizzano DA dotarsi di strumenti per la valutazione della loro qualità, al fine di garantire la continuità della produzione statistica .
Se è ben consolidato quali siano i principi che determinano la qualità del prodotto statistico come output del processo di produzione (principi presenti nei Codici citati: Principio 11 – Pertinenza, Principio 12 - Accuratezza e attendibilità, Principio 13 - Tempestività e puntualità, Principio 14 - Coerenza e comparabilità, Principio 15 - Accessibilità e chiarezza), occorre individuare i molteplici aspetti connessi alla qualità dei DA utilizzati come input dei processi.
A tale scopo, l’Istat ha adottato un framework della qualità che prevede un approccio gerarchico multidimensionale, tale da permettere una classificazione delle informazioni flessibile e chiara. Esso comprende tre iperdimensioni della qualità, denominate “Fonte”, “Metadati” e “Dati”, all'interno delle quali sono rappresentate le corrispondenti dimensioni della qualità. A loro volta le dimensioni sono descritte da indicatori applicati con specifici metodi di misura adattabili ai diversi contesti. Il framework Istat è basato sull’idea originariamente definita da Statistics Netherlands e poi sviluppata nell’ambito del progetto internazionale Blue Ets, le misure della qualità sono state successivamente adattate in base al contesto dell’Istat (Daas et al., 2009; Daas et al., 2011; Cerroni et al., 2014). Per valutare la qualità statistica dei DA acquisiti dalle fonti esterne ed utilizzati nella produzione delle statistiche, l’Istituto ha costruito un sistema di documentazione denominato Quality Report Card dei dati Amministrativi (QRCA), basata su tale framework. La QRCA è illustrata nell’ebook dell’Istat Il sistema di documentazione dei dati amministrativi in Istat, che comprende una descrizione dettagliata degli indicatori e alcuni esempi dei report prodotti.
Per fornire qui ulteriori elementi utili alla valutazione dei DA, è utile condividere un glossario dei termini di base adottati. Entrando nel dettaglio, l’iperdimensione “Fonte” riporta le informazioni della fonte dei DA e le caratteristiche dell’archivio derivato dalla fonte. Le dimensioni della qualità comprendono: le informazioni di base; la rilevanza e gli usi statistici (ad esempio nella QRCA l’indicatore di rilevanza comprende il numero e l’elenco dei lavori Istat del Psn che prevedono l’uso dei dati di quella specifica fonte); le questioni connesse alle norme di accesso ai dati nel rispetto della normativa sul trattamento dei dati personali; la descrizione degli accordi che regolano gli scambi dei dati con il titolare della fonte, nel caso di fonte esterna, o con l’ufficio che gestisce la fonte.
L’iperdimensione “Metadati”, declinata per le unità e per gli oggetti (eventi, variabili) nella dimensione della chiarezza/interpretabilità contiene la descrizione del contenuto informativo dell’archivio: la tipologia degli oggetti (se individui o unità economiche e ulteriori caratterizzazioni) e l’elenco delle variabili con le corrispondenti classificazioni amministrative disponibili per le variabili categoriche.
La dimensione della comparabilità concettuale può comprendere informazioni utili al confronto tra i concetti amministrativi e i concetti statistici con lo scopo di misurarne la distanza, mentre la dimensione della stabilità temporale dei concetti amministrativi considera la necessità di documentare i cambiamenti che possono modificare l’usabilità statistica dei dati a causa di variazioni normative o gestionali o variazioni strutturali dei dati della Fonte.
L’ultima dimensione della qualità nell’ambito dell’iperdimensione “Metadati” concerne i possibili trattamenti dei dati effettuati all’origine: in questo caso è bene acquisire tutte le informazioni disponibili al fine di poter correttamente utilizzare i dati per i fini statistici e documentarne la qualità.
L’iperdimensione dei “Dati” comprende la valutazione stessa dei dati acquisiti. La prima dimensione è relativa al monitoraggio del processo di acquisizione dei dati mentre nella dimensione degli aspetti temporali sono presenti gli indicatori di puntualità ovvero il rispetto delle scadenze nella consegna dei dati da parte del fornitore e di tempestività ovvero la distanza fra la data di arrivo della fornitura presso l’ufficio statistico e l'ultima data degli eventi registrati nel dataset.
La terza dimensione riguarda la fase dei cosiddetti Technical Checks o controlli tecnici: essi hanno lo scopo di verificare la conformità dei dati ricevuti, rispetto ai dati attesi in seguito alla richiesta; l’esito di tali controlli è una prima forma di validazione della fornitura dei dati; in caso si riscontrino dei problemi si procede, il più celermente possibile, a ricontattare il fornitore per chiedere informazioni o, quando necessario, per rinviare i dati.
È molto importante che un archivio sia integrabile con altri dataset e questo è possibile laddove ci siano delle variabili di linkage sufficientemente estese e di buona qualità. Nella dimensione integrabilità/integrazione vengono considerate alcune misure relative alle potenzialità di integrazione che documentano la presenza e la qualità delle variabili di linkage utilizzate. Indicatori di qualità del record linkage possono essere considerati in questa dimensione.
L’accuratezza ha l’obiettivo di misurare l’inconsistenza dei dati per le unità, per le relazioni, per le variabili e per le loro combinazioni.
Nella dimensione della completezza dei dati si misurano due aspetti: rispetto alle unità sono previsti indicatori di copertura della popolazione statistica target; rispetto alle variabili la percentuale dei valori mancanti.
Per ulteriori spunti per la valutazione e la documentazione dei DA utilizzati per produrre le statistiche, si rimanda alla pubblicazione Il sistema di documentazione dei dati amministrativi in Istat.
Il sistema di documentazione della qualità dei dati amministrativi, costantemente aggiornato, costituisce un utile strumento di lavoro per standardizzare i processi, potenziarne l’efficienza e migliorare la qualità dei dati prodotti.