L'intervento mostra alcune delle potenzialità applicative del metodo statistico a supporto dell'ambito giuridico. Si introducono alcuni intendimenti del metodo statistico e si propongono casi di utilizzo in situazioni processuali.
The paper shows some of the potential applications of the statistical method to support the legal field. Some intentions of the statistical method are introduced and use cases in court situations are proposed.
1. Premessa - 2. Dall’esame dei dati all’ideazione di modelli - 3. Eventi incerti e loro gestione attraverso modelli probabilistici - 4. Alcune categorie di modelli con spunti di utilizzo in ambiente giuridico - 4.1. La regressione - 4.2. I test campionari - 4.3. L’analisi delle serie di tempo - 5. Conclusioni - Bibliografia
La Statistica ha ancora nel nome il termine Stato, che denota un’origine storica volta alla raccolta, analisi e interpretazione di moltitudini di dati, quelle appunto di utilità per la gestione delle cose dello Stato. Sebbene rimangano effetti concreti di questa origine, ad esempio nell’organizzazione e nelle attività degli Istituti Centrali di Statistica (per l’Italia l’ISTAT), con il tempo la Statistica si è evoluta come disciplina che studia il metodo per elaborare i dati, per trattarli in modo che possano recarci informazioni utili (Bollani, Bottacin, 2017). Quindi se sul piano metodologico si sviluppano modelli per l’utilizzo di diverse varietà di dati, sul piano delle scienze umane la statistica trova ambiente di sviluppo in ogni campo in cui vi siano dati. E i dati sono ovunque, sono nel nostro presente, nella nostra storia, sono tracce dei nostri comportamenti e delle nostre azioni (Maragoni, 2023). È stato così naturale che alcune discipline, a partire da quelle scientifiche, abbiano fatto proprie vaste aree di metodi statistici integrandoli nel sapere della disciplina specifica: ne è un esempio evidentissimo la fisica, per cui il metodo statistico ad essa indirizzabile è divenuto da lungo tempo parte integrante della disciplina (Landau, Lifshitz, 1959). Più recentemente si sono diffusi metodi statistici all’interno delle discipline umanistiche o per l’analisi di testi che, per loro natura, possono essere analizzati con una codifica più complessa rispetto ai numeri (Benzécri, 1981; Lebart, Salem, 1994); in questo ha molto contribuito l’interesse per lo sviluppo dei contenuti testuali sulla rete internet che ha coinvolto varie discipline, dal machine learning al marketing p. es. nella sentiment analysis; esse hanno necessariamente incorporato adeguata strumentazione statistica (Bollani, Bottacin, 2020). Rispetto ad altri ambienti scientifici più tradizionali come la fisica, la statistica supporta in modo meno rilevante le discipline giuridiche, anche se la sua presenza è testimoniata da numerosi manuali orientati all’uso della Statistica nel dibattito processuale (Aitken, Taroni, Bozza, 2020). Nel percorso che segue saranno introdotti alcuni aspetti generali volti a far intuire i primi intendimenti del metodo statistico (paragrafi 2 e 3) e successivamente si farà cenno a possibili sviluppi con [continua ..]
Un intendimento importante del metodo statistico è di trarre le informazioni utili da un esame dei dati disponibili per giungere a considerazioni interpretative che possano venire organizzate attraverso un schema strutturato che si chiama modello. Il modello riprende le caratteristiche dei dati in forma sintetica, tralasciando gli aspetti di dettaglio non rilevante e proponendosi di generalizzare la rappresentazione del fenomeno osservato, rendendola utile per descrivere potenziali rilevazioni condotte in condizioni simili. Se si prende l’esempio di figura 1 (tratto da Leti, 1989) che mostra la distribuzione delle stature di un gruppo di studentesse americane, ordinate per statura crescente da sinistra a destra con la convenzione di mettere in fila verticale le studentesse con la medesima statura (in pollici, arrotondata per numeri interi), si nota come la disposizione dei soggetti segua una sagoma a forma di campana – che si riscontra in numerosi fenomeni – ed è riconoscibile nel grafico, cosiddetto istogramma, riportato a destra della fotografia; esso ha la medesima forma della fotografia, ma è naturalmente più consueto nelle rappresentazioni tecniche. Figura 1. – Distribuzione per statura di un gruppo di studentesse americane Se l’istogramma rappresenta la situazione dei dati di statura rilevata, la sua forma approssimativamente campanulare, dovuta a una maggiore presenza di soggetti con statura analoga vicini al centro della distribuzione (tra 160 e 165 cm) e ad una tendenza ad una frequenza progressivamente minore mano a mano che ci si allontana dal centro, in modo simile dalla parte di destra o da quella di sinistra, porta a considerazioni di carattere modellistico. Un modello di forma campanulare assai noto e utilizzato è dovuto a Gauss ed è noto come distribuzione normale o appunto gaussiana. Con questo modello, o famiglia di modelli, è possibile descrivere e rappresentare diverse situazioni di fenomeni a forma campanulare, impostando di volta in volta un valore medio e una distanza media dei dati dal centro (specificatamente scarto quadratico medio o deviazione standard) appropriati. Il processo di costruzione di un modello molto semplice per la descrizione modellistica delle stature in discorso è rappresentato in figura 2. Figura 2. – Individuazione di un modello normale a partire da un istogramma di forma appropriata Per la lettura delle fasi [continua ..]
L’evento è, per sua natura, accadimento di esito incerto, salvo situazioni limite di evento impossibile o sempre verificato. Ad esso si assegna la probabilità di verificarsi, in un intervallo [0;1] con gli estremi corrispondenti ordinatamente alle due situazioni limite sopra esposte; valori interni all’intervallo quantificano invece il grado di incertezza dell’evento. Un video introduttivo realizzato dal Physical Science Study Committee nel 1961 presentava uno scenario per allora agli albori e che poteva apparire sconcertante. Figura 5. – Frammenti del video “Gli eventi casuali sono eventi che si verificano senza ordine – cioè, in modo imprevedibile – e tuttavia l’effetto complessivo di un numero molto elevato di tali eventi può essere molto prevedibile”. Il video tratta diversi esempi, tra cui quello di una pallina lasciata cadere in un percorso randomizzato attraverso la presenza di chiodini (parte centrale della figura); il percorso – guidato secondo urti casuali dai chiodini – conduce la pallina in un canale tra quelli illustrati e non si può prevedere in quale canale finisca. Nonostante questa imprevedibilità, la ripetizione dell’esperimento – che consiste nell’inserire altre palline – conduce, nel caso, alla sagoma riportata a destra della figura: ancora una volta di forma confrontabile con la distribuzione normale. Nonostante non si possa sapere in che binario finirà la pallina, si può però pensare ad una probabilità più alta che finisca in binari centrali e ad una probabilità decrescente che occupi posizioni via via più lontane dal centro. In effetti il modello normale, come del resto tutte le distribuzioni teoriche, è di solito espresso in termini di probabilità. Per circoscrivere la trattazione, si vuole in questa circostanza parlare quasi esclusivamente del modello normale; è tuttavia importante avvertire che esistono molti modelli teorici, adattabili a diverse situazioni, e naturalmente se ne possono ancora studiare di nuovi. Per dare un’idea dell’ampiezza di questo ambito di studi, in figura 6 si offre uno spaccato tratto da uno schema riportato in Kokoska, Nevison (1992), in cui si vedono le sole distribuzioni teoriche che hanno relazione formale con la distribuzione normale. Figura 6. – Relazioni di diverse [continua ..]
Tratteremo qui di alcuni metodi di analisi e modelli, più direttamente riferibili al contesto predittivo e di cui si darà qualche spunto di applicazione in ambito giuridico.
Un primo caso è quello della regressione lineare, vista come adattamento di un modello lineare quando vi sia una variabile che dipende da altre: si parla di variabile indipendente e variabili dipendenti. Nel commento alle figure 3 e 4 si è già visto come fosse possibile interpretare una dipendenza lineare del peso dalla statura dei soggetti esaminati. In quel caso vi era una variabile dipendente – il peso – e una indipendente – la statura. Si possono considerare, per estensione, situazioni con più variabili indipendenti: se si pensa ad esempio a tre variabili, di cui due indipendenti, lo schema si complica un po’ perché serve una dimensione in più rispetto al caso già visto, addivenendo ad uno spazio tridimensionale come in figura 9. Figura 9. – Adattamento lineare in uno spazio a tre dimensioni Si tratta in sostanza di far passare un piano (e non più una retta) in uno spazio a tre dimensioni, dove la variabile dipendente è qui rappresentata in verticale (gli individui nello spazio potrebbero essere rappresentati dai nodi della rete). La variabile dipendente Y dipende in questo modello dalle due variabili indipendenti X1 e X2; naturalmente sarebbe possibile estendere ulteriormente il modello, pensando a più di due variabili indipendenti (lo spazio risulterebbe non più tridimensionale, ma multidimensionale e non più rappresentabile utilizzando, come qui, la sola prospettiva). Il termine noto è indicato in figura con β0, mentre i coefficienti delle due variabili indipendenti sono indicati con β1 e β2. Si riprende l’utilizzo di questo metodo in un caso riportato da Weisburd et al. (2021). Lo studio si basa su una survey nazionale di police officers (numerosità campionaria: 923) organizzata dalla Police Foundation (Weisburd, 2001). Gli autori hanno utilizzato una regressione lineare multipla per prevedere il numero di ore settimanali lavorate dai police officers in base ad anzianità di servizio, livello di istruzione e genere (per esprimere numericamente il genere, è stata utilizzata una variabile dummy: 1 = femmina; 0 altrimenti). La bontà della previsione è risultata molto bassa (adjusted R squared: 0,017), ma i contributi (coefficienti β) delle tre variabili si sono mostrati significativi, anche se ovviamente molto moderati. Una grande numerosità campionaria ha [continua ..]
Si riprendono qui i cenni fatti al campionamento statistico per considerare l’uso di test che permettano di asserire se un risultato ottenuto su un campione, p. es. la media per una variabile, sia compatibile con una situazione di universo nota, p. es. la media della popolazione per la medesima variabile. Oppure si può presentare il caso del confronto p. es. tra le medie (per la stessa variabile) di due campioni diversi, per verificare se la loro differenza sia compatibile con il fatto che i due campioni provengano dalla stessa popolazione. Naturalmente, perché la verifica sia soggetta a rischio controllato (normalmente inferiore al 5%), occorre controllare la randomizzazione campionaria. Come caso pratico (tratto da Frosini, 2016), si riporta una situazione in cui è stato utile confrontare una percentuale campionaria con quella nota di una popolazione, per vedere se vi fosse compatibilità tra le due, cioè se si potesse ritenere che il campione fosse stato verosimilmente estratto da quella popolazione e non da una differente. In particolare, si riprende la sostanza di interesse statistico del caso discusso nella causa Hazelwood School District v. United States, in cui si doveva stabilire se ci fosse differenza sostanziale tra la proporzione di insegnanti neri impiegati nello Hazelwood School District e la proporzione di insegnanti neri nel mercato del lavoro di riferimento. A fronte di una percentuale di insegnanti neri nella popolazione di riferimento dell’ordine del 6%, si suppone di paragonare tale percentuale con quella riscontrata nelle assunzioni avvenute nel Distretto scolastico in un periodo di controllo (sufficientemente ampio da consentire una valutazione credibile per numero di assunzioni avvenute: nel caso, si fa riferimento ad un campione di 400 soggetti assunti dal Distretto scolastico). In presenza di dati così raccolti, è possibile calcolare una percentuale di soglia, più bassa del 6%, ma ancora credibile come proporzione di neri riscontrata su un campione di 400 soggetti qualsiasi, estratti a sorteggio dalla popolazione. È infatti naturale che campioni diversi presentino percentuali che si discostino tra loro e quindi anche rispetto a quella della popolazione, pur in modo non significativo. Al contrario, una percentuale di neri assunti più bassa della soglia calcolata, che si discosti quindi significativamente dalla percentuale relativa all’intera [continua ..]
Come ultima situazione che si considera in questa rapida rassegna, vi è l’analisi delle serie di tempo, con particolare riferimento agli aspetti previsivi (eventualmente anche retrogradi). In figura 11, si riprende l’andamento di una serie di tempo, decomposta con metodo X11 (Hyndman, Athanasopoulos, 2018). Figura 11. – Electrical equipment manufacturing (Euro area; decomposition X11) Prescindendo dal metodo di decomposizione, si vede nella parte di sinistra della figura come la serie di tempo esaminata (Data) risulti interpretabile con un movimento di tendenza più liscio (Trend), un movimento più dinamico dove si tiene anche conto della stagionalità infrannuale (Seasonally Adjusted); rimane una componente residuale ancora più variabile. Di questi movimenti, se si accettano le ipotesi di studio incorporate nel metodo di decomposizione, la sola componente imprevedibile è il movimento residuo. Gli stessi movimenti sono anche riportati singolarmente nella parte di destra della figura, in cui si nota meglio il comportamento di ogni movimento. Di grande interesse è l’andamento del movimento residuo, che, se si potesse ritenere distribuito normalmente (con media e deviazione standard note, come illustrato qualitativamente – in aggiunta alla figura – in basso a destra), consentirebbe di dimensionare un intervallo di incertezza opportuno nella stima del valore successivo a quelli raccolti (e, in generale, sarebbe utilizzabile per la valutazione dell’incertezza in previsioni di breve termine). Come caso pratico per l’utilizzo di metodi di analisi di serie di tempo, riporto alcuni tratti salienti della discussione statistica ispirata ad un caso che ho realmente seguito negli anni 80, inerente i ricavi di una casa da gioco. Il tema riguardava la mancata contabilizzazione di ricavi da gioco, con conseguente evasione fiscale. In figura 12 si riporta a sinistra l’andamento crescente dei ricavi in un primo periodo di attività, per cui erano disponibili i cosiddetti bordereaux (documenti di rendicontazione contabile); durante detto periodo si erano parallelamente individuate, con ispezioni a sorpresa, sottrazioni di gettoni di gioco e ciò aveva, nei mesi successivi, portato ad una amministrazione controllata. Nei primi mesi di tale amministrazione – coincidenti con la parte finale del primo grafico a sinistra – si erano [continua ..]
Si ritiene che la Statistica, soprattutto nella sua capacità predittiva, possa essere di supporto in ambito giuridico in diverse situazioni. Tuttavia si considera che l’argomentazione processuale esprima aspetti solo in parte codificabili in modelli, o in generale in forma quantitativa: è dunque indispensabile il ragionare umano competente, nella sua interezza, per dare un significato e un’interpretazione ai fatti di interesse giuridico. Resta tuttavia da considerare che, intuita la direzione, non sia a volte facile per un esperto giurista (e per chiunque) orientarsi sul quantum e serva in questo senso un supporto, appunto quantitativo. Nella breve rassegna presentata, si esprimono ad esempio: a) la difficoltà a quantificare, senza supporto statistico, il contributo congiunto di un insieme di variabili verso un’altra utilizzata come obiettivo (caso delle ore di lavoro dei police officers influenzate da alcune caratteristiche dei soggetti coinvolti); b) la difficoltà a verificare la significatività di una differenza tra gruppi di soggetti ad esempio per una potenziale discriminazione (caso della percentuale di neri assunti in un Distretto scolastico); c) la difficoltà ad individuare, senza supporto statistico, i dati anomali presenti ad esempio in un fenomeno soggetto a sviluppo temporale (caso dell’andamento dei ricavi di una casa da gioco e dell’individuazione di dati contabili poco credibili). Naturalmente la panoramica è molto ristretta rispetto alla varietà delle situazioni che si possono presentare, ma pare da questa prima disamina, che il giudice o l’esperto di problemi giuridici possa fare fatica ad interfacciarsi con un esecutore acritico o persino con una macchina: per poter decidere con libertà ha bisogno di comprendere le ipotesi che orientano la modellistica che gli viene proposta per adattarsi di volta in volta allo specifico caso. Serve un interlocutore tecnico con cui instaurare un rapporto di dialogo e di fiducia per poter arricchire un giudizio, nella tranquillità di non infrangerne le condizioni di partenza.