SCUOLA/ Esame di Stato, tutti i danni delle griglie di valutazione

Et voilà: tolto il bastone della scomoda prova Invalsi come requisito di accesso all’esame e introdotta la carotina delle griglie di valutazione comuni per le prove. Così, ha assicurato il ministro Bussetti, “Garantiremo maggiore equità e più omogeneità nelle correzioni”.

Inutile richiamare (ma lo facciamo ugualmente) il problema che sta dietro a tutta questa vicenda, ossia quello dell’evidente e vergognosa differenziazione cui assistiamo ogni anno – e su cui con grave responsabilità chi dovrebbe intervenire continua a non intervenire – dei punteggi di diploma assegnati all’interno e tra le diverse aree del Paese. Con tutto ciò che ne consegue, in termini di penalizzazione dei più meritevoli.

SCUOLA/ Se è “una fabbrica di ignoranti” (Censis), si cominci da governance e sindacati

Proviamo allora ad analizzare questa grande novità. Cercando di semplificare il più possibile. Chiedendo comunque scusa in anticipo, perché un po’ di tecnicalità è inevitabile, se non vogliamo rimanere nel generico. Nel testo di accompagnamento del Miur (“Indicazioni metodologiche e operative”, Circolare n. 3050/2018), dopo la doverosa premessa che “costruire griglie di valutazione non è operazione semplice, anche perché la diversità dei contenuti delle tracce rende difficile la definizione di descrittori definiti a priori”, si ricorda che le griglie “sono composte da indicatori (parametri, elementi di valutazione) che a loro volta vengono declinati in descrittori delle prestazioni che identificano i livelli ai quali si assegna un risultato in termini numerici. Nei modelli usati più comunemente (griglia a punteggio ad intervallo o con punteggio massimo), a ciascun indicatore viene assegnano un intervallo di variazione o un massimo di punteggio”. Ed è a quest’ultima fattispecie che le griglie proposte dal Miur si rifanno.

SCUOLA/ Sara, lezione di libertà a una prof che non accetta domande

Chiariamo innanzitutto i termini. Che cosa si intende per indicatore? L’indicatore è un elemento osservabile che funge da segnale o che documenta la presenza o meno di ciò che viene indagato o accertato. Come ad es. il rialzo termico del corpo, che indica la presenza di uno stato di alterazione nell’equilibrio dell’organismo. In ambito valutativo, così come nell’ambito della ricerca scientifica, un buon indicatore deve possedere le caratteristiche della validità e dell’attendibilità, essere rappresentativo e permettere descrizioni quali-quantitative. Deve cioè essere sufficientemente specifico e determinato, ossia espresso attraverso descrittori non general-generici. In ogni caso – su questo il testo delle indicazioni ministeriali non è molto preciso – gli indicatori non vanno confusi con i parametri. Questi ultimi sono ciò che assumiamo come criterio o punto di riferimento per gli stessi indicatori e per la loro determinazione quantitativa in rapporto a specifici tipi di scale misurative.

SCUOLA/ Virgilio, Manzoni e il trucco delle "educazioni" che diseducano

Sempre nell’esempio di prima, in base a che cosa stabiliamo se c’è o meno uno stato febbrile? Parametrandoci ad un punto definito (36,6°) di una determinata scala (Celsius): se il punto è oltrepassato, ciò significa che siamo in presenza di uno stato febbrile ed essendo la scala ad intervalli, possiamo anche stabilirne il quantum. Semplice? Apparentemente, perché nel processo portato ad esempio sono implicate scelte discrezionali (quella relativa alla scala Celsius e non alla Farenheit, o alla Newton, Rømer, Réaumur, ecc.) e non è stata presa in considerazione una serie di variabili, come quelle concernenti le condizioni, il contesto o la modalità della rilevazione (ad es. se antecedentemente è stato fatto un bagno caldo o un esercizio fisico; se la misurazione è avvenuta per via orale, rettale, nella cavità dell’orecchio o sotto la lingua; quindi l’età del soggetto, lo stato complessivo del suo organismo, ecc.), aspetti che comportano una diversa lettura, se non lo spostamento stesso di ± 0,X del punto di riferimento dei 36,6°.

Ma facciamo un altro esempio, fuor di metafora. Ipotizziamo che l’indicatore (di risultato) di una prova professionale richiesta ad un alunno di un corso di Operatore edile sia una struttura muraria “diritta”. Bene. Subito ci troveremmo di fronte a due strade: o fermarsi a questa generica espressione descrittiva, oppure indicare le scale e i parametri precisi di riferimento in base ai quali riteniamo che il muro si possa considerare “diritto”. Quindi, in rapporto a tutto ciò operare le ulteriori scelte di attribuzione dei pesi in termini di punteggio e/o livello.

E’ evidente che la prima soluzione lascia il più ampio margine di discrezionalità valutativa: ci si potrebbe attenere al criterio per cui, ad es., un muro è diritto se non cade (per cui quindi anche la torre di Pisa sarebbe diritta!). Nella seconda i margini discrezionali si restringerebbero, ma non sparirebbero del tutto; ci si troverebbe infatti di fronte al seguente, decisivo ulteriore bivio: o assumere una scala – in questo caso a rapporti equivalenti – ed un punto di riferimento non arbitrario, bensì standardizzato e fissato a priori (una determinata percentuale di pendenza massima, riconosciuta dalla comunità professionale, indipendentemente dai risultati delle prestazioni degli allievi), oppure procedere retrospettivamente, fissando tale punto = soglia di accettabilità a posteriori, sulla base dei risultati documentati nella prova ed applicando una scala ad intervalli equivalenti. E non è finita qui: in questo secondo caso dovremmo operare ancora altre scelte, ossia: a) attenerci e scegliere tra i valori di tendenza centrale (optando o per la media, o per la mediana e la moda); b) spostare la soglia dove essa garantisce il maggior numero di punteggi positivi, scostandoci dai suddetti valori.

Questa estrema variabilità e catena (non esplicitata) delle scelte compiute in sede valutativa rappresenta la normalità nelle scuole e spiega l’enorme corrispettiva variabilità dei risultati non solo tra aree diverse del Paese, ma all’interno di uno stesso istituto. O in sede d’esame, dove una stessa commissione con due classi di diverso livello registra in quella con livello di preparazione inferiore punteggi superiori all’altra.

Consideriamo comunque che quanto asserito per la prova professionale vale nello stesso identico modo – e sottolineo: identico – per una prestazione di tipo culturale, ad es. di tipo comunicativo, che prevede come indicatore la “correttezza lessicale”. Quale parametro e quale soglia di accettabilità adottiamo per porre il limite e quindi i vari gradi/livelli della correttezza? Ossia per porre la sufficienza e determinare ciò che vi sta sopra e sotto? E’ infatti evidente che fermarsi alla semplice enucleazione di indicatori con descrittori ampi o generali – così come fanno giocoforza le griglie ministeriali – lascia il campo aperto alle più svariate, in alcuni casi anche opache soluzioni. Senza poi considerare anche gli altri aspetti di contesto, che hanno una forte incidenza nel determinare il “livello” dei risultati, ossia le condizioni di esercizio della prova, come numero e grado medio di difficoltà degli item o delle azioni da compiere, tempo a disposizione, istruzioni/informazioni date, ecc. E’ infatti evidente che un risultato ed il relativo punteggio ottenuti in condizioni più “difficili” possiedono un diverso peso rispetto a quelli ottenuti in situazioni agevolanti.

Morale del discorso: le griglie predisposte per le prove d’esame che contengono solo dei macro-indicatori con relativi macro-descrittori e punteggio massimo tutt’al più possono restringere la variabilità dovuta al sovra o sotto-dimensionamento complessivo degli stessi macro-indicatori (ad es. sovra- o sottostima della pertinenza lessicale rispetto ad altre variabili della competenza comunicativa), ma lasciano completamente intatta la variabilità della determinazione dei punteggi assegnati ai vari indicatori e, conseguentemente, dell’attendibilità e del valore del punteggio complessivo. Nulla restringono rispetto al fatto che il parametro di distribuzione dei punteggi sia quello che ogni insegnante ha nella propria testa o che sia determinato rispetto al target di studenti che effettua la prova. Con l’effetto – saggezza popolare non mente! – che “nel regno dei ciechi anche un orbo è re”: un ottimo voto (da re) in una classe di ciechi (di basso livello) può corrispondere, se va bene, ad una sufficienza stentata in un gruppo di studenti di alto livello. E pensare che in sede attestativa poi si dichiara – si tratta evidentemente di un falso – che i diplomi sono tutti posizionati allo stesso livello EQF (Quadro europeo delle qualificazioni)! E’ forse anche per questo motivo che si mantiene distinto l’attestato di diploma (e relativi voti) dalla certificazione delle competenze (e relativi livelli)?

La soluzione? Inserire, accanto a quelle predisposte dalle scuole, una parte di prova – con relativa griglia specifica di correzione – standardizzata. Ciò quale parametro univoco di confronto ed elemento di effettiva equità. Le griglie appena introdotte rischiano di essere l’ennesima coperta che, sotto una parvenza di omogeneità, finisce per legittimare la più svariata difformità di comportamenti.