SCUOLA/ Nuovo Invalsi, così educazione e test possono andare insieme

L’attesa è finita: sarà Annamaria Ajello a guidare l’Istituto nazionale di valutazione. Alla domanda su quale sarà la sua linea, la professoressa Ajello ha detto di confidare nell’incontro tra l’approccio quantitativo e quello qualitativo. “Obiettivamente non si può scegliere una posizione, bisogna vederle entrambe. L’Invalsi ha fatto una grande fatica per affermarsi e superare le diffidenze, ora dobbiamo mettere insieme dati quantitativi e qualitativi per consolidarlo” ha dichiarato la neopresidente a Corriere.it. Ajello ha anche affermato di ispirarsi a un frase di Piero Cipollone: “l’Invalsi deve fornire misurazioni, non valutazione. E deve fermarsi sempre sulla soglia delle scuole“. Ci sarà tempo per capire più in dettaglio quale direzione prenderanno ora le politiche valutative. Ciò nonostante, gli elementi di criticità sono ben noti, come sanno i lettori di queste pagine (prendo le mosse, a titolo di esempio, da due articoli recenti: quello di Carlo Scognamiglio e quello di Sharon Mollerus).

SCUOLA/ Indagine Iea Icils 2023 sulle competenze informatiche, i rischi della debolezza italiana

A. La valutazione può diventare strumento di selettività “arbitraria” e classista che tende a perpetuare le differenze sociali;

B. contribuisce ad alimentare l’individualismo imperante, e può entrare in conflitto con le finalità di socializzazione ed altruismo, obiettivi importanti per la scuola al pari della trasmissione di conoscenze e creazione di competenze;

SCUOLA/ Equità ed eccellenza, prove Invalsi, Pisa, IA: le molte sfide aperte di Italia e Ue

C. è strumento che rischia di destabilizzare le famiglie, spesso più i genitori che gli allievi, mettendoli in conflitto con la scuola;

D. deve essere impiegato con estrema cautela per venire incontro alle (sempre più riconosciute) difficoltà e problematiche specifiche di ciascun studente, di cui è giusto che il sistema scuola si faccia carico;

E. nella sua forma “standardizzata” stimola il “teaching (ed il learning) to the test” ed il “cheating”, sia da parte dei docenti che degli studenti;

F. sempre nella sua forma “standardizzata” recenti prese di posizione da parte del mondo della psicometria (cfr. Günter Trendler) evidenziano che i fenomeni di cui questa si occupa (tra cui le conoscenze disciplinari) non potrebbero essere suscettibili di misurazione oggettiva.

SCUOLA/ Classifica Ocse-Pisa del “pensiero creativo”, perché nemmeno qui l’Italia (22%) eccelle?

A fronte di tutti questi evidenti elementi negativi, resterebbero solo alcuni aspetti positivi, ovvero:

I. è un mezzo sintetico, ma efficace, per comunicare allo studente le sue performance, evidenziare i suoi punti deboli e stimolarlo a migliorare;

Ii. è lo strumento che, purtroppo, nel bene o nel male (e non ci sarà modo di cambiare questo stato di cose), è utilizzato dalle migliori università straniere (verso le quali si sta volgendo un crescente numero di ragazzi italiani) per selezionare all’accesso gli studenti più bravi, indipendentemente dal loro stato economico e sociale;

Iii. una volta che Caio, con valutazioni elevate sia diventato anche uno dei migliori medici usciti da una prestigiosa università straniera, potrà − facendo tesoro del bagaglio di altruismo e socializzazione che gli sia stato trasmesso dal “liceo o istituto X” − fare un bello sconto al suo sfortunato compagno Tizio, che, per carenze nella sua preparazione di base in matematica, scienze e lingua, non sia riuscito a riconvertirsi in maniera adeguata ed abbia perso il lavoro; tale sconto avrà senz’altro più valore di quello che sarebbe disposto a fargli un altro compagno di classe, Sempronio, anche lui medico, un po’ carente in matematica ai tempi del liceo, ma con il padre ben piazzato, che è riuscito a fargli prendere la laurea in medicina, per il rotto della cuffia, in qualche sperduto ateneo del bel paese (o di paesi limitrofi altrettanto corrotti).

A fronte di tutto ciò la domanda è se, veramente, le soluzioni siano solo due, come evidenzia Carlo Scognamiglio:

1. percorsi individuali personalizzati, in cui la valutazione verrebbe di fatto a perdere di importanza e in cui l’aspetto dell’insegnamento disciplinare e la rilevanza delle discipline stesse vengono a perdere la loro centralità (in quanto la centralità sarebbe l’individuo), mentre la cura psico-pedagogica assume tutta la sua magnificenza;

2. il 6 politico, attraverso il quale mettere al riparo gli insegnanti da tutti i problemi connessi alla valutazione (specie genitori infuriati), così da potersi dedicare all’insegnamento delle tanto amate discipline in cui si sono specializzati, e contribuire efficacemente, quantomeno, alla formazione di Caio.

Dunque… tertium non datur? Non c’è proprio possibilità di portare Tizio ad un livello adeguato nelle discipline di base, per potersi riconvertire con facilità e trovare un altro lavoro? Non è proprio possibile, attraverso la valutazione, evitare che Sempronio, con la sua laurea che è solo un pezzo di carta senza valore, contribuisca a gettare fosche ombre sul sistema sanitario nazionale?

Sinceramente crediamo che una terza via ci sia. Ed è proprio incentrata sulla valorizzazione della valutazione nel suo aspetto formativo, ma al tempo stesso oggettivo.

La legislazione statunitense è tutta impostata su queste misure e sul loro impiego per evitare che i giovani vengano lasciati indietro: il centro dell’attenzione è qui portato sul controllo, nel tempo, della regolarità della crescita delle loro abilità, conoscenze e competenze, nelle discipline di base.

Un esempio di estremo interesse applicativo, e con valenza del tutto generale, è quello della Nwea, organizzazione che è riuscita a creare una rete di scuole in cui, a cadenza trimestrale, vengono monitorati i livelli raggiunti da ogni studente in lingua, matematica e scienze, per poi attivare azioni di recupero nei confronti di quelli che siano “significativamente” in ritardo di sviluppo. Ottemperando così allo spirito della legge “No Child Left Behind” (appunto).

La misura che si usa per un’attività così delicata deve essere pertanto di “ottima” qualità.

Ma cosa si intende per “misura di ottima qualità”? Personalmente, richiamo da anni l’attenzione sul fatto che tali misure si debbano basare unicamente sul modello di Rasch (dicotomico o multifacet: in questa versione vi è posto anche per i giudizi dei correttori, e quindi per l’impiego di prove che vanno oltre i vituperati test a risposta multipla).

Le ragioni sono pratiche e teoriche. Quelle pratiche sono legate agli interessanti risultati empirici che una corretta implementazione di queste misure ci può dare.

Ma le ragioni teoriche sono più forti, anche se non facilmente evidenti: la misura deve soddisfare requisiti “profondi”; raccomandazioni come quelle di Stevens (“misurare significa assegnare numerali agli oggetti secondo determinate ipotesi”, 1951), Galtung (“data una variabile, misurare significa stabilire una corrispondenza tra i valori della variabile ed un insieme di numeri” (sic!!!), 1967), Blalock (“la misurazione è un processo generale attraverso il quale si assegnano numeri ad oggetti… [cioè Stevens]… in modo che si comprenda il tipo di operazione matematica che viene impiegato”, 1982) appaiono troppo generiche e carenti.

Il lettore può approfondire le ragioni dell’esigenza di utilizzare, oltre ad un modello matematico comprensibile (come suggerisce Blalock) “solo e soltanto” un certo tipo di modello, ovvero quello di Rasch.

Il modello di Rasch è l’unico modello matematico ad ammettere statistiche sufficienti (oggetti che hanno forti applicazioni nella meccanica quantistica e nella statistica matematica, anche se, a parere di Rasch, “gli statistici non avrebbero compreso la portata e l’importanza di tali oggetti”).

Questa caratteristica (la Sufficienza) è l’unica in grado di garantire l’oggettività specifica: la regola d’oro che si deve seguire nella ricerca di una misura se si vuole che questa possegga validità e generalità (Georg Rasch, On Specific Objectivity: An attempt at formalizing the request for generality and validity of scientific statements, 1977).

Questa posizione potrà sembrare forse un po’ dogmatica, sia ai fautori dell’approccio classico, che a quelli della scuola che propugna i modelli Irt (Item Response Theory), di cui quello di Rasch “sarebbe” un caso particolare… (e quindi non si vede perché usarlo quando ce ne sono di più sofisticati che si adattano meglio ai dati).

Non starò qui a spiegare a costoro le ragioni di questa scelta di campo: forse non hanno capito quali sono i fondamenti del modello di Rasch. A costoro, e soprattutto a coloro i quali, non fidandosi (giustamente) dell’approccio classico o della teoria Irt, vorrebbero buttarli a mare o relegarli ad un esercizio faticoso, ma necessario, vorrei suggerire che si potrebbe correre il rischio di buttare via il bambino (modello di Rasch) con l’acqua sporca (teoria classica e modelli Irt con “b” diverso da 1).

A questo riguardo, e concludo, vorrei portare un solo argomento di riflessione.

La famosa legge di Zipf ha individuato regolarità statistiche sorprendenti nella struttura della lingua scritta.

Come noto, “…in the Brown Corpus of American English text, the word ‘THE‘ is the most frequently occurring word, and by itself accounts for nearly 7% of all word occurrences (69,971 out of slightly over 1 million). True to Zipf’s Law, the second-place word “of” accounts for slightly over 3.5% of words (36,411 occurrences), followed by “and” (28,852)“.

In pratica la prima parola più frequente in un testo ricorre “esattamente” il doppio della seconda parola più frequente… e così via. È qui chiaro che un alieno che arrivasse sulla Terra capirebbe che la pagina di un libro… è la… “pagina di un libro” …(quindi l’espressione di un linguaggio e di una intelligenza superiore a quella della scimmia, che sparge le lettere su un foglio di carta a casaccio) perché i simboli usati al suo interno soddisfano la legge di Zipf.

Ora si può dimostrare anche che: “Empirically, a data set can be tested to see if Zipf’s law applies by running the regression log R = a – b log n where R is the rank of the datum, n is its value and a and b are constants. Zipf’s law applies when b = 1“.

Orbene, una condizione del genere, come ben sanno i colleghi statistici e psicometrici, imposta (mutatis mutandi ovviamente) ad un modello Irt, porta inevitabilmente al modello di Rasch! In sostanza, dunque, il modello di Rasch soddisferebbe le stesse condizioni formali, di tipo matematico, che vengono soddisfatte dalle lingue scritte, e in base alle quali un insieme di parole buttate su un foglio può essere definito “linguaggio” .

A parte l’ovvia curiosità che sorge: ma… “il linguaggio è una misura”? e viceversa, “la misura è un linguaggio”? (probabilmente fanno entrambe parte di un insieme più ampio di oggetti che ci contraddistingue come esseri pensanti, ma solo in parte scoperto e pienamente acquisito, visto che stiamo a discutere su cosa sia una misura)…

La morale della favola è la seguente: nessuno acquisterebbe il romanzo scritto da una scimmia! Allo stesso modo, è opportuno che le tasse degli italiani siano spese per produrre misure dei livelli di conoscenza che abbiano un solido fondamento teorico.

Una volta che ci si incammini su questa strada maestra le cose successive da fare sono abbastanza chiare.

1. Riesaminare attraverso il modello di Rasch tutte le banche dati docimologiche nazionali ed internazionali, ripulendole degli item che non soddisfano il modello (le indagini Timss non usano modelli di Rasch ma modelli Irt più generali; in particolare è stato valutato che nelle item banks statunitensi circa il 30% degli item non soddisfa il modello di Rasch).

2. Per ogni disciplina di base, effettuare il link tra tutti gli item in modo che si possano esprimere su un’unica scala i livelli di conoscenza rilevati in un qualsiasi momento tra 5 e 18 anni.

3. Stimare su campioni rappresentativi, da 5 a 18 anni, le curve di crescita dei livelli di conoscenza nelle discipline fondamentali, ed individuare degli intervalli di accettabilità dei livelli raggiunti ad una certa età, proprio come si fa con il peso dei neonati (nessun bambino deve essere lasciato indietro!).

4. Costruire un sistema web efficiente che consenta alle famiglie, e a qualsiasi altro operatore dell’istruzione, di valutare in un qualsiasi momento dell’anno i livelli di conoscenza acquisiti da parte di uno studente e di confrontarli con le curve di crescita di cui al punto 3. In questo ambito vanno implementati metodi di riduzione dell’errore di misura attraverso la tecnica dei test computerizzati adattivi, che in sostanza scelgono l’item da somministrare successivamente in base alle risposte agli item precedenti, e alla stima dell’abilità dell’individuo fino a quel momento.

Nel contempo, onde fugare dubbi sulla validità della metodologia, dovrebbero essere previsti progetti di ricerca, in tutte le scuole d’Italia, volti a stimare, attraverso le più affidabili tecniche statistiche, la correlazione, a livello di classe, tra la graduatoria dei voti derivanti dalla normale attività di valutazione da parte degli insegnanti e quella derivante dall’applicazione dei test: quando si osserverà che le due graduatorie sono sostanzialmente identiche, a meno di ovvi errori casuali, nella stragrande maggioranza delle classi italiane, allora la valutazione attraverso test acquisterà finalmente il rispetto e la considerazione che merita.