Ha suscitato meraviglia la parte finale del mio intervento (cfr. commenti a pie’ di pagina, ndr), in cui affermo che la “validazione e accettazione” delle misure ottenute attraverso test (per mezzo del modello di Rasch*), potrebbe provenire dalla scoperta di una (forte) correlazione positiva, all’interno delle classi, tra i ranghi derivanti dalla normale attività di valutazione dell’insegnante (specifica per la disciplina in esame: es. matematica) e quelli ottenuti attraverso i test. Ovviamente in prossimità temporale adeguata.
Mi meraviglio invece, a mia volta, del fatto che coloro i quali hanno elementi di dubbio sull’utilità dei test, specie all’interno delle scuole, non abbiano pensato a studiare tale correlazione, avendo a disposizione sia l’una che l’altra informazione. Una mancanza di correlazione, o addirittura una correlazione negativa, costituirebbe il migliore argomento contro i test medesimi.
Un’adeguata metodologia statistica sarebbe comunque necessaria per un tale studio, poiché si è di fronte a ranghi affetti da errore, di cui si conosce la distribuzione nel caso dei test, mentre risulterebbe incognita nel caso dei ranghi ottenuti dalle valutazioni dei docenti: e qui non siamo di fronte ad un problema banale.
Per capire il problema si pensi alla correlazione tra peso e altezza. Tutti sanno che è alta e positiva. Supponiamo ora di misurare il peso con una bilancia che sia affetta da grossi errori, e di usare per l’altezza un metro impreciso: la forte correlazione scompare e, a seconda dell’entità dell’errore, può anche ridursi a zero; al che, uno capisce che deve usare qualcosa di più sofisticato per misurarla (correggere per gli errori di misura appunto), perché sa che deve essere alta! Comunque, per un’analisi esplorativa preliminare, sarebbe sufficiente un semplice coefficiente di correlazione di Spearman.
Ora, non è da escludere che in parte delle classi oggetto di studio si possa trovare una bassa correlazione. Le ragioni potrebbero essere svariate: gli insegnanti, piuttosto che valutare nel merito (come i test), potrebbero formulare un voto usando anche altri elementi (l’impegno, la potenzialità, il carattere ecc.); potrebbe poi darsi che i contenuti dei test e la formulazione delle domande non siano perfettamente calibrati rispetto a quelli usati in classe, ma in questo caso è da attendersi che gli item non si adattino al modello di Rasch e che, in una fase successiva, vengano eliminati o modificati, magari proprio grazie ai suggerimenti degli insegnanti che potrebbero efficacemente contribuire a costruire banche di item “dal basso”.
Scoprire, grazie a questa analisi, che i sistemi nazionali di valutazione gettano via parte delle loro risorse per mantenere nelle loro banche, e in parte della carta utilizzata per somministrare i test, item che non soddisfano il modello di Rasch, è purtroppo un dato di fatto che dovrà prima o poi essere corretto, proprio per evitare spreco di risorse.
Gli Stati Uniti mantengono nelle loro banche dati circa il 30% di item non adeguati al modello di Rasch, con l’effetto di incrementare di molto l’errore di misura dei livelli di apprendimento, e quindi anche dei ranghi. Anche lì, purtroppo, imperano teorie che, come ho avuto modo di spiegare nell’articolo, non hanno adeguato fondamento scientifico e filosofico.
Ma se ci saranno classi in cui la correlazione sarà bassa, ce ne saranno altre in cui sarà alta. Magari molto alta. Trattandosi di qualcosa che a quanto mi consta non è stato ancora indagato, si può essere propensi a scommettere sul fatto che nella maggior parte dei casi sia bassa e, purtroppo non sarebbe una bella cosa: due sistemi di valutazione che non sono in relazione tra loro hanno un unico modo per sopravvivere: ignorarsi a vicenda.
Ma la domanda che sorge spontanea è: quale delle due valutazioni (test o insegnanti) è maggiormente correlata con fenomeni quali il dropout, la prosecuzione degli studi, l’ammissione all’università, il conseguimento di una laurea, la capacità di trovare lavoro, il tasso di sviluppo economico? Dagli studi di economia dell’istruzione si sa, ad esempio, che i livelli dei test di matematica sono correlati con il tasso di sviluppo economico, e che i livelli nei test a 10 anni sono ottimi predittori del successo scolastico successivo. Come ha mostrato inoltre una ricerca in Lombardia di qualche anno fa, essi sono ottimi predittori della scelta tra liceo e non liceo (al che uno comincia a pensare che la “maggior efficacia” del liceo rispetto alla carriera universitaria sia almeno in parte dovuta ad una autoselezione nella scelta della scuola secondaria).
E per i voti assegnati dalla scuola? A quanto mi consta, in passato i voti di maturità erano altamente correlati con l’accesso all’istruzione universitaria, con il dropout ed il tasso di laurea. Nel senso che gli studenti con ranghi più elevati (questo di fatto è il voto di maturità, e nulla più) ottenevano anche migliori risultati. Negli anni più recenti questa correlazione si è ridotta (forse per un aumento degli errori come nel caso della correlazione tra peso e altezza? Chissà). Sta di fatto che ranghi di votazione alti sono discreti predittori dei buoni risultati futuri dei giovani.
Bene. Entrambe le valutazioni hanno qualche merito sul fronte della così detta “validità esterna“. Vediamo se concordano!
Ritorniamo ora alla correlazione tra ranghi. E pensiamo per un momento alle conseguenze derivanti dal fatto che uno studio possa evidenziare che in una maggioranza di classi si sia di fronte ad una forte correlazione positiva tra quelli definiti attraverso i voti dei docenti e quelli ottenuti attraverso i test, all’interno delle singole classi.
Supponiamo che l’insegnante di matematica abbia valutato con 8 lo studente Caio, con 6 Tizio e con 5 Sempronio: quest’ultimo si meritava 3, in effetti, ma visto che il papà è così “influente”, la sua insufficienza è stata “tirata un po’ su”… in sede di consiglio di classe.
Orbene, se dai test “oggettivi” uscisse la medesima graduatoria di merito, e questo ovviamente valesse per la stragrande maggioranza delle classi coinvolte nello studio, ecco qui di seguito alcune ragioni per le quali questo risultato contribuirebbe alla validazione e alla accettazione dei test.
In primo luogo non dimentichiamoci che l’attività di valutazione all’interno della classe, oltre ad essere garantita dall’etica e dalla professionalità dell’insegnante, ha un ulteriore controllore di tutto rispetto, costituito dai 25-30 studenti, ben attenti alle questioni di giustizia, i quali sanno bene che Sempronio si meritava 3, ma va bene anche 5… “tanto si sa che le valutazioni degli insegnanti sono soggettive e poi, tanto, deve riparare comunque a settembre!”. Ma se le valutazioni degli insegnanti sono soggettive (un voto in più o in meno non conta poi molto), l’importante è che siano rispettate le graduatorie. Quelle sì che vanno rispettate! È quello che tutti si aspettano.
A questo proposito, il risultato di cui sopra mostrerebbe chiaramente che lo strumento di valutazione oggettiva (test) non stravolge le valutazioni degli insegnanti, e anche se, come logico, il 6 dato in sez. A (quella dei “bravini” selezionati all’accesso) ha un “valore” superiore (in termini di misure di Rasch) al 6 che viene invece assegnato nella sezione D (quella dei ragazzini problematici), questo non farebbe altro che aumentare ancor di più il prestigio dei test. Finalmente questi metterebbero allo scoperto “una cosa che tutti sapevano”.
Una forte correlazione tra ranghi avrebbe così due importantissimi risultati: certificherebbe la professionalità degli insegnanti, da un lato, e la validità dei test, dall’altro. E ciò produrrebbe un effetto di mutuo rafforzamento di prestigio (oggi sotto i tacchi per entrambi), sia per la classe insegnante che per il sistema di valutazione nazionale. L’effetto sarebbe tanto più grande quanto maggiore fosse la percentuale di classi in cui la concordanza raggiungesse elevati livelli.
Ma non basta. Una “misura” di prestigio può dare molto di più. E mi scuso se qui ribadirò concetti in parte scontati. Se abbiamo dimostrato che gli insegnanti, come tutti si aspettano, fanno il loro lavoro di valutazione in modo coscenzioso a che ci servirebbe la Misura di Rasch oltre a capire che il 6 in sez. A ha un valore diverso dal 6 in sez. D?
Facciamo un esempio. Supponiamo di sapere che il 15enne Caio (80 kg) pesa più di Tizio (60 kg) che a sua volta pesa più di Sempronio (50 kg). Conoscere questa graduatoria non è purtroppo sufficiente a darci un’informazione fondamentale e cruciale: “Caio deve dimagrire perché, con i suoi 80 kg, tenuto conto dell’età e della sua altezza, risulta obeso”, e questo può nuocere alla sua salute!
Orbene. I voti assegnati all’interno delle classi non sono “misure” quantitative, come il peso, la temperatura, ecc. o come le misure di Rasch. Tali voti sono dei semplici ordinamenti (scale ordinali) come l’ordine di arrivo in una corsa, al contrario dei tempi che sono “vere” misure. Ci dicono solo che Caio è più bravo di Tizio, che a sua volta è più bravo di Sempronio, ma non sono in grado di dirci (come invece possono fare le misure di Rasch) quanto distanti sono tra loro questi studenti in termini di conoscenze.
Ma anche in termini di tempo (mediamente) necessario per portare Tizio e Sempronio (e qui non parliamo più evidentemente di peso, ma di rendimento scolastico) a livello del più bravo Caio, qualora, ad esempio, una legge come No Child Left Behind imponesse di farlo, o molto più banalmente, nel caso in cui i genitori di questi studenti, dopo avere visto i risultati dei loro test ottenuti in totale autonomia attraverso un sito ad hoc, alimentato dalle migliori banche di item del paese (o di altri paesi), gli avessero permesso di capire che il livello oggettivo di conoscenze raggiunto dai loro figli (in un dato momento dell’anno a piacere) sia molto lontano dalla media o da qualche percentile più su.
Quando gli analisti dell’Ocse ci dicono che gli studenti coreani a 15 anni “sono un anno avanti” rispetto a quelli italiani, in termini di conoscenze di matematica, usano appunto le proprietà di misura quantitativa dei risultati della valutazione ottenuta con il modello di Rasch. Proprietà che, tra l’altro, sono alla base del calcolo delle derivate rispetto al tempo (e dei sistemi di equazioni differenziali) nella fisica.
Non basta. Abbiamo detto che item validati con il modello di Rasch (purché appartenenti alla stessa dimensione che si intende misurare) possono essere “linkati“, ovvero il loro “valore” (difficoltà) può essere espresso su un’unica scala di misura.
Ad esempio, gli item Invalsi potrebbero essere collegati con quelli usati nell’indagine Ocse-Pisa o nell’indagine Timss (ferma restando l’eliminazione degli item che non soddisfano il modello di Rasch). Una tale operazione è stata già condotta con pieno successo in una ricerca di Emit in Lombardia, in cui le banche di item Invalsi sono state collegate con item Nwea (www.nwea.org), e con quelli disponibili dalle indagini Ocse-Pisa e Timss.
Da questa operazione si potrebbe ad esempio scoprire che l’8 ottenuto dal 15enne Caio corrisponde purtroppo ad un 504 sulla scala Ocse-Pisa… un valore del tutto medio, ben lontano dai livelli raggiunti dalla maggioranza dei suoi coetanei in Corea che concorreranno con lui per l’ammissione alle università più prestigiose.
A nulla servirebbero, a tale fine, pressioni sui docenti per ottenere 9 o anche 10!
Per concludere, sarebbe possibile costruire curve di crescita come quelle del peso rispetto alle quali sia la famiglia, che gli insegnanti, potrebbero raffrontare l’effettivo livello di conoscenze raggiunto dallo studente in ogni momento dell’anno: a fronte di genitori preoccupati per un livello troppo basso rispetto alla curva, il docente non potrebbe togliersi il problema con qualche voto in più (magari aumentato, per “giustizia”, a tutta la classe…)
Spero di avere chiarito il mio punto di vista. Ma spero anche che su questi temi si possa aprire un ampio dibattito scientifico, il più possibile divulgativo e senza indugio.
–
(*) Ovviamente con batterie di item che soddisfano a pieno il modello. Escludendo, ad esempio, domande del tipo: “Quante altezze ha un triangolo?” (A. sempre tre, B. dipende dal triangolo, C. altro distruttore a piacere…) in virtù dell’ambiguità derivante dal termine “altezza”, qualora venisse intesa come “misura”, andrebbe bene la B perché in un triangolo equilatero i segmenti che rappresentano le altezze hanno la stessa misura), oppure “Quanto ha speso la famiglia Rossi per 4 pizze, 2 Coca cola e 1 acqua minerale? (l’item è soggetto ad obsolescenza dovuta all’inflazione e, a seconda del ceto sociale, può decisamente cambiare il prezzo in ragione del tipo di pizzeria che si frequenta, ecc.), e molte altre che sono state criticate dal sottoscritto in numerosi incontri pubblici, in ragione del loro mancato adattamento al modello.