Når man glemmer at vurdere vurderingerne

Som en, der lever af at vurdere maskinelle beregninger, AI og maskinglærings-systemer og af at hjælpe udviklere af administrative systemer med ikke at skyde sig selv i foden, når de anvender AI, er der meget jeg undrer mig over ved lanceringen af de midlertidige nye ejendomsvurderinger.

Vurderingsstyrelsen har haft adgang til noget vi andre kun går og drømmer om: Et stort set komplet datasæt med en sand vurdering af de ejendomme, de nu matematisk - såvidt jeg ved med en maskinlæringsmodel - har forsøgt at vurdere med svigtende held i mange tilfælde. Ganske vist var den sande vurdering efterhånden blevet 10-15 år gammel, og den var sikkert også problematisk allerede da den blev lavet - og årsag til mange klager, som vi bare helt har glemt nu vi har nye ting at klage over. Men et komplet datasæt at sammenligne sine resultater med er guld. Det er sådan noget vi andre går og drømmer om.

Politiken var forleden ude med en ondskabsfuld overskrift hvor en underdirektør i Vurderingsstyrelsen citeres: "Vi kiggede ikke på vurderingerne, før vi sendte dem ud". Det har han givetvis ikke sagt, men i stedet det mere rimelige "Vi har ikke haft mulighed for at lave fuld manuel kontrol af de foreløbige vurderinger". Det er noget ganske andet end hvad overskriften misvisende siger - og hvis jeg var Vurderingsstyrelsen ville jeg hive avisen i Pressenævnet for at fuske med citatet. Det er klart - 1.7 mio vurderinger er dyre at gennemgå manuelt - det er hele årsagen til at der er lavet et automatisk system.

Der hvor man begynder at undre sig er, at det ikke virker til at Vurderingsstyrelsen har gode statistiske svar heller. Har de simpelthen glemt at lave en eksplorativ analyse af svarene? Eller har de bare glemt at fortælle det til os? Når man ovenikøbet har en fuld database med referenceværdier er det en virkelig grel udeladelsessynd.

Hvor mange ejendomme er der mon hvor den samlede værdi er beregnet til at være højere end grundværdien? (DR får det til næsten 5% af vurderingerne)
Hvordan så det tal ud i den eksisterende vurdering?
Hvordan fordeler prisstigningerne sig? Hvor mange er steget 10 gange - hvor mange 3 gange - hvor mange mindre end det?

Der vil være en lang række trivielle virkelighedstests man kan tilføje til den liste.

Hvorfor ikke sætte en lille note på alle de skøre randtilfælde som er statistisk besynderlige hvor man anerkender at det ser underligt ud og nok skal justeres før det bliver taget alvorligt?

Hvis analyserne er lavet men bare ikke kommunikeret, så er det en dum fodfejl - hvis de end ikke har lavet analysen er den helt gal. Så er der ikke engang dannet et statistisk overblik over modellens rimelighed. Det er ikke en opgave som kræver massivt mandskab - det er bare en helt normal del af en model-leverance.

Det kunne være så godt

Lad os nu sige at arbejdet er gjort - og kommunikationen bare er mislykkedes. Hvis jeg, som fagmand, fik et faktaark, som godtgjorde at omkring 90% af vurderingerne er statistisk normale og 10% nok skal ses efter i sømmene - ville jeg synes opgaven var godt løst. Til trods for harmdirrende avisskriverier om at det da ikke kan passe man vil offentliggøre den slags. Det ville være en utrolig vellykket model - som skar det manuelle vurderingsarbejde ned med 80%-90%. Det hører til sjældenhederne at AI er bedre end det. Det gælder også for ChatGPT og selvkørende biler. Der er altid fejl.

Problemet opstår når lanceringen og iøvrigt det website man slår op på - mangler nogle ordentlige garderinger og forbehold; lidt information om kvaliteten og en fornuftig måde at reagere på som borger, når man opdager at huset pludselig er steget i værdi til 29 millioner.