Når kolosserne kæmper om fremtiden

For 20-30 år siden var joken i NLP - algoritmers arbejde med menneskeligt sprog - at machine learning virker bedre end sproglig viden. "Hver gang jeg fyrer en lingvist bliver resultaterne bedre" lyder et ofte brugt, måske apokryft, citat fra et IBM research team fra perioden.

Spolet frem til idag er intet forandret - kampen er bare flyttet ind i ML verdenen. Lingvisterne har tabt for længst - nu står krigen mellem fraktioner i ML-verdenen. Kampen handler om hvorvidt vi mangler at bygge gode ML-systemer, eller om det væsentlige sker når vi bare bygger dem større.

Stort er godt

Det er 1:1 et ekko af den gamle kamp. Skalaisterne tror ikke vi behøver studere problemet (læs: være lingvister) - vi skal bare lære os selv at bygge større og større modeller.

Skalaen har klart vundet de fleste slag på det seneste. Modellerne vælter ud med opsigtsvækkende resultater. Interessant i sig selv er det at alle de store modeller er forskellige - men opnår resultater. Det fik Dustin Tran fra Google kommenterede det på Twitter, da endnu en ny model kom ud

One thing I find fascinating is that Parti is another data point suggesting that the key to large models is not diffusion, GANs, contrastive training, autoregressivity, or other more complex methods. What matters most is scale. Dustin Tran på Twitter

Den anden front fylder ikke meget i nyhederne. Rent PR-mæssigt domineres feltet af nyheder om crazy fremskrid fra enorme ML-modeller - bygget med en kapital, kun de store har.

I en nylig Twitter-tråd forestillede Russell Kaplan fra Scale AI sig forskellige scenarier for udviklingen. Her nogle udpluk i let redigeret og viderefortolket form

  • Vi får kreative sprog assistenter i alle digitale værktøjer
  • Vi får en højkaste af kapitalrige virksomheder og lavkaste af kapitalfattige virksomheder, ude af stand til at deltage i den bekostelige udvikling af store sprogmodeller
  • Giganterne kommer til at bestemme hvilken access vi har til benzinen i det hele - de kæmpestore sprogmodeller
  • Der bliver en kamp om at bygge egne AI chips også - Google og Apple er allerede i gan.
  • Det offentlige vil kigge på og indse at hvis ikke det hele skal være privat skal der et enormt offentligt projekt til (men måske er det løb for længst kørt)
  • Måske forsvinder søgemaskiner - hvad skal man med dem hvis man har et orakel der kan svare
  • Der vil komme et våbenkapløb i kommercielle operationer for at påvirke modellernes svar (og et lignende våbenkapløb politisk - De problemer vi allerede ser med radikalisering i søgealgoritmerne bliver bare mangedoblet)

Det er særdeles tankevækkende - ikke alene de samfundsmæssige aspekter af koncentration, men også det ekstra twist på vores algoritmisk medierede virkelighed at den gennem ML-modellerne bliver mindre og mindre overskuelig; det bliver mindre og mindre tydeligt at manipulation er en meget væsentlig faktor i dannelsen af vores infosfære.

Capture

Meredith Whittaker har fornylig opregnet nogle af udfordringerne ved at skala er midlet der virker - og ved at lade giganterne bestemme udviklingen.

Det er ikke enkelt - hverken økonomisk eller kompetencemæssigt - at kopiere hvad de store kan (det er dog lykkedes for dem alle, er omvendt indvendingen - måske er kapital faktisk det eneste rigtige problem)

Det er helt indlysende problemer ved at den offentlige debat om AIs egenskaber, muligheder og problemer i den grad er baseret på adgang til gigantiske AI-modeller. Der er allerede en uskøn blanding af research og kommercielle hensyn i gang.

Og sidst men ikke mindst så må man som udkants-sprog på internettet begræde at udviklingen peger i retning af værktøjer der simpelthen fungerer bedre jo større sprog man har med at gøre; den tekniske samtale foregår i udstrakt grad på engelsk, og derfor er det også engelse de store modeller kan forstå - det er sin sag at kopiere de kompetencer. Whittaker er amerikaner - så hun berører end ikke denne problematik.

Spørgsmålet er om toget allerede er kørt? Efterhånden som teknopyramiden bliver højere og højere bliver det vanskeliger og vanskeligere at forestille sig at bygge en ny ved siden af; for at skabe reel uafhængighed. Den gode nyhed her at den vanskelighed omfatter os alle - kigger man reelt på hvad giganterne udbyder hviler det i et voldsomt omfang på Andre Menneskers Arbejde. Databaserne er andres designs, bare serviceret af Google og Amazon. Selv de voldsomme træningsdatasæt er i stort omfang offentlige datasæt - ikke de hemmelige kundedata som giganterne i stort omfang har.

Tilbage står at kapital stadig er kapital - og har man den ikke er der masser af udvikling, der simpelthen ikke er tilgængelig; det er levevilkår og vanskelighed for de små og synd for de, der lever fjernt fra Silicon Valley.