August 14, 2008
reCaptcha: 4 millioner ord om dagen

Luis von Ahns reCaptcha menneske-assisterede OCR projekt er nu oppe på at rette 4 millioner ord hver dag. Det vil sige projektet er i stand til at rette en hel Encyclopedia Britannica af OCR-fejl hver 10ende dag, for at få lidt proportioner på. Eller 4 gennemforfejlede kopier af Moby Dick hver dag. Lad os bare sige at Moby Dick er en god bogstørrelse, selv om den givetvis er en lang tekst sammenlignet med gennemsnittet, og lad os sige at der er 5% fejl i den typiske scanning, selv om moderne OCR vist nærmere ligger på 1%. Så er det altså et bibliotek på ca 30.000 bøger man kan digitalisere hvert år - eller ca en fordoblig på et år at det nuværende Project Gutenberg.

Et sted ude i fremtiden må der være en ny reCaptcha der laver maskinoversættelse.

[UPDATE: Det er ekstremt skuffende at opdage at det er kommercielt baseret hvad man oversætter. Jeg bliver mindet om en indvending Kevin Slavin havde mod Google Image Labeler sammenlignet med The ESP Game, von Ahns tidligere human-computing initiativ. Slavins indvending var at Google havde taget det sjove ud af spillet og dermed elimineret værdien for deltageren. Der skal være en forestilling om spillet, der er underholdende og i deltagerens interesse.

Smlgn. også klassiske observationer om at ting man gør for sin egen skyld, eller som en gave, gør man langt bedre end ting man gør for penge]


Posted by Claus at August 14, 2008 10:29 PM | TrackBack (0)
Comments (post your own)
Help the campaign to stomp out Warnock's Dilemma. Post a comment.
Name:


Email Address:


URL:



Type the characters you see in the picture above.

(note to spammers: Comments are audited as well. Your spam will never make it onto my weblog, no need to automate against this form)

Comments:


Remember info?