Bekymrende «litteraturplyndring» av AI-selskaper fra glemte bokhandelshyller


For å finne ny tekst kan kunstig intelligens-selskaper stole på uventede ressurser. Dette betyr at fysiske bøker som kjøpes i bulk fra bokhandlere over hele verden, digitaliseres og deretter destrueres. Juridisk praksis som bekymrer bokhandlere.

For noen bokhandlere i Europa betyr natt ikke lenger bare lukking av jernteppet. Det var topptid for usynlige kunder som kjøpte bøker ved siden av paletten uten å si hei.

Siden begynnelsen av mai har tyske bokhandlere lagt merke til et fenomen som er mildt sagt foruroligende. Den tyske journalisten Taz rapporterte at et stort antall gjentatte bestillinger registreres på nettbaserte salgssider mellom 3 og 5 om morgenen. Et kjøp som ikke ligner på en søvnløs leser eller tvangssamler, men snarere et perfekt oljet system.

Borgerkrigsvin og dagbøker

Bokeksperter i Spania, USA, New Zealand og til og med Bulgaria hadde svært raskt lignende opplevelser, ifølge den spanske avisen elDiario.

«Vi kan få syv bestillinger på rad fra samme kjøper, med bare ett minutts mellomrom,» sa bokhandler Marçal Font til spanske medier, som mistenkte at roboter var kilden til disse kjøpene.

Alle testene ble sjelden solgt, da bestillingene hovedsakelig var på katalanske stykker som hadde hopet seg opp på lageret hans i mange år. For eksempel kjøpte den mystiske kjøperen bøker om hjulenes verden fra Granollers (Barcelona) på 1970-tallet, tekniske manualer om vinproduksjon, forhandlingene fra konferanser holdt for 50 år siden og til og med dagbøker fra den spanske borgerkrigen.

Den kanadiske plattformen Zoom Books vil være kilden for disse bestillingene spredt over hele verden. Selskapet anser seg selv som ledende innen gjenvinning og videresalg av brukte bøker og ledende innen resirkulering av bøker i Nord-Amerika.

Nasjonal- og universitetsbiblioteker), Strasbourg, 17. mai 2024 © SEBASTIEN BOZON © 2019 AFP

Ifølge hennes egne utsagn kjøper hun kunstverk, selger de gjenbrukbare stykkene og resirkulerer resten. Men mengdene som er involvert er interessante. Det er fordi selskapet kjøper tusenvis av eldre bøker på tysk, spansk og bulgarsk uten noen tilsynelatende tilknytning til det nordamerikanske markedet.

«Vi retter oss mot sakprosaverk som ble utgitt i 1970 og har et ISBN-nummer,» forklarer selskapet, overbevist om at de kun er interessert i «støvete» usolgte gjenstander. Men bokhandlere beskriver ofte uvanlige bestillinger som om algoritmer erstattet menneskelige kjøpere, noen ganger med et øyeblikks varsel.

Et annet merkelig element er et bilde tatt ved distribusjonssenteret Zoom Books, dekket flere ganger av den spanske daglige dagen El Diario og den tyske avisen Taz, som viser bøker skjødesløst stablet i store esker. En scene som står i skarp kontrast til bransjens vanlige praksis…

Å bryte gjennom «dataveggen»

Bak denne uvanlige strømmen av bøker foreslår noen eksperter en annen hypotese: råvarer for kunstig intelligens. Opplæring av språkmodeller krever enorme mengder tekstdata. Kvaliteten på innholdet er imidlertid ikke alltid god. Spesielt har opphavsrettsbegrensninger redusert noe av nettinnholdet som kan nås gratis.

«Mangelen på fritt tilgjengelig kunnskap på Internett har ført til at selskaper strømmer til plattformer som ulovlig laster ned digitale bøker for å mate modellene sine. Bruken av disse ressursene har resultert i søksmål for brudd på opphavsrett for millioner av dollar,» forklarer Xavier Vinaixa, en ekspert på kunstig intelligens intervjuet av ElDiario.

Som et resultat står selskaper i sektoren overfor det noen forskere kaller en «datavegg.» Uten ny, ny, lang tekst å trene algoritmene på, risikerer AI å stagnere. For å overvinne disse hindringene har flere selskaper slått til en alternativ strategi: å kjøpe fysiske bøker, digitalisere dem og deretter bruke dem som opplæringsmateriell.

Som en SRF-bokselger oppsummerer: «Prinsippet er dette: Du må ha fysisk besittelse av boken og ‘lese’ den før du ødelegger den. Dette sikrer at uautoriserte kopier ikke sirkulerer, og du kan hevde at dette utgjør rimelig bruk.»

Zoom Books Warehouse © Zoom Books

Faktisk, hvis du digitaliserer tekst og legger den ut på nett, kan du i prinsippet bli tiltalt for brudd på opphavsretten. I USA er imidlertid «fair use» et smutthull som AI-selskaper skynder seg inn i, og legger vekt på RTS. Det kan være akseptabelt å trene AI-modeller på lovlig kjøpte bøker uten eksplisitt tillatelse hvis det tjener offentlig utdanning og stimulerer intellektuell produksjon.

Mellom mulighet og ødeleggelse

Denne etterforskningen følger avsløringer i Washington Post. Amerikanske medier omtalte et storstilt digitaliseringsprosjekt ledet av AI-selskapet Anthropic i januar 2026. Hundretusenvis av bøker ville blitt demontert, skannet side for side og deretter resirkulert. På denne måten blir den fysiske boken rett og slett et midlertidig medium for å lagre data før den forsvinner.

Zoom Books tilbakeviser kategorisk påstander om digitalisering eller ødeleggelse av bøker. Selskapet legger vekt på en resirkulerings- og videresalgsmodell. AI-selskaper bekrefter eller avkrefter ikke den nøyaktige bruken av disse dataene.

Men bokhandleren har sine tvil. På kort sikt er bokhandlere fornøyd med disse uventede salgene. På lang sikt frykter noen et mer bevisst skifte der vår trykte arv vil bli spredt, absorbert og deretter konvertert til personlige data. Det er fordi når en bok kommer til et prosessanlegg, kuttes ryggraden, sidene skannes automatisk, og deretter makuleres boken og omdannes til papirmasse.

«Vi er kanskje ikke klar over det, men vi risikerer for alltid å miste en veldig viktig del av vår bibliografiske arv,» advarer Miguel Ángel Ortega. Presidenten for Profesjonsforeningen for bokhandlere og antikvarer beskriver situasjonen som «pervers». Han la til: «Det er smertefullt å motta en stor ordre uten å vite hva som vil skje med boken.»

«Vi er vitne til en slags litterær plyndring,» klager Marçal Font. «Jeg føler en tsunami kommer. Jeg tror byrået må gripe inn.»

Det er ennå å se om bøker vil bli lest i denne nye tekstøkonomien … eller om de rett og slett vil bli konvertert og avslutte karrieren som en konfetti av data et sted mellom to linjer med kode.



Kildekobling