DeepMinds nye AI-model hjælper med at dechifrere, datere og lokalisere gamle inskriptioner

0
213

Maskinlæringsteknikker giver nye værktøjer, der kan hjælpe arkæologer med at forstå fortiden – især når det kommer til at tyde gamle tekster. Det seneste eksempel er en kunstig intelligens-model skabt af Alphabet-datterselskabet DeepMind, der ikke kun hjælper med at gendanne tekst, der mangler fra oldgræske inskriptioner, men giver forslag til, hvornår teksten blev skrevet (inden for en 30-årig periode) og dens mulige geografiske oprindelse.< /p>

“Inskriptioner er virkelig vigtige, fordi de er direkte kilder til bevis … skrevet direkte af oldtidens mennesker selv,” fortalte Thea Sommerschield, en historiker og maskinlæringsekspert, der hjalp med at skabe modellen, journalister i en pressebriefing.

“Det er virkelig svært for et menneske at udnytte alle eksisterende, relevante data”

På grund af deres alder er disse tekster ofte beskadigede, hvilket gør restaurering til en givende udfordring. Og fordi de ofte er indskrevet på uorganisk materiale som sten eller metal, betyder det, at metoder som radiocarbondatering ikke kan bruges til at finde ud af, hvornår de er skrevet. “For at løse disse opgaver leder epigrafer efter tekstuelle og kontekstuelle paralleller i lignende inskriptioner,” sagde Sommerschield. “Men det er virkelig svært for et menneske at udnytte alle eksisterende, relevante data og at opdage underliggende mønstre.”

Det er her, maskinlæring kan hjælpe.

Antikke græske inskriptioner er ofte fragmenterede. Softwaren Ithaca kan foreslå, hvilke bogstaver der mangler. Billede: DeepMind

Den nye software, kaldet Ithaca, er trænet på et datasæt med omkring 78.608 antikke græske inskriptioner, som hver er mærket med metadata, der beskriver, hvor og hvornår det er skrevet (efter historikernes bedste viden). Som alle maskinlæringssystemer leder Ithaca efter mønstre i denne information, koder denne information i komplekse matematiske modeller og bruger disse slutninger til at foreslå tekst, dato og oprindelse.

I et papir udgivet i Nature, der beskriver Ithaca, siger videnskabsmændene, der har skabt modellen, at den er 62 procent nøjagtig, når de genskaber bogstaver i beskadigede tekster. Den kan tilskrive en inskriptions geografiske oprindelse til en af ​​84 regioner i den antikke verden med 71 procent nøjagtighed og kan datere en tekst til i gennemsnit 30 år efter dets kendte skriveår.

Disse er lovende statistikker, men det er vigtigt at huske, at Ithaca ikke er i stand til at fungere uafhængigt af menneskelig ekspertise. Dets forslag er i sidste ende baseret på data indsamlet ved traditionelle arkæologiske metoder, og dets skabere placerer det som blot endnu et værktøj i et bredere sæt af retsmedicinske metoder, snarere end en fuldautomatisk AI-historiker. “Ithaca blev designet som et komplementært værktøj til at hjælpe historikere,” sagde Sommerschield.

Ithaca er den første model til geografisk og kronologisk tilskrivning med tekstlig restaurering. Billede: DeepMind

Eleanor Dickey, en professor i klassikere fra University of Reading, som har specialiseret sig i oldgræske og latinske sociolingvister, fortalte The Verge, at Ithaca var en “spændende udvikling, der kan forbedre vores viden om den antikke verden.” Men hun tilføjede, at en nøjagtighed på 62 procent for at gendanne tabt tekst ikke var betryggende høj – “når folk stoler på det, bliver de nødt til at huske på, at det er forkert omkring en tredjedel af tiden” – og at hun ikke var sikker på, hvordan softwaren ville passe ind i eksisterende akademiske metoder.

For eksempel fremhævede DeepMind tests, der viste, at modellen hjalp med at forbedre nøjagtigheden af ​​historikere, der genskabte manglende tekst i gamle inskriptioner fra 25 procent til 72 procent. Men Dickey bemærker, at de, der blev testet, var studerende, ikke professionelle epigrafer. Hun siger, at AI-modeller kan være bredt tilgængelige, men det betyder ikke, at de kan eller bør erstatte den lille kadre af specialiserede akademikere, der dechifrerer tekster.

“Det er endnu ikke klart, i hvilket omfang brug af dette værktøj af ægte kvalificerede redaktører vil resultere i en forbedring af de udgaver, der er almindeligt tilgængelige – men det bliver interessant at finde ud af,” sagde Dickey. Hun tilføjede, at hun var på udkig efter at prøve Ithaca-modellen selv. Softwaren, sammen med dens open source-kode, er tilgængelig online for alle at teste.

Ithaca og dens forgænger (ved navn Pythia og udgivet i 2019) er allerede blevet brugt til at hjælpe de seneste arkæologiske debatter – herunder hjælp til at datere inskriptioner opdaget på Akropolis i Athen. Softwarens sande potentiale er dog endnu ikke blevet set.

Sommerschield understreger, at den reelle værdi af Ithaca kan være i dens fleksibilitet. Selvom det blev trænet på oldgræske inskriptioner, kunne det nemt konfigureres til at fungere med andre gamle scripts. “Ithacas arkitektur gør den virkelig anvendelig på ethvert gammelt sprog, ikke kun latin, men maya, kileskrift; virkelig ethvert skriftligt medium – papyrus, manuskripter,” sagde hun. “Der er mange muligheder.”