Как изкуственият интелект отключва древни текстове и може да пренапише историята

Изкуственият интелект (AI) започва да играе ключова роля в дешифрирането на древни текстове, които досега са смятани за недостъпни. От обгорели римски свитъци до трошащи се клинописни плочки, новите технологии разкриват повече информация за античния свят, отколкото учените са имали за столетия.

AI и проектът „Предизвикателството на Везувий"

През 2023 г., папирусологът Федерика Николарди (Federica Nicolardi) получава изображения от свитъци, унищожени от изригването на Везувий през 79 г. от н.е. Тези свитъци, открити в древната римска вила в Херкулан, са били толкова крехки, че усилията за разгръщането им често ги разрушавали. С помощта на AI обаче за първи път става възможно да се прочетат редове от тези древни текстове.

Проектът използва невронни мрежи, които могат да анализират изображения и да възстановят изгубени символи. AI инструментът „Ithaca“ („Итака“) например е обучен да идентифицира местоположението и времето на произход на древни текстове. Той дори подобрява точността на дешифрирането, когато се използва в комбинация с експертите, които го ръководят.

Дълъг тънък фрагмент от папирусите на Херкулан с видими четири колони с текст. AI техниките помогнаха да се разкрие мастилото в тази лента от овъглен папирус от свитъците от Херкулан. Кредит: Vesuvius Challenge

Предизвикателството на Херкулан

Една от най-впечатляващите AI инициативи е опитът за четене на свитъците от Херкулан, които са напълно обгорели. Компютърният учен Брент Сийлс използва „виртуално разгъване“ чрез високотехнологични сканирания, за да преобразува структурата на свитъците в плоски изображения. Макар че мастилото, използвано в тези текстове, не се вижда директно, AI успява да открие неговия релеф, като анализира текстурата на папируса.

Свитъците, обгорени при изригването на вулкана Везувий, не могат да бъдат отворени, без да се повредят. Кредит: EduceLab, University of Kentucky


Състезанието „Предизвикателството на Везувий“ (Vesuvius Challenge), организирано през 2023 г., насърчи екипи от учени да разработят алгоритми за идентифициране на мастилото.

През 2024 г. победителите успяват да разкрият 16 колони от текстове, включително философски произведения, вероятно свързани с епикурейския философ Филодем.

Отваряне на „невидими библиотеки"

Методът за виртуално разгъване и AI може да бъде приложен и върху други текстове, като ръкописи в средновековни книги или египетски свитъци, които са останали недостъпни. Потенциалът включва дешифрирането на стотици свитъци, все още запазени под земята в Херкулан.

Почти 16 колони с гръцка писменост бяха разкрити вътре в този овъглен свитък от Херкулан от победителите през февруари 2024 г. в Предизвикателството на Везувий. Кредит: Vesuvius Challenge


Вълна от информация

Навлизането на AI в изследването на античността обещава огромно увеличаване на достъпните текстове. Това създава предизвикателства за папирусолозите, които ще се нуждаят от повече ресурси и глобално сътрудничество, за да анализират новоразкритите данни. В същото време се изисква внимателно управление на информацията, за да се избегнат неточности и спекулативни резултати.

Ролята на невронните мрежи

Невронните мрежи стават основа на тези открития. (вж „Как работи дълбокото самообучение на невронните мрежи?")

Ранните опити за прилагане на дълбоко обучение към древни текстове през 2010 г. се основават на цифрови снимки на текстове, независимо дали върху папируси или палмови листа. Модели, наречени конволюционни невронни мрежи (CNN - convolutional neural networks) - вдъхновени от визуалната неврология - могат да улавят мрежовидни данни от изображения.

Те се използват за оптично разпознаване на знаци, но има и други приложения: китайски екипи, изучаващи Оракулското костно писмо (най-старата форма на писмен китайски), са използвали такива модели, за да запълнят изображения на ерозирали букви, да анализират как оракулските знаци са се развили с течение на времето и да сглобят счупени фрагменти.

Междувременно рекурентните невронни мрежи (RNN - recurrent neural networks), предназначени да се справят с поредици от данни, в които линейният ред има значение, започнаха да показват огромен потенциал за търсене, превод и попълване на празнини в текстове, които вече са транскрибирани. Те са били използвани, например, за да предложат липсващи знаци в стотици формулирани административни и правни текстове от древен Вавилон.

Анимация показва как моделите за откриване на мастило са използвани за четене на текст от свитъците от Херкулан. Кредит: Vesuvius Challenge


Но сегашният напредък идва от използването на невронни мрежи, които се състоят от йерархични слоеве от взаимосвързани възли, и по-специално от „дълбоките“ невронни мрежи, които имат множество вътрешни слоеве.

Подобно на класиците, които тълкуват нови източници, използвайки знанията си за подобни съществуващи текстове, моделите за машинно обучение правят същото, използвайки
непосилно за един човек количество източници, потенциално подходящи за нов текст.

Сега невронните мрежи с дълбоко обучение се прилагат в различни култури и текстови архиви:

Китай: Учените използват ИИ за възстановяване на изтрити символи и анализ на еволюцията на писмеността върху древни кости.

Вавилон: Моделите допълват липсващи символи в административни текстове.

На тези фрагменти от късновавилонска плочка са открити редове от неизвестен досега Химн на Вавилон. Кредит:


Гърция: Проектът „Пития“, разработен от Теа Сомершийлд и Янис Асаел, възстановява липсващи думи в древногръцки надписи с впечатляваща точност.

Моделът „Итака“, базиран на трансформаторни технологии, разпознава езикови модели и може да датира и определя географския произход на текстове. Той е по-точен от човешки специалисти, а когато те работят заедно с Итака, резултатите се подобряват още повече.

Масиви от архиви и по-малки езикови системи

Корея: Южнокорейски учени използват AI за автоматизиран превод на дневници на корейски владетели, писани на ханджа – система, която малцина разбират. Технологията значително ускорява превода.

Линеарно писмо Б: В Гърция модели възстановяват липсващи части от древни документи, като предвиждат правилните думи в 72% от случаите.

Технологиите също така обещават напредък в дешифрирането на Линеарно писмо А – загадъчен език на минойската цивилизация, който все още не е разчетен.

AI отваря нови хоризонти в историята и археологията, като позволява както запълване на липсващи текстове, така и задаване на нови въпроси към древните източници.

Тези записи са пълни и произходът им е известен, но едва ли някой може да ги прочете. Те са написани на ханджа, древна писмена система, базирана на китайски знаци, която е различна от съвременния китайски или корейски. Архивите на корейските крале от династията Чосон се превеждат и анализират от AI. Кредит: National Palace Museum of Korea


Промяна на историческите въпроси

AI не само ускорява анализа, но и променя въпросите, които учените могат да задават. Например чрез обширни текстови архиви може да се изследват социални и политически тенденции, както и взаимодействия между различни култури. В Южна Корея AI вече се използва за идентифициране на управленски стилове на древни монарси, а бъдещите инструменти може да позволят интерактивен диалог със стари текстове.

Възможността един ден да „попитаме“ AI какво е мислил древен грък или вавилонец е вече на хоризонта, като новите технологии обещават не само да разкрият миналото, но и да го направят достъпно за всички.*

 

Справка:

    Wang, S., Guo, W., Xu, Y., Liu, D. & Li, X. In Proc. 1st Workshop Mach. Learn. Ancient Lang. (eds Pavlopoulos, J. et al.) 107–114 (Association for Computational Linguistics, 2024).

    Google Scholar

    Wang, M. et al. PLoS ONE 17, e0272974 (2022).

    Article  PubMed  Google Scholar

    Zhang, Z., Guo, A. & Li, B. Symmetry 14, 1464 (2022).

    Article  Google Scholar

    Fetaya, E., Lifshitz, Y., Aaron, E. & Gordin, S. Proc. Natl Acad. Sci. USA 117, 22743–22751 (2020).

    Article  PubMed  Google Scholar

    Assael, Y., Sommerschield, T. & Prag, J. In Proc. 2019 Conf. Empir. Methods Natural Lang. Proc. (eds Inui, K., Jiang, J., Ng, V. & Wan, X.) 6368–6375 (Association for Computational Linguistics, 2019).

    Google Scholar

    Assael, Y. et al. Nature 603, 280–283 (2022).

    Article  PubMed  Google Scholar

    Yoo, H. et al. In Find. Assoc. Comput. Linguist. (eds Carpuat, M. et al.) 1832–1844 (Association for Computational Linguistics, 2022).

    Google Scholar

    Son, J. et al. In Find. Assoc. Comput. Linguist. (eds Goldberg, Y., Kozareva, Z. & Zhang, Y.) 1260–1272 (Association for Computational Linguistics, 2022).

    Google Scholar

    Papavassileiou, K., Kosmopoulos, D. I., Owens, G. ACM J. Comput. Cult. Herit. 16, 52 (2023).

    Article  Google Scholar

    Papavassileiou, K. & Kosmopoulos, D. In Proc. 1st Workshop Mach. Learn. Ancient Lang. (eds Pavlopoulos, J. et al.) 115–129 (Association for Computational Linguistics, 2024).

    Google Scholar

    Seales, W. B. et al. Sci. Adv. 2, e1601247 (2016).

    Article  PubMed  Google Scholar

    Lazar, K. et al. In Proc. 2021 Conf. Empir. Methods Nat. Lang. Proc. (eds Moens, M.-F., Huang, X., Specia, L. & Yih, S. W.-t.) 4682–4691 (Association for Computational Linguistics, 2021).

    Google Scholar

    Източник: How AI is unlocking ancient texts — and could rewrite history, Jo Marchant, Nature

 

Източник: nauka.offnews

Видеа по темата

Facebook коментари

Коментари в сайта

Трябва да сте регистриран потребител за да можете да коментирате. Правилата - тук.
Последни новини