Яд ва-Шем разработал языковую ИИ-модель для поиска имен жертв Холокоста

Инновационный отдел Яд ва-Шем разработал языковую модель искусственного интеллекта, способную находить новые имена и идентификационные признаки в базе свидетельств. Благодаря ИИ-модели в Зал имен уже добавлена информация о 400 ранее неизвестных жертвах Холокоста.

На сегодня в Зале имен Яд ва-Шем собрано 4,9 миллиона имен жертв Холокоста. Добавление каждого имени требует большой работы, которая ведется на основе базы свидетельств. В базе на сегодня хранится около 10 миллионов записей из различных источников в разных форматах и на разных языках.

Имя добавляется в Зал только после того, как оно будет идентифицировано. На основе базы свидетельств должны быть установлены обязательные идентификационные признаки: имя, фамилия, имя отца или матери, профессия или год рождения. Все признаки должны быть подтверждены экспертами. Особенно трудно идентифицировать детей. Они часто упоминаются даже не по имени, а просто – «мальчик» или «девочка».

Эксперты Яд ва-Шем знают, что в свидетельствах встречаются многочисленные упоминания не только того, кто это свидетельство предоставил, но и многих других жертв. Поэтому давно стояла задача рассмотрения перекрестных упоминаний. По ним можно установить идентификационные признаки. Но вручную эта работа едва ли осуществима, учитывая состояние источников и объем базы. Причем сама база постоянно пополняется.

Ученые Яд ва-Шем обучили языковую модель, которая может распознавать такие перекрестные упоминания. Сначала модель обучалась на данных размеченных экспертами, а потом начала искать сама. Модель проделала работу достаточно быстро и успешно. На основе данных, найденных моделью, в Зал добавлено 400 новых имен. Каждое имя было дополнительно подтверждено экспертами. Еще примерно столько же имен ждут подтверждения. По оценке экспертов, каждые 20 тысяч свидетельств в базе содержат информацию, по крайней мере, о семи новых именах. Важным результатом работы ИИ-модели должна стать унификация самой базы свидетельств и подготовка их кратких описаний.

Источник: www.newsru.co.il