Алгоритм, который может работать с текстами на любом языке

03 Dec 2019
60
Прослушать

Исследователи из израильского университета Бен-Гуриона заявили, что они разработали программное обеспечение, которое может автоматически суммировать тексты на различных языках, чтобы помочь читателям быстрее и эффективнее просматривать статьи, журналы, базы данных и научные исследования.

Огромное увеличение объема онлайновых текстовых данных в сочетании с тем, что люди всегда испытывают нехватку времени, обусловило необходимость в автоматизированном методе извлечения ключевых моментов из таких текстов, как статьи, исследовательские отчеты или интервью для дальнейшей обработки.

Большинство решений, доступных сегодня, зависят от языка и требуют обучения алгоритмов на больших объемах текста.

Новое программное обеспечение предоставляет языково-независимые резюме текстов, основанные на алгоритме оптимизации, использующем процесс естественного отбора, так называемый "генетический алгоритм".

Программное обеспечение выбирает подмножество наиболее подходящих предложений из исходного текста, ранжирует их по значимости, независимо от языка, и выбирает лучшие предложения в резюме. А именно способность быстро и независимо от языка резюмировать большие объемы текста имеет решающее значение для поисковых систем, а также для исследователей, библиотек и средств массовой информации.

Метод, получивший название MUSE (Multilingual Sentence Extractor), был протестирован на девяти языках - английском, иврите, арабском, персидском, русском, китайском, немецком, французском и испанском. Результаты показали высокую степень сходства с аннотациями, подготовленными человеком.

Ученые обучали алгоритмы с помощью группы документов, каждый из которых содержал несколько резюме, составленных человеком. После завершения обучения исследователи пришли к выводу, что нет необходимости в переподготовке программного обеспечения с обобщенными документами по каждому новому языку, а разработанная ими модель ранжирования предложений может быть использована на нескольких языках.