Программа с точностью 99% выявляет академические тексты, созданные ChatGPT

04 Aug 2023
134

Ученый-химик из Канзасского университета Хизер Десайер, использующая машинное обучение в биомедицинских исследованиях, представила новый программный инструмент, который с 99% точностью распознает научные тексты, созданные при помощи искусственного интеллекта ChatGPT.

В журнале Cell Reports Physical Science были опубликованы результаты исследования, демонстрирующие эффективность ее метода обнаружения текстов авторства искусственного интеллекта, а также исходный код, достаточный для того, чтобы другие могли воспроизвести этот инструмент.

"ChatGPT и все другие подобные ему генераторы текстов, созданные искусственным интеллектом, подтасовывают факты, — сказала Десайер. — В академических научных изданиях, где пишут о новых открытиях и границах человеческих знаний, мы действительно не можем позволить себе засорять литературу правдоподобно звучащей ложью. Они неизбежно попадут в публикации, если генераторы текстов с искусственным интеллектом будут широко использоваться. Насколько я знаю, не существует надежного способа автоматизированного поиска этих "галлюцинаций", как их называют. Как только вы начнете наполнять реальные научные факты выдуманной ИИ чепухой, которая звучит вполне правдоподобно, эти публикации станут менее достоверными и менее ценными".

По словам американской исследовательницы, успех ее метода обнаружения зависит от сужения круга проверяемых текстов до научных, которые обычно встречаются в рецензируемых журналах. Это повышает точность по сравнению с существующими инструментами обнаружения ИИ, такими как детектор RoBERTa, которые нацелены на обнаружение следов деятельности ИИ в более общих текстах.

"Вы можете легко создать метод, позволяющий с высокой точностью отличать человеческие тексты от текстов ChatGPT, но с учетом того, что вы ограничиваетесь рассмотрением определенной группы людей, которые пишут определенным образом, — сказала Десайер. — Существующие детекторы ИИ обычно разрабатываются как инструменты общего назначения, которые можно использовать для работы с любым типом текста. Они полезны для своих целей, но для любого конкретного вида текста они не будут столь точны, как инструмент, созданный для этой конкретной и узкой цели".

Успех Десайер и ее команды в обнаружении текстов, написанных искусственным интеллектом, возможно, объясняется тем, что при разработке кода использовался высокий уровень человеческого понимания (в отличие от машинного обучения распознаванию образов). Группа построила свой подход, не опираясь на стратегии, использовавшиеся в предыдущих методах обнаружения текстов, сгенерированных ИИ. Полученная методика содержит элементы, совершенно уникальные для области обнаружения текстов ИИ.

"При разработке ключевых характеристик мы не ставили в центр внимания текст ИИ, — говорит она. — Мы сделали акцент на человеческом тексте. Большинство исследователей, создающих свои детекторы ИИ, задаются вопросом: "Как выглядит текст, созданный ИИ?". Мы же задались вопросом: "Как выглядит эта уникальная группа человеческих текстов и чем она отличается от текстов ИИ?"

Текст ИИ, по крайней мере в ChatGPT, — это обобщенный человеческий текст, взятый из различных источников. Текст ученых — это не обобщенный текст разных людей. Это именно текст, написанный ученым. А мы, ученые, — особая группа".