Новый поисковик Google поможет ученым найти нужные им наборы данных
Google всегда стремился создать механизм, позволяющий организовать всю информацию в мире, но сначала это касалось только обычного Интернета. Теперь компания хочет тоже самое сделать для научного сообщества, запустив новый поисковый движок для наборов данных.
Новый сервис, названный Dataset Search, представляет собой решение, несколько похожее на Google Scholar - популярный поисковик для академических исследований. Для того, чтобы новая поисковая машина видела нужные данные, организации, которые публикуют свои данные в Интернете, такие как университеты и государственные структуры, должны включать в свои веб-страницы теги метаданных, которые описывают наборы данных. Здесь должна быть информация о том, кто создал наборы данных, когда данные были опубликованы, как они были получены и т.д. Вся информация затем будет проиндексирована поисковиком Dataset Search и объединена с информацией из Google Knowledge Graph. Так называются те блоки информации, которые появляются при обычном поиске. Т.е. если набор данных был опубликован CERN*, в результат поиска будет включена некоторая информация об этом институте.
По словам специалиста из подразделения Google AI Наташи Ной, которая принимала участие в разработке Dataset Search, целью проекта является желание унифицировать десятки тысяч различных репозиториев наборов данных и обеспечить возможность поиска этих данных, оставив при этом их там, где они находятся. В настоящее время все публикации наборов данных исключительно фрагментированы. Различные научные домены имею свои собственные репозитории данных, то же самое делают государственные и региональные правительственные организации.
В своем первоначальном варианте Dataset Search позволяет осуществлять поиск пока только данных, касающихся социальных наук и исследований окружающей среды, правительственной информации, а также наборов данных новостных организаций, таких как ProPublica**. Однако, если этот сервис станет популярным, количество данных, которые он индексирует будет экспоненциально расти по мере того, как организации и ученые будут делать доступной свою информацию. И этому должно помочь появление все большего количества новых инициатив во всем мире, связанных с открытыми данными. А включение Google в этот процесс только его ускорит.
По словам главы Института открытых данных Джени Тениссон,
Чтобы создать достойную поисковую систему, необходимо знать, как создавать удобные для пользователя системы и понимать, что люди имеют в виду, когда вводят определенные фразы, какого типа термины они используют и в каких выражениях они это делают. И Google хорошо разбирается в обеих этих сферах.
* CERN (Conseil Européen pour la Recherche Nucléaire) - европейская организация по ядерным исследованиям, крупнейшая в мире лаборатория физики высоких энергий.
** ProPublica - автономная некоммерческая организация, в ведении которой находится крупнейший информационный ресурс журналистских расследований.