ВЕРСИЯ ДЛЯ СЛАБОВИДЯЩИХ
Авторам публикаций

Semantic Scholar: поиск научной литературы с использованием технологий ИИ

Semantic Scholar — это бесплатная поисковая система, которая была создана Институтом искусственного интеллекта Аллена в Сиэтле и запущена 2015 году. “Фишкой” сервиса стала технология глубокого семантического понимания данных, которая значительно расширила возможности обычной электронной базы данных. Поисковый алгоритм Semantic Scholar способен не только предоставить список результатов по заданным параметрам, но и “сжать” смысл текстов до нескольких предложений, облегчив тем самым процесс отбора информации.
Давайте вместе разберемся, как работает этот алгоритм и как можно максимально эффективно его использовать.

Принцип работы и условия доступа

База данных индексирует метаданные ~ 200 млн. публикаций, что по объему в разы больше, чем в WoS и Scopus. Далее ИИ “обогащает” данные, то есть извлекает из документа все нужное для того, чтобы представить его для пользователя в максимально развернутом виде: PDF файл, библиографическое описание в разных стандартах, информацию об авторах и источниках, краткое описание. На выходе получается граф знаний, то есть семантическая сеть, которая хранит информацию о разных сущностях и взаимосвязях между ними.
Illustration of the Semantic Scholar Platform (Semantic Scholar Open Data Platform, 2015)
В отличие от The Lens и Dimensions, которые работают по модели freemium, Semantic Scholar - это не коммерческий проект, а, значит, все его функции на 100% находятся в открытом доступе.

Поиск в Semantic Scholar

Чтобы начать поиск, введите ключевое слово или фразу в поле поиска. Система автоматически выводит подсказки статей, которые могут быть интересны пользователю: алгоритм семантического анализа формирует результат на основе частотного употребления фразы в тексте. Если хотите увидеть полный список релевантных источников, кликните на “search”. Русскоязычного интерфейса сервис не имеет.
Результаты поиска можно конкретизировать по области научного знания, периоду охвата, автору, наличию доступа к полному тексту и журналу, в котором текст опубликован. Дополнительно можно отсортировать документы по релевантности, наибольшей цитируемости и влиятельности или по новизне.
Краткое содержание статьи можно традиционно узнать из аннотации, но если даже они кажутся слишком длинными, можно довериться ИИ и прочитать изложение сути текста, заключенное в пару короткий предложений.
Справка: TLDR - too long; didn't read — слишком длинно, не читал — англоязычный акроним, который означает, что текст был проигнорирован из-за его многословности. Аналогично выражениям в русском интернет-жаргоне — «ниасилил, многабукаф».
Помимо этих данных, Semantic Scholar сразу же выводит информацию о цитированиях текста с разбивкой по годам.
Библиографическое описание документа можно скопировать или экспортировать в библиографический менеджер через кнопку “cite”.

Расширенные данные о документе

От результатов поиска вы можете перейти к расширенным сведениям о конкретном документе.
Справа отображены наиболее важные количественные показатели, которые помогут оценить “вес” публикации. Помимо общего числа упоминаний в работах других ученых, система рассчитывает также количество наиболее влиятельных цитирований.
Справка: Влиятельные цитирования - highly influential citations - определяются по внутреннему алгоритму с использованием модели машинного обучения, который анализирует ряд факторов, включая количество цитирований публикации и окружающий контекст для каждой из них.
Большим преимуществом Semantic Scholar является возможность перекрестного поиска. На странице документа в отдельных вкладках перечислены работы, на которые ссылается автор данной публикации (список использованной литературы), и работы, авторы которых сослались на данную публикацию. Таким образом, пройдя по цепочке цитирований, пользователь может проследить путь преемственности идей в своей области.
Также в отдельной вкладке можно посмотреть похожие работы, которое подобрал ИИ. Для каждого документа есть краткое описание, что избавляет от необходимости изучать каждую публикацию в отдельности.

Поиск по автору

Введите Фамилию и Имя автора в поле поиска и выберите из результата искомого человека, нажав на него щелчком мышки. Для уточнения поиска можно воспользоваться фильтрами.
Данные из авторского профиля и их организация в базе данных дают максимально полную картину о взаимосвязях исследователя с другими членами академического сообщества: в отдельные вкладки вынесены авторы, которых цитировал сам ученый, которые цитировали его и также список соавторов. По перечню публикаций можно проводить такой же поиск, как и в целом по базе данных, словно профиль автора - это отдельная база данных. Удобно, что можно отграничить наиболее влиятельные работы, и, таким образом, быстро получить представление о научной деятельности специалиста.
Одного взгляда на публикацию достаточно, чтобы условно оценить ее “вес”: количество цитирований и наиболее значимых упоминаний отображается под заголовком.
Слева под именем ученого отражены его ORCID и наиболее значимые количественные показатели его работы по версии Semantic Scholar: количество публикаций, индекс Хирша, общее количество цитирований и количество наиболее влиятельных цитирований за карьеру. За работой ведущих специалистов в своей области можно следить, настроив оповещение. Уведомления о новых публикациях ученого будут приходить на электронную почту.

Преимущества и недостатки Semantic Scholar

Главными преимуществами платформы являются огромный охват публикаций и свободный доступ ко всему функционалу, который гораздо разнообразнее, чем в любой другой открытой базе. Недостаток у ВСЕХ открытых баз данных один: приоритет количества над селективностью, то есть качество найденных исследований придется оценивать самостоятельно. В этом смысле даже наличие у статьи цитирований не может являться показателем.
Функция прослеживания перекрестного цитирования и коопераций ученых друг с другом позволяет быстро изучить работы наиболее влиятельных ученых в области и составить список актуальных тем для потенциальных исследований. Однако, опять же, следует учесть, что данные о публикациях составляются на основе метаданных из ОТКРЫТЫХ источников. Также автор может добавлять публикации в профиль самостоятельно. Качество проверять никто не будет. Поэтому авторский профиль не может служить отражением объективной картины вклада ученого в науку.
Semantic Scholar может стать отличным вспомогательным инструментом в работе ученого, который будет использовать функции платформы, одновременно сверяясь с данными из авторитетных баз данных. Например, проверять индексацию журнала, в котором опубликована статья, по Scopus или сравнивать показатели ученого по профилю в Web of Science. Эти функции все еще доступны в России, даже после блокировки.
Базы данных