Исследователи создали модель искусственного интеллекта с открытым исходным кодом, которая превосходит классические большие языковые модели в синтезе больших объемов научных публикаций и цитирует источники так же точно, а в некоторых случаях даже лучше, чем эксперты-люди. Система, получившая название OpenScholar, основывает свои ответы непосредственно на научной литературе, что минимизирует риск «галлюцинаций» — генерации ложной или недостоверной информации. Таким образом, модель может стать более производительным и доступным инструментом для студентов и ученых, выполняющих обзор научной литературы.
Синтез и мониторинг научной литературы являются ключевыми для исследовательской работы, включая поиск новых направлений, уточнение методологий и подкрепление результатов доказательствами. Однако стремительный рост числа публикаций делает эти процессы все более трудными для ученых. Большие языковые модели могли бы помочь благодаря своей способности обрабатывать большие массивы данных, но они часто склонны к галлюцинациям, а их обучающие данные не являются сугубо научными, что может приводить к ошибкам. Эти модели генерируют ответы, основываясь на наиболее вероятных языковых ассоциациях, даже если они не всегда релевантны или актуальны, поэтому цитируемые ими ссылки не всегда существуют или уместны.
OpenScholar предлагает решение большинства этих проблем, оставаясь полностью открытой. Исследователи могут свободно испытать её на специальном сайте или интегрировать в собственные системы, используя методику, описанную в недавней статье в журнале Nature. В отличие от моделей, обученных на разнородных данных, OpenScholar специализируется на работе с базой из 45 миллионов статей открытого доступа, оптимизированной для таких областей, как биомедицина, информатика и физика. Когда пользователь задает вопрос, система находит в этой базе релевантные статьи, ранжирует их по степени соответствия и формирует ответ, основываясь исключительно на самых подходящих из них. Этот процесс, оптимизированный под научную литературу, и призван ограничить галлюцинации. Модель работает по принципу постоянного уточнения: она генерирует первоначальный ответ, а затем при необходимости последовательно его улучшает.
Команда разработчиков протестировала OpenScholar, сравнив ее способность отвечать на научные вопросы с возможностями других популярных языковых моделей. Вопросы, охватывающие информатику, физику, нейронауки и биомедицину, были составлены экспертами уровня PhD. В результате OpenScholar дала правильные ответы на 51% вопросов по информатике, тогда как показатель GPT-4o составил 45%. Она также превзошла модель Llama от Meta* и конкурентные инструменты, такие как PaperQA2 от FutureHouse, в оценках точности цитирования и фактов. Человеческие оценщики, включавшие 12 аспирантов и постдокторантов, в 51% случаев предпочли ответы OpenScholar ответам других экспертов-людей, а при сравнении с GPT-4o этот показатель достиг 70%.
В то же время эксперты отмечают сложность объективной оценки, так как даже в рамках одной дисциплины мнения о наиболее уместной цитате для подтверждения аргумента могут сильно расходиться. Существуют у инструмента и практические ограничения: он не имеет доступа к платным статьям, что может снижать его полезность в таких областях, как инженерия или социальные науки, где открытые препринты менее распространены. Авторы исследования планируют дальнейшее развитие модели, нацеленное на повышение ее гибкости и возможность работы со статьями, доступными пользователям по подписке или загруженным локально.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.
Источник


