FAIR-принципы научных данных: что это и зачем они нужны
Современная наука всё сильнее зависит от данных. Исследовательские лаборатории, университеты, медицинские центры и инженерные компании ежедневно создают огромные массивы информации — результаты экспериментов, статистику наблюдений, изображения, модели, генетические последовательности, климатические расчёты и многое другое. Однако сами по себе данные ещё не делают науку эффективной. Намного важнее, можно ли эти данные найти, проверить, использовать повторно и интегрировать в новые исследования.
Именно поэтому в последние годы во всем мире активно внедряются FAIR-принципы научных данных — международный подход к организации и управлению исследовательской информацией.
https://www.go-fair.org/fair-principles/
DOI, антиплагиат и продвижение статьи в одном контуре
На vak.panor.ru можно закрыть сопутствующие задачи публикации: проверить текст, присвоить DOI и усилить публикационную упаковку статьи.
- Проверка на плагиат
- Присвоение DOI
- Продвижение статьи
Термин FAIR появился в 2016 году после публикации статьи The FAIR Guiding Principles for scientific data management and stewardship в журнале Scientific Data. Аббревиатура FAIR расшифровывается как:
- Findable — находимые;
- Accessible — доступные;
- Interoperable — совместимые;
- Reusable — пригодные для повторного использования.
Сегодня FAIR считается одним из ключевых стандартов современной цифровой науки.
Почему FAIR-принципы стали необходимыми
Ещё 20–30 лет назад большинство научных данных хранились локально — на серверах лабораторий, в закрытых архивах или вообще на персональных компьютерах исследователей. Даже после публикации научной статьи исходные данные часто оставались недоступными.
Это создавало серьёзные проблемы:
- результаты невозможно было проверить;
- исследования трудно воспроизвести;
- данные терялись спустя несколько лет;
- разные научные группы не могли обмениваться информацией;
- автоматическая обработка данных становилась невозможной.
С развитием big data, искусственного интеллекта и международных научных проектов проблема стала критической.
Сегодня наука производит настолько большие объёмы информации, что без единых правил управления данными исследовательская инфраструктура начинает работать неэффективно.
FAIR-принципы стали ответом именно на этот вызов.
Проконсультироваться бесплатно
Подскажем по публикации в журналах ВАК, требованиям к статье, срокам и редакционной подготовке материала.
FAIR и открытая наука
Очень часто FAIR связывают с концепцией open science — открытой науки. https://openscience.ru/
Open science предполагает более свободный обмен знаниями, публикациями, методиками и научными результатами. Однако FAIR — это не просто открытый доступ к данным.
Важно понимать разницу:
- данные могут быть открытыми, но плохо структурированными;
- данные могут быть закрытыми, но соответствовать FAIR.
Например, медицинская база пациентов может быть недоступна публично из-за конфиденциальности, однако при этом иметь стандартизированные метаданные, систему доступа, описание форматов и правила использования. Такие данные всё равно будут соответствовать FAIR-принципам.
Главная задача FAIR — сделать данные пригодными для работы как людей, так и компьютерных систем.
Что означает Findable — находимость
Первый принцип FAIR связан с возможностью быстро найти данные.
Для этого используются:
- DOI;
- постоянные идентификаторы;
- метаданные;
- поисковые системы;
- научные репозитории.
Если набор данных невозможно обнаружить, он практически бесполезен для научного сообщества.
Современные FAIR-системы предполагают, что каждый набор данных должен иметь уникальный идентификатор и подробное описание.
Метаданные обычно включают:
- автора;
- организацию;
- дату создания;
- формат данных;
- метод получения;
- ключевые слова;
- условия доступа.
Благодаря этому исследователь может быстро понять, подходят ли ему эти данные для дальнейшей работы.
Accessible — доступность данных
Второй принцип FAIR связан с доступностью информации.
Доступность не означает полную открытость. FAIR допускает:
- открытый доступ;
- ограниченный доступ;
- лицензируемый доступ;
- авторизованный доступ.
Главное — наличие прозрачных правил получения информации.
Даже если сами данные недоступны, информация о них всё равно должна сохраняться. Это позволяет другим исследователям понимать, что такие данные существуют.
Современные FAIR-системы используют стандартные интернет-протоколы доступа, благодаря чему данные можно получать автоматически через API и цифровые сервисы.
Interoperable — совместимость данных
Совместимость считается одним из самых сложных FAIR-принципов.
На практике разные лаборатории часто используют собственные форматы, обозначения и системы классификации. В результате данные сложно объединять.
FAIR предполагает использование:
- стандартных форматов;
- единых словарей;
- онтологий;
- машиночитаемых структур;
- международных стандартов описания.
Совместимость особенно важна для:
- международных исследований;
- медицинских проектов;
- климатических моделей;
- искусственного интеллекта;
- биоинформатики.
Например, если десятки научных центров собирают данные о климате, но делают это в разных форматах, автоматическое объединение информации становится крайне сложным.
FAIR позволяет решить эту проблему.
Reusable — повторное использование данных
Последний принцип FAIR связан с повторным использованием научной информации.
Чтобы данные можно было использовать повторно, необходимо:
- подробное описание происхождения данных;
- прозрачная методология;
- наличие лицензии;
- корректное документирование;
- соблюдение отраслевых стандартов.
Без этого даже открытые данные быстро теряют ценность.
Сегодня повторное использование данных становится одним из важнейших факторов развития науки. Многие исследования строятся именно на анализе уже существующих массивов информации.
Особенно активно это применяется:
- в медицине;
- в генетике;
- в экономике;
- в анализе больших данных;
- в обучении нейросетей.
FAIR и искусственный интеллект
Развитие искусственного интеллекта сделало FAIR особенно актуальным.
Современные ИИ-системы требуют огромных объёмов качественных данных. Причём важно не только количество информации, но и её структура.
Некачественно организованные данные приводят к ошибкам обучения моделей, снижению точности алгоритмов и невозможности масштабирования исследований.
FAIR позволяет сделать научные данные machine-readable — пригодными для автоматической обработки.
Именно поэтому FAIR всё чаще рассматривается как основа AI-ready data — данных, готовых для искусственного интеллекта.
FAIR и управление исследовательскими данными
Сегодня FAIR тесно связан с концепцией Research Data Management (RDM) — управления исследовательскими данными.
Современный RDM включает:
- планирование жизненного цикла данных;
- хранение;
- резервное копирование;
- описание метаданных;
- лицензирование;
- публикацию;
- архивирование.
Во многих странах исследователи уже обязаны создавать Data Management Plan (DMP) — план управления данными.
В нём описывается:
- какие данные будут собираться;
- как они будут храниться;
- кто получит доступ;
- как обеспечивается FAIR-совместимость.
Особенно активно такие требования внедряются в европейских грантовых программах.
Где FAIR применяется сегодня
FAIR-принципы используются практически во всех современных научных направлениях.
Биомедицина
Медицинские исследования создают огромные массивы данных:
- геномы;
- результаты анализов;
- клинические исследования;
- изображения МРТ;
- эпидемиологические данные.
FAIR помогает объединять эти данные и использовать их для разработки новых методов лечения.
Климатология
Климатические модели требуют интеграции данных спутников, метеостанций и океанографических исследований.
Без FAIR работа с такими массивами информации практически невозможна.
Инженерия и промышленность
Промышленные компании активно используют FAIR для цифровых двойников, автоматизированной аналитики и управления производственными системами.
Искусственный интеллект
ИИ требует качественно структурированных datasets.
Именно поэтому FAIR постепенно становится стандартом для AI-инфраструктуры.
Репозитории данных и FAIR
Одним из ключевых инструментов FAIR являются научные репозитории.
Такие платформы обеспечивают:
- долговременное хранение данных;
- публикацию datasets;
- выдачу DOI;
- индексацию;
- хранение метаданных.
Сегодня многие научные журналы требуют обязательного размещения datasets в репозиториях перед публикацией статьи.
Особенно это характерно для журналов Q1 и Q2.
Какие проблемы мешают внедрению FAIR
Несмотря на активное развитие FAIR, внедрение принципов идёт неравномерно.
Основные проблемы:
Недостаток инфраструктуры
Не все университеты и научные организации имеют собственные репозитории и системы управления данными.
Отсутствие компетенций
Многие исследователи не умеют работать с метаданными, лицензиями и стандартами описания данных.
Дополнительная нагрузка
Подготовка FAIR-совместимых данных требует времени и ресурсов.
Различие отраслевых стандартов
Разные научные дисциплины используют разные форматы и подходы к описанию информации.
Тем не менее международное научное сообщество постепенно приходит к выводу, что без FAIR дальнейшее развитие науки будет затруднено.
FAIR и научные публикации
Современные научные журналы всё чаще требуют:
- публикацию datasets;
- ссылки на репозитории;
- наличие DOI;
- прозрачное описание методологии;
- открытые supplementary materials.
FAIR повышает:
- прозрачность исследований;
- воспроизводимость;
- цитируемость научных работ;
- доверие к результатам.
Кроме того, исследования с доступными datasets чаще цитируются другими учёными.
FAIR и будущее науки
Сегодня FAIR рассматривается как один из базовых стандартов цифровой науки XXI века.
Рост объёмов данных, развитие ИИ и международных научных проектов делают стандартизированное управление информацией жизненно необходимым.
В ближайшие годы FAIR будет становиться всё важнее из-за:
- развития искусственного интеллекта;
- роста big data;
- усиления open science;
- международной интеграции науки;
- повышения требований к воспроизводимости исследований.
Для исследователей работа с FAIR-данными постепенно превращается из дополнительного навыка в обязательную профессиональную компетенцию.
Почему FAIR важен для российских исследователей
Российская научная система также постепенно движется в сторону открытой науки и современных систем управления данными.
FAIR особенно важен для:
- международных проектов;
- публикаций в зарубежных журналах;
- интеграции в глобальную науку;
- развития университетских репозиториев;
- повышения видимости исследований.
Кроме того, FAIR помогает самим научным организациям эффективнее хранить и использовать собственные данные.
Заключение
FAIR-принципы — это современный международный подход к организации научных данных.
Их главная задача — сделать данные:
- находимыми;
- доступными;
- совместимыми;
- пригодными для повторного использования.
В условиях цифровой науки FAIR становится необходимой основой для развития исследований, искусственного интеллекта, международного сотрудничества и open science.
Сегодня FAIR уже влияет на требования научных журналов, грантовые программы и инфраструктуру исследовательских организаций. В ближайшие годы значение этих принципов будет только расти, а грамотное управление научными данными станет одной из важнейших компетенций современного исследователя.
I.kazarova@panor.ru