В Индии незаметно строится огромное хранилище научных данных, законность которого под вопросом

Поделиться в социальных сетях

Карл Маламуд посвятил свою жизнь тому, чтобы сделать общедоступной информацию, находящуюся в платных источниках, и уже одержал немало побед. Он десятилетиями публикует защищенные авторским правом юридические документы — от строительных норм до судебных протоколов, настаивая на том, что такие документы в соответствии с законом являются общественным достоянием и должны быть доступны любому гражданину в сети «Интернет». Маламуду не раз приходилось отстаивать свою позицию в суде, и часть процессов он выиграл. Теперь 60-летний американский технолог поставил перед собой цель сделать доступной платную научную литературу и полагает, что у него есть законный способ это осуществить.

За прошедший год Маламуд, не обращаясь к издателям, вместе с индийскими исследователями создал гигантское хранилище текстов и изображений, извлеченных из 73 миллионов журнальных статей, датируемых с 1847 года по настоящее время. Кэш, который еще создается, будет находиться в хранилище объемом 576 терабайт в Университете Джавахарлала Неру (JNU) в Нью-Дели. «Это не каждая статья, когда-либо напечатанная в журналах, но все равно очень много», — говорит Маламуд. Он и его единомышленник из JNU, биоинформатик Эндрю Линн, называют создаваемый ими объект хранилищем данных JNU.

Читать или скачивать работы из хранилища будет нельзя, поскольку это нарушит авторские права издателей. Вместо этого исследователи смогут сканировать данные научной литературы со всего мира при помощи компьютерного программного обеспечения и извлекать оттуда суть, фактически не читая сам текст.

Беспрецедентный проект вызывает обеспокоенность, поскольку может впервые открыть обширные массивы литературы для свободного компьютерного анализа. Десятки исследовательских групп уже давно анализируют подобным образом научные материалы, чтобы создавать базы данных генов и химических веществ, систематизировать информацию о болезнях и вырабатывать научные гипотезы. Но издатели контролируют и часто ограничивают скорость и масштаб таких проектов, кроме того, как правило, дело сводится к анализу рефератов, а не полных текстов.

По словам Макса Хойсслера, исследователя биоинформатики Калифорнийского университете Санта-Круз (UCSC), хранилище данных JNU сможет преодолеть те барьеры, которые пока удерживают ученых от использования программного обеспечения для анализа научных исследований. «В настоящее время анализ текстов научных работ практически невозможен», — говорит он, добавляя, что это касается даже такого человека, как он, который уже имеет доступ к платным статьям.

С 2009 года Хойсслер и его коллеги работают над созданием онлайн-браузера генома UCSC. Он сопоставляет последовательности ДНК в геноме человека с данными исследовательских работ, в которых упоминаются те же последовательности. Для этой цели исследователи связались с более чем сорока издательствами, чтобы попросить разрешения на использование своего программного обеспечения для поиска ДНК. Но пятнадцать издателей проигнорировали запрос или ответили отказом. Хойслер не уверен, что может законно анализировать материалы, не имея разрешения, поэтому даже не пытался. В прошлом Хойсслер уже сталкивался с тем, что издатели блокировали ему доступ, обнаружив, что его программное обеспечение изучает их сайты. «Я трачу 90% своего времени просто на то, что общаюсь с издателями или пишу программное обеспечение для загрузки статей», — сетует он.

Некоторые страны смягчили законодательство в пользу ученых, посчитав, что тем, кто проводит исследования в некоммерческих целях, не нужно брать разрешение правообладателя на то, чтобы делать компьютерный анализ научных материалов, если у них есть к ним законный доступ. Великобритания приняла такой закон в 2014 году, а Европейский Союз в 2019-м. Но ученые других стран, не имеющие подобного доступа, находятся в незавидном положении. А в той же Великобритании издательства имеют право специально ограничивать скорость электронного поиска или массовой загрузки, а также устанавливать иные «разумные» ограничения для защиты серверов от перегрузки. По словам Джона Макнота, заместителя директора Национального центра текстовых исследований (National Centre for Text Mining) в Университете Манчестера (Великобритания), такие ограничения приводят к тому, что на загрузку приблизительно шести миллионов статей уйдет год, а чтобы загрузить все опубликованные статьи, касающиеся, например, биомедицины, уйдет пять лет.

Исследователи из Индии, США и Великобритании с нетерпением ждут возможности использовать хранилище JNU. Маламуд и Линн уже провели несколько семинаров в индийских государственных лабораториях и университетах, чтобы донести свою идею до профессоров, и те остались в полнейшем восторге.

Тем не менее, команде JNU еще предстоит много работы. Извлекать тексты из PDF и других форматов, которыми пользуются издатели – задача не из легких.  Но Маламуд утверждает, что его команда уже близка к тому, чтобы завершить обработку первого пласта материалов, состоящего из 73 миллионов документов. Но все же до конца года база вряд ли будет готова, поскольку много времени уйдет на проверку ошибок в текстах.

Кроме того, правовой статус хранилища пока не ясен. Перед началом работы Маламуд проконсультировался с несколькими юристами по поводу интеллектуальной собственности и надеется, что ему удастся избежать судебных исков. Он утверждает, что действует осторожно и абсолютно законно. На данный момент хранилище данных JNU имеет так называемый «воздушный зазор», то есть никто не может получить к нему доступ из Интернета. Пользователи должны лично посетить объект, и в настоящее время в него могут входить только исследователи, которым нужна информация для некоммерческих целей. В будущем Маламуд планирует разрешить удаленный доступ, но собирается действовать в этом отношении «медленно и обдуманно».

Индийские законы об авторском праве могут оказаться на стороне Маламуда. Раздел 52 Закона об авторском праве 1957 года разрешает воспроизведение произведений, охраняемых авторским правом, в образовательных целях. Другое положение того же раздела позволяет воспроизведение в исследовательских целях. Арул Джордж Скария, доцент Делийского национального юридического университета, полагает, что в соответствии с этой нормой деятельность хранилища данных JNU будет считаться законной. Однако не все согласны с такой интерпретацией. «Раздел 52 позволяет исследователям фотокопировать журнальную статью для личного использования, но это не обязательно означает, что можно полностью копировать журналы, как делает JNU», — считает Т. Прашант Редди, юрист-исследователь Центра правовой политики Видхи в Нью-Дели (Vidhi Centre for Legal Policy). — «Может помочь то, что целые статьи не передаются пользователям, но массовое воспроизведение текста, используемого для создания базы данных, помещает объект в «серую зону» законодательства».

Интернет-журнал Nature отправил вопросы по поводу законности хранилища JNU пятнадцати различным издателям. Шесть из них ответили и заявили, что впервые слышат о проекте и не могут прокомментировать его законность без дополнительной информации. Но все шестеро — Elsevier, BMJ, Американское химическое общество, Springer Nature, Американская ассоциация содействия развитию науки и Национальная академия наук США были единодушны в том, что любой исследователь, который захочет анализировать их документы с помощью программного обеспечения, должен прежде получить у них разрешение.

Маламуд осознает, что идет на риск. Но он утверждает, что это оправдано с моральной точки зрения, особенно в Индии, поскольку индийские университеты и государственные лаборатории тратят большие средства на подписку на научные журналы и до сих пор не имеют всех необходимых для своей работы публикаций. Но и ученые из Европы и США заинтересованы не меньше. Маламуд считает, что Индия должна открыть доступ к научным знаниям. «Я не считаю, что мы можем ждать, пока Европа и Соединенные Штаты решат эту проблему, потому что необходимость в этом есть уже сейчас».

Приянка Пулла

Полная версия статьи в журнале Nature

Сокращенный перевод выполнен специально для сайта День ТВ. При копировании материалов ссылка на сайт обязательна.

 

Поделиться в социальных сетях

Оставить комментарий