巨量且免费!全球研究论文索引现已发布

源自1.07亿篇论文的数十亿条短语的目录,可以简化程序化的文献检索。

一个项目计划解锁全球科研论文以更便于计算机分析:一位美国技术专家在线发布了一个庞大索引,包含了来源于1亿多篇期刊文章的单词和短语,包括许多付费论文。

该目录于10月7日发布并可免费使用,其中有大量表格,纳入了3550亿多条单词、短句及对应文章。目录的创建者Carl Malamud说,这一行动旨在帮助科学家使用软件从已发表的文献中搜集信息,即使他们没有访问相关论文的合法权限。Malamud在公共资源组织(Public Resource)支持下发布了这些文件,这是他在美国加州创立的一家非营利性组织。

Malamud说,因为他的索引不包含文章的全文,而只包含不超过五个单词的句子片段,所以索引的发布不会违反出版商对重复使用付费文章的版权限制。但有位法律专家说出版商可能会质疑Malamud起初创建索引的过程是否合法。

一些提前访问过该索引的研究人员表示,这是一项重大进展,能帮他们使用软件来搜索文献——即文本挖掘。英国剑桥大学计算生物学家Gitanjali Yadav(她研究植物释放的挥发性有机物)说,她的目标是使用该索引,分析全世界研究论文中描述的植物化学物质。“没人能通过实验分析或测量完地球上每一种植物的化学指纹。而我们想找的大部分信息都已经存在于出版文献当中了。”她说。但研究人员因没有权限访问许多论文而十分掣肘。

Malamud所说的“通用索引(General Index)”就是为了解决Yadav这样的研究者遇到的问题。计算机科学家已经通过文本挖掘来建立基因、药物和化学物质的数据库,并以远超人类阅读的速度来探索论文的内容。但他们经常发现,最终是出版商在控制他们文本挖掘的速度和范围,科学家只能挖掘开放获取的论文或他们(或所属机构)订阅了的文章。一些出版商曾表示,想要挖掘付费论文文本的研究人员需要得到他们的授权。

尽管Google Scholar等免费搜索引擎已在出版商的同意下,将付费文献的文本编入索引,但它们仅允许用户使用某些类型的文本查询进行搜索,并限制了自动搜索。Malamud说,这就不允许使用更专门的搜索进行大规模程序分析。

太字节的数据

这个项目是Malamud职业生涯中的一次最新尝试,他一直致力于解锁信息以供在线免费访问——经常面临法律指控。最初Malamud专注于发布政府制作的法律和财务文件。但最近,他将注意力转向了开放科学文献。

起初他着手开发的项目,是允许科学家们挖掘(但不能阅读)他保存在印度一个服务器中的庞大研究论文。Malamud说他还在进行这项工作。通用索引现在允许任何人挖掘科学成果,但它没有自己的网络搜索门户,所以如果科学家想进行搜索,他们必须下载这些文件并开发自己的程序。Malamud希望用户能把自己创建的各种搜索引擎开放给其他人。

该目录的压缩文件总计近5TB,扩展文件大小为38TB。除了句子片段,这些文件还包括文献中近200亿个关键词,以及论文标题、作者和DOI(论文检索号)的表格,以便有权限的用户查阅整篇论文。

美利坚大学华盛顿法学院的法律研究员Michael Carroll说,传播索引在全球范围内应能合法,因为这些文件复制的源文本太少,不足以构成对出版商的侵权——尽管各国法律有所不同。“版权不保护事实和想法,这些结果应视为对受版权保护文章进行分析所得出事实的传播。”他说。

Carroll补充说,唯一的法律问题是,Malamud获取和复制这背后的论文有没有违反出版商的条款。Malamud说他确实获得了索引中引用的1.07亿篇文章的副本——他拒绝透露是如何获得的,但他强调研究人员无法获取论文全文——这些论文储存在美国某处安全的保密地点。

“我确信我所做的事情是合法的。我们这样做不是为了挑起诉讼,而是为了推动科学进步。”他说。

《自然》为本文就General Index一事联系了六家出版商:除一家外,其余都拒绝发表评论。施普林格·自然在一份声明中表示,他们支持使用技术和算法的开放研究倡议,以满足研究人员需求。声明补充说:“然而我们看到,一些倡议未能保障必要的权利以使其能够持续进行,部分计划的推进陷入了困境。”(施普林格·自然是《自然》的出版商;《自然》新闻团队与其出版商是编辑独立的。)

另一位法律研究员,德里国立法律大学的Arul George Scaria表示,任何想利用版权法阻止研究人员使用General Index的出版商“最终都不会如愿”。Scaria说,该索引的发布,使“从那1.07亿篇期刊文章中解锁出的信息财富,获得了重大进展”。

原文以Giant, free index to world’s research papers released online为标题发表在2021年10月26日《自然》的新闻版块上

原文作者:Holly Else

© nature

doi: 10.1038/d41586-021-02895-8

版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发分享,如需转载,请邮件[email protected]。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。

资源下载: