摘要
随着科学研究的快速发展,阅读SCI论文已成为学生和研究者提升自身学术素养、了解学术前沿的重要途径。然而,非英语母语者在阅读SCI论文时,往往会面临专业术语和学术词汇的障碍。针对这一问题,《SCI词汇册》小程序提供了一种精准、高效、便捷的解决方案。本文介绍了其设计理念和功能特点,包括:针对SCI论文中高频词汇的统计与筛选、相近词汇整合、易于理解的中文释义、简洁易用的界面、方便自由的难度调节等。我们期望,《SCI词汇册》能够有效帮助我国学生和研究者克服阅读SCI论文过程中的语言障碍,提高学术阅读效率,为他们在科研领域取得成功创造更好的条件。
引言
对于有志于从事科学研究的非英语母语者而言,学术文献中庞杂的专业词汇构成了一项持续且颇具消耗性的挑战。长期以来,专业词汇学习的主要是通过个人在课堂学习,阅读英语教材以及学术论文过程中逐渐积累。然而,这些方法都存在一些明显的缺点。课堂学习往往只能涵盖部分基础词汇;通过阅读英语教材和专业书籍虽能更全面地学习相关领域的词汇,但需要投入大量时间和毅力,且很多新兴的热门概念并未包含在基础教材中。目前较为通行的方法是直接阅读论文,在阅读过程中逐步积累词汇,其于实践之中学习的优点毋庸置疑,但系统性不足。尤其在词汇积累初期,学习者难以判断单词的重要性和记忆的必要性。此外,初期阅读时需要大量查词,这让阅读过程变得支离破碎,难以保持对文章整体逻辑的理解;且频繁在阅读和查词状态间切换使保持专注的难度加大,而查询了大量单词却离读完/理解一篇论文还颇遥远也会让初学者积累挫败感。这些障碍导致专业词汇学习过程消耗了许多有志于科研的学生们无数的时间、精力和意志力。
因此,我们针对这些痛点和难点设计开发了《SCI词汇册》,希望能帮助我国学者和未来学者们更加精准、高效地进行专业词汇学习,将有限的心智资源更多地投入到更具意义、更吸引人、更需要才智和创造力的学习研究过程中。为了实现这一目标,我们进行了一些创新性的工作,并投入大量时间和精力进行内容的完善。鉴于《SCI词汇册》的潜在受众对研究论文写作风格的熟悉,以及论文形式在组织复杂内容方面的优势,我们决定在本文中以学术论文范式详细介绍《SCI词汇册》的各个方面。如果您不想花费较多时间阅读本文,也可以快速纵览后文中各个小标题并在结尾附录部分直接获取小程序试用。
方法
-
论文文本数据获取,全面覆盖不遗漏
由于《SCI词汇册》第一阶段的规划中只计划完成生命科学方面的词库,我们选择采用PubMed Central数据库库中的文献进行词频统计。PubMed Central® (PMC) 是美国国立卫生研究院国家医学图书馆 (NIH/NLM) 的生物医学和生命科学期刊文献的免费全文档案库,也是该领域最著名和通用的文献全文数据库。我们通过其批量下载API获取了PMC中所有允许商用的开放获取文献全文数据共百万余篇,用于下一步的统计分析,以保证分析出的词频数据可提现普遍情况。 -
出现频次统计,定量化展示词汇常用性
为保证全面准确的统计出常见词汇和短语的出现频次,我们联合使用了多种分词/切片方式,并摸索了一些具有创新性的文本模式识别方法,最后将以上步骤得到的词频进行综合,得出一份高频词汇/短语列表。 -
筛选与整合,减少额外认知负担
统计得出的高频词汇/短语中有大量并不具有专业/学术性质的、通常在常规英语学习中已经学过的普通词汇,我们收集了多个英语常用词列表对其进行了预处理,并通过人工筛选保证尽可能去除不必收录的学术无关词汇。由于英语的构词法决定了一个单词可通过转化、合成和派生等方式产生出许多词性不同、应用场景不同或含义略有不同的衍生词,若分别记忆则效率低下,只记“基础词”则可能导致对衍生词们的不熟悉。为此我们设计了词组归并算法并根据运行情况对其进行了大量改进,以及继续通过人工干预调整算法难以完美处理的部分以保证质量。在中文释义方面,我们同样综合了多个词典/翻译工具提供的材料,结合自身经验为每一个词汇(组)确定尽可能准确表达其含义(对于一般场景与学术场景含义常有不同的词汇,还会着重考虑体现其学术用法)并易于理解的释义,努力避免给使用者带来困惑。 -
划分词库、标定难度,遇见自己需要的词汇
鉴于《SCI词汇册》的用户群中,一定有许多已经在专业词汇学习道路上付出过不少努力了,为所有用户提供同样的词库显然不是合理的做法。因此我们采用了每个一级学科(如生物学)一个基础词库+多个分领域子词库的配置,尽量让处于不同阶段、对不同领域感兴趣的学习者都能使用符合自己需要的词库。且我们根据自身经验尝试给每个词汇(组)都标上了相对难度值,允许用户根据自身需求筛选适宜难度的词汇。这有助于用户有效地根据自己的掌握程度和预期目标进行词汇学习,避免时间和精力的浪费。 -
程序界面设计,一切为了易用
出于尽可能让《SCI词汇册》易于获取的考虑,我们将其实现成了微信小程序形式,只要使用微信扫码或搜索“SCI词汇册”即可开始使用,无需额外的下载和安装。在设计用户界面时,我们倾向于选择简洁而实用的风格,尽量让使用者无需在界面操作上投入时间和精力,更多地关注词汇学习本身。
结果
统计、筛选高频单词、短语
我们使用词云的方式对于生命科学基础词库(即全部百万余篇论文)的词频统计结果进行初步展示(Fig. 1), 可以看到即使已进行基本处理、去除了最常见的通用词语,直接对论文进行统计得到的高频词汇中仍存在大量并无学术相关性的普通常用词汇(Fig. 1A), 而人工筛选过程最大程度只保留有显著学术相关性的词汇(Fig. 1B),努力提高使用时的学习效率。同时高频词组/短语同样被统计、筛选了出来(Fig. 2), 以涵盖学术词汇的常用搭配和主要以词组形态出现的学术概念。
词汇组整合与释义标注
如Fig. 1A所示,原始统计结果中不仅有一些普通词汇和标注记号(t0等)的干扰,同时也有一些词汇以不同形态重复出现(如cell&cells, fig&figure等)。因此,在筛选过程中我们也同时对明显有衍生关系的词汇<=>词汇、词汇<=>短语等进行了归并整合,使这些高度相关的内容能够被更高效地学习和记忆(Fig. 1B, 出于图片可读性的关系仅展示每个词汇组的代表词)。同样出于上述目的,我们为每个词汇组统一进行了释义标注,首先突出整组词汇的共通含义,而对于组中单词间有较显著含义细节/用法等方面差异的,也尽量按顺序呈现每个单词的特殊性。但由于工作量巨大和标注者水平的限制,部分词汇的含义和用法仅依靠词汇组释义可能并不容易理解,而随着今年高水平AI大语言模型的涌现,我们也计划于之后的版本更新中引入AI讲解功能,为学习者提供更多选择。
词库覆盖面
截至2023年6月,我们已完成生命科学基础词库、分子生物学词库、神经&认知词库、生信&计算词库的制作并上线。我们正在不断添加更多的生命科学子领域词库,以实现更全面的覆盖,之后也会努力扩充其它一级学科的词库。此外,我们为基础词库和领域词库提供了一定的协作能力,确保用户可以先在基础词库中学习,然后进入领域词库进行深入学习,并且不会再遇到在基础词库中学习过的词汇组;同时,用户也可以直接选择领域词库进行学习,不用担心错过该领域内重要的基础词汇。
界面设计与功能展示
《SCI词汇册》的核心页面——词汇学习页面采用了经典的卡片式设计,以简洁的布局引导学习者更容易地将注意力集中于单词卡片中的内容(Fig. 3)。单词卡片内部包含词汇组的核心词和(如果存在)频次最高的4个衍生词,以及它们的释义。如果用户想要程序朗读当前显示的单词或查看更多衍生词,也都有明显的按钮可供点击。单词卡片下方则是一些必要的按钮,学习者可以通过它们轻松地进行收藏、调整难度等设置以及切换到下一组词汇等。我们推荐使用者先在默认的识记模式中进行学习,学习到一定进度后程序将自动引导至隐藏释义的检验模式中,使用者可以先自行回忆释义,然后点击进行对照,以复习和检验近期学过的词汇。更多可选的复习方式也在我们的开发计划中。
总结与讨论
本项目设计并开发了《SCI词汇册》,一款辅助(目前限生命科学领域)学术词汇学习的工具。通过对海量SCI论文进行统计分析,我们制作了包含高频专业词汇和短语的词库,并审慎地进行了筛选、整合与释义标注。词库的呈现工具——《SCI词汇册》小程序拥有简洁的界面以及自由调节难度等便利功能等。我们相信,当前版本的《SCI词汇册》已经能够一定程度上帮助我国学习者高效学习专业词汇,从而更有效地精进学术英语阅读与写作能力。当然,由于我们在设计、开发这种规模的项目上能力和经验都十分有限,目前的《SCI词汇册》可能在许多方面还无法满足用户以及我们自己的期待。我们也正在积极地继续对其进行完善,如添加更多词库、优化已有词库,以及引入AI讲解等。如果您对《SCI词汇册》有任何建议或意见,我们非常欢迎您通过评论或小程序反馈渠道向我们反馈。虽然我们的团队规模较小(一人全职,一人兼职),可能无法快速实现所有的优化建议,但我们十分珍视每一份想要帮助《SCI词汇册》变得更好的声音,并在此提前表示感谢。
附录
《SCI词汇册》小程序目前已上线,您可通过微信扫描下方小程序码或微信搜索“SCI词汇册”获取试用。