一、Chatgpt:一种会话 ai,它将从根本上改变我们寻找信息的方式
ChatGPT是一款最新的基于文本的人工智能(AI)工具,它迅速走红,有望给我们生活的各个方面带来变革,包括教育和研究。凭借其先进的自然语言处理(natural language processing -NLP)能力。
该文献目的是通过提供10个来自不同环境研究领域的真实案例,来分享关于ChatGPT的经验和想法,目标是展示如何利用这一新兴工具进行研究,同时强调潜在的陷阱和挑战。
当前最流行的NLP模型之一是生成预训练转换器(generative pretrained transformer-GPT)系列。GPT模型是一种深度神经网络,它使用无监督学习对大量文本数据进行训练。这些模型可以生成类似人类的反应,回答问题,甚至写论文等等。
GPT系列的最新型号是上周发布的GPT-4,比上一代版本更加的强大,具有更先进的功能和可塑性。GPT-4是一个大型多模态模型,接受图像和文本输入,然后进行文本输出。虽然在许多现实场景中不如人类,但却在各种专业和学术基准上显示出人类水平的表现。
ChatGPT的流行源于它对任何问题的快速、信息丰富和看似“聪明”的回答。然而,重要的是要质疑模型是否真正理解它产生的内容,因为即使是简单的问题也经常会出现错误和错误。因此,必须谨慎行事,避免过度或低估这个新兴工具的潜力和能力。
二、发现哪些是有益的,哪些是有潜力的
1、改进写作、要点和主题的识别
1)写作语言润色和识别错误方面(不应依赖 ChatGPT 作为原始内容提供商)
2)可用于从冗长的材料中总结关键信息。
Example S1. 归纳长篇文章的要点,以便于更顺利和有效地阅读和理解文献。
对话:[List as bullet points. 100 word-limit per bullet point.] Please summarize 5 key points fromthe following paragraphs: ……(请从以下段落中总结出5个关键点:[以要点形式列出,每个要点限定100字内])
3)通过内容总结或摘要生成标题
例如,我们要求基于同一摘要的不同样式的标题,以便定制用途。ChatGPT 建议的评论文章标题更正式,而演示文稿标题更生动(示例 S2)。
Example S2. 从给定的文本中生成不同风格的标题
对话:You are an environmental researcher who did a comprehensive literature review. The keyterminology is “methane emissions”Please provide 5 candidates of title for a review articleand another 5 titles for a presentation based on the following abstract: ……(你是一位环境研究人员,做了一篇全面的文献综述。关键术语是“甲烷排放”,请根据以下摘要为一篇综述文章提供5个候选标题,并为一篇演讲提供另外5个标题)
4)帮助调整和减少写作内容以满足字数限制要求
2、顺序信息检索
作为一个大型语言模型(large language model-LLM),ChatGPT擅长基础信息检索和概念解释。当一个概念定义明确并在数据收集期间出现在多个来源中时,ChatGPT 正确解释它的可能性更高。这使得它对于需要帮助理解复杂概念(如术语、方法和策略)的初级研究人员特别有价值。对于在处理多学科问题时,需要从大量信息中快速熟悉新研究领域的高级研究人员也很有帮助。
为了测试ChatGPT在更全面信息检索方面的能力,文献验证了10个趋势环境研究课题,包括PFAS,微塑料,生命周期评估和循环经济。ChatGPT 成功地在一般层面上正确解释了所有概念(示例 S3)。
对话:[Please limit 100 words; listed as bullet points] What is PFAS?([请限制在100字以内;以要点形式列出] 什么是PFAS?)
LLM的一个很大功能(与谷歌或百度相比)是它们可以“记住”以前的对话(ChatGPT≲3000单词)。其允许一系列定制问题,以促进有针对性的信息获取。例如,我们测试了有关直接锂提取的顺序问题,从一般解释开始,逐步到用于选择性锂吸附的特定材料,并发现答案内容丰富。
3、编码、调试和语法说明
环境研究越来越依赖于数据科学,编程技能变得至关重要。不幸的是,许多环境研究人员缺乏必要的编程培训。幸运的是,ChatGPT 可以通过建议针对特定需求量身定制的代码片段、识别语法错误并提供可能的修复以及解释复杂或不熟悉的语法来促进学习过程来提供帮助。
例如,如果希望学习 Python 编码,ChatGPT 可以帮助定制解决方案,例如数据拆分、交叉验证、超参数优化等。每当您遇到不熟悉的术语或语法时,ChatGPT 都可以轻松获得其他解释。(如何提问?)
Python中监督学习的编码和学习:我们用一个空气质量预测的例子来说明如何使用ChatGPT来协助样本Python代码的生成和陌生的语法学习。要求从相对笼统到更具体
-
对话1:[lmaging you are an environmental data scientist. You are going to conduct a supervised learning research on prediction of daily concentrations of organic carbon aerosols based oncollected environmental variables, including CO, NO, NO2, NOx, 03, PM10, SO2, airpressure, relative humidity, temperature, wind direction, wind speed, and rainfall. Addannotations in the code] Please provide a sample Python code that uses linear regressionand random forest.([假设你是一位环境数据科学家。你要根据收集的环境变量,包括CO、NO、NO2、NOx、03、PM10、SO2、气压、相对湿度、温度、风向、风速和降雨,对有机碳气溶胶的日浓度预测进行监督学习研究。代码中的补充说明]请提供一个使用线性回归和随机森林的Python代码样本。)
-
对话2:Now, you are going to optimize the random forest model by including a validation dataset.Also use cross-validation and gird search. Instead of MSE, using RMSE as the cost function.Optimize five hyperparameters and each of them needs to have 4 different values oroptions.(现在,你要通过包括一个验证数据集来优化随机森林模型。同时使用交叉验证和网格搜索(自动调参)代替MSE,使用RMSE作为成本函数。优化五个超参数,每个参数需要有4个不同的值或选项。)
-
对话3:[200 word-limit, Use an environmental example. Explain the concept to a beginning learner who doesn’t have any machine learning experience] Can you explain what does”min_samples _leaf” do for the model?([200字的限制,使用一个环境实例。向没有任何机器学习经验的初级学习者解释这个概念] 你能解释一下 “min_samples _leaf “对模型有什么作用吗?)
三、发现的问题和需要谨慎的地方
1、捏造信息和缺乏更新的领域知识
LLM的工作机制确定它可能产生虚假或捏造的信息。也许最重要的问题之一是它提供了特定文本的虚构引用或来源,例如捏造的 DOI 或 URL 链接。此外,ChatGPT 的训练数据仅扩展到 2021 年,并且由于它在无法访问互联网的情况下生成响应,因此在数据有限的领域(例如学术文献)的局限性被放大。因此,ChatGPT经常无法提供最先进的科学和工程信息。(OpenAI已宣布在ChatGPT中实现了对插件的初始支持,帮助ChatGPT访问最新信息、运行计算或使用第三方服务。与此同时,OpenAI亲自上阵提供了两款插件:网络浏览器和代码解释器。简单来说ChatGPT终于“联网”了,通过第三方插件,在方方面面更好地为用户提供服务)
例如我们向ChatGPT提出了一系列关于PFAS的问题。虽然ChatGPT能够提供有关PFAS的有用一般信息,例如它们的物理和化学性质(示例S3),但当被问及PFAS的化学结构(示例S6)时,它错误地提供了PFOA的化学式。此外,当被问及微生物电化学系统(MES)是否能够降解PFAS时,ChatGPT断言MES已被证明可以降解PFAS(示例S7)。
但是ChatGPT 无法获得此信息,因为关于 MES 降解 PFAS 的第一篇出版物是在 ChatGPT 的训练数据截止后发布的。当被要求提供这些信息的来源时,ChatGPT 捏造了一个看似可信的文献参考和一个虚构的 DOI,导致一篇完全不相关的文章。相同的模式在多个设备和帐户中重复出现,ChatGPT提供了不同的文献参考,但没有一个是真实的。(缺乏领域知识)。因此,建议研究人员在依赖 ChatGPT 的信息时要谨慎行事,并始终对回复进行事实核查。
2、决策中缺乏问责制
环境研究涉及许多决策过程。尽管 ChatGPT 不断更新和改进,但几乎不可能完全消除虚假或虚假信息。此外,决策过程仍然严重依赖人类的智慧和判断,人工智能的参与仍然存在争议。事实上,研究人员发现,ChatGPT会产生带有社会偏见的反应,对依靠人工智能解决环境问题提出了质疑。作为额外的复杂性,人工智能不能对他们的决定负责,至少现在还没有。因此,在邀请人工智能参与决策过程时必须谨慎行事,特别是对于与公共福利密切相关的环境问题。
法学硕士的另一个关注领域与所使用的培训材料有关。由于语料库的很大一部分来自在线平台,因此有可能被故意操纵以改变行为(例如,中毒攻击),尽管对源数据集进行了过滤和加权(例如,GPT-3 中的常见爬网数据集),以及 ChatGPT 避免响应用户引发的阴谋论的预设规则,它可以在多大程度上从用于培训的语料库中过滤掉有害信息仍不清楚。
3、依赖 ChatGPT 的机会成本
虽然 ChatGPT 带来了很多便利和许多好处,但使用此工具可能会导致过度依赖,并且其单一输出没有不同的来源和意见可能会阻碍创造性思维。传统的搜索引擎提供相关信息列表,而ChatGPT提供缺乏多样性的单一响应。此外,过分依赖 ChatGPT 可能会阻碍一个人对新知识的学习曲线。例如,如果受训者依靠该工具生成编程代码,则该人可能会错过学习机会,并且无法获得自己的技能。这个问题反映在许多学校禁止或限制在学习环境中使用 ChatGPT 的政策中。ChatGPT 应该在多大程度上参与各种任务由自己决定,建议将其用作助手而不是替代品。
四、ChatGPT 的高级用途
1、准确提示以获得高质量的回答
我们可以而且应该通过使用提示工程来设计更好的问题来提高 ChatGPT 的响应质量。典型的指南包括角色扮演、文本格式、风格或语气、字数限制和其他个性化要求。在这个例子中,我们要求 ChatGPT 用不同的工程提示解释“厌氧消化”(示例 S9)。我们要求 ChatGPT 扮演不同的角色(例如,演示者、家庭成员、研究员和教授),并提供不同的文本格式或风格(例如,项目符号、简短对话、研讨会演讲和带有降价风格的阅读材料)。
-
对话1:What is anaerobic digestion?(什么是厌氧消化?)
-
对话2:[List as 6 bullet points. Maximum 30 words per point. Used for presentation slides,] What isanaerobic digestion?([以6个要点的形式列出。每点最多30字。用于演示幻灯片] 什么是厌氧消化?)
-
对话3:[Use a formal and academic tone with sophisticated vocabulary Use environmental acronyms and jargon. Include specific reactions, microorganisms, pathways to explainmechanisms] What is anaerobic digestion in 400 words?([使用正式的学术语气和复杂的词汇,使用环境术语和行话。包括具体的反应、微生物、路径来解释机制] 用400个字说明什么是厌氧消化?)
-
对话4:[Style or tone guide: Use a conservational, casual style as you are talking with your mom every day. Avoid acronyms and jargon. Use short sentences,] What is anaerobic digestion in200 words?([风格或语气指南:使用保守的、休闲的风格,因为你每天都在与你的母亲交谈。避免使用缩略语和专业术语。使用短句子] 200个字阐述什么是厌氧消化)
-
对话5:[lmaging you are an environmental researcher to give a talk in a public seminar. Your audiences are K-9 students. Style or tone guide: Use simple language to break downcomplex concepts. Avoid acronyms and jargon. Use short sentences,] What is anaerobicdigestion?([假设你是一个环境研究者,在一个公共研讨会上发表演讲。你的学生是K-9学生。风格或语气指南:使用简单的语言来分解复杂的概念。避免使用缩略语和专业术语。使用短句子] 什么是厌氧消化?)
-
对话6:[lmaging you are a professor and now prepare a reading material for student. Leave aquestion to student at the end. Format your responses using markdown. Use headings.subheadings, bullet points, bold.] What is anaerobic digestion in 500 words?(假设你是一位教授,现在为学生准备一份阅读材料。在最后给学生留一个问题。使用markdown格式化你的回答。使用标题、副标题、要点、粗体。]什么是厌氧消化在500字内?)
通过改变提示,我们能够获得一系列针对不同受众和目的量身定制的输出,这种方法能够生成信息丰富且引人入胜的高质量回答,使其成为内容创建和知识共享等任务的宝贵工具。
2、几步即可获得量身定制的输出(AI绘画)
We consulted and revised from the example and shared text by a Youtuber, Glibatree. The original
video link is https://www.youtube.com/watch?v=MAPM6xvvg_0
例如,我们使用 ChatGPT 和 Midjourney(一种 AI 绘图工具)来设计和准备图 S1 所示的绘图。我们首先起草了一个描述性文本,介绍了使用中途进行AI绘图的规则和格式。然后,我们要求 ChatGPT 为 AI 绘图生成自定义设计选项后缀。后续步骤涉及请求 ChatGPT 使用选项后缀生成绘图命令。(现在可以识图了)
最后,我们在中途应用生成的命令来创建和优化绘图。该示例表明,我们可以利用 ChatGPT 以精确且可操作的规则执行文本和代码之外的更具创造性的工作。
B站教程:【全AI绘图,ChatGPT+Midjourney的绘图教程来啦~赶快学起来~】 ;vd_source=99616b2f2e338fe91f4a2b7c22670274
五、展望
颠覆性技术既带来机遇,也带来争议。毫无疑问,ChatGPT将改变世界,使研究和其他工作更加自动化或简化。我们应该接受并利用这些变化来推进我们的使命,但我们也应该谨慎行事,避免陷阱并认识到局限性。值得注意的是,包括美国化学学会在内的许多出版商都明确表示,像ChatGPT这样的AI工具不符合作者资格。任何使用人工智能工具生成文本或图像的行为都应在稿件中披露。随着更新的LLM(如GPT-4)的引入,它们将变得更加可靠,能够处理更复杂的任务,这可以缓解当前的一些问题。但是,我们使用 ChatGPT 和其他 AI 工具的方法应该保持一致。人类是主要的内容创造者,人工智能工具是我们的助手,旨在改善我们的生活质量和我们生活的环境。
“AI不会替代人类,那会用AI的人类会替代你吗?”