实时追踪科研动态丨7.6精选新论文,附ChatPaper综述

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:

https://www.aminer.cn/chat/g/www.aminer.cn/chat/g/

2023年7月6日精选新论文列表:

1.LONGNET: Scaling Transformers to 1,000,000,000 Tokens

链接:https://www.aminer.cn/pub/64a625ccbb296d05669f582e/

ChatPaper综述:文章指出了在大语言模型时代,扩展序列长度已经成为一个关键需求。然而,现有的方法在计算复杂度或模型表达能力上都存在困难,导致最大序列长度受限。作者在这项工作中介绍了LONGNET,它是一种Transformer变体,可以将序列长度扩展到超过10亿个标记,而不会牺牲对较短序列的性能。具体来说,作者提出了扩展注意力机制,随着距离的增加,注意力范围呈指数级扩展。LONGNET具有显著优势:1)它具有线性计算复杂度和标记之间的对数依赖关系;2)它可以作为处理极长序列的分布式训练器;3)其扩展注意力可以无缝地与现有的基于Transformer的优化方法集成。实验证明,LONGNET在长序列建模和一般语言任务上都具有强大的性能。该工作为建模非常长的序列打开了新的可能性,例如将整个语料库甚至整个互联网视为一个序列。

2.Elastic Decision Transformer

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec67dd/

ChatPaper综述:论文介绍了”Elastic Decision Transformer”(EDT),它是现有”Decision Transformer”(DT)及其变种的一项重要进展。虽然DT声称能生成最优轨迹,但经验证据显示,它在轨迹拼接方面存在困难,即从一组次优轨迹中生成最优或接近最优的轨迹。所提出的EDT通过在测试时调整DT中维护的历史长度,实现了在行动推断期间进行轨迹拼接。此外,EDT通过在前一个轨迹是最优时保留更长的历史,而在前一个轨迹是次优时保留较短的历史,来优化轨迹,使其能够与更优的轨迹“拼接”。大量实验证明EDT在DT和Q学习方法之间的性能差距缩小。特别是在D4RL机动基准和Atari游戏的多任务环境中,EDT胜过了基于Q学习的方法。

3.Physics-based Motion Retargeting from Sparse Inputs

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec6597/

ChatPaper综述:这项工作讨论了在虚拟世界中为角色赋予动作的问题。具体来说,作者提出了在有限的传感器数据情况下,通过物理学模拟将稀疏的人体传感器数据实时转化为不同形态角色的动作的方法。同时,作者还解决了角色可能具有不同骨骼结构的问题,以及角色与人体之间映射的不确定性。通过强化学习训练控制角色的策略,作者成功地实现了从真实且稀疏的数据中追踪未知用户的动作。通过将方法应用于不同骨骼结构的角色,如恐龙、类鼠动物和人类,作者展示了该方法的可行性。尽管只有上半身的传感器信息可用,但角色的姿势通常与用户惊人地匹配。最后,作者在不平衡、舞蹈和体育动作等多种情景下测试了该方法的鲁棒性。

4.DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec679d/

ChatPaper综述:论文说明了现有的大规模文本到图像(T2I)模型虽然能从详细的文本描述生成高质量的图像,但它们经常缺乏对生成或真实图像进行精确编辑的能力。针对这个问题,论文提出了一种新的图像编辑方法DragonDiffusion,可以在扩散模型上实现拖拽式操作。具体而言,论文通过构建基于扩散模型中间特征强对应关系的分类器引导方法,将编辑信号转换为通过特征对应损失修改扩散模型中间表示的梯度。基于这种引导策略,论文还构建了多尺度引导,以考虑语义和几何对齐。此外,还添加了交叉分支的自注意力机制,以保持原始图像和编辑结果之间的一致性。通过高效的设计,我们的方法实现了生成图像或真实图像的各种编辑模式,如物体移动、物体大小调整、物体外观替换和内容拖动。值得注意的是,所有的编辑和内容保留信号都来自于图像本身,模型不需要进行微调或添加额外的模块。

5.SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec65a5/

ChatPaper综述:论文介绍了一种名为SDXL的潜在扩散模型,用于文本到图像的合成。该模型在稳定扩散(Stable Diffusion)的基础上进行了改进,使用了一个三倍大的UNet主干网络,并引入了第二个文本编码器。论文设计了多种新的条件方案,并在多个纵横比上对SDXL进行训练。此外,论文还引入了一个改进模型,通过后期图像技术改善由SDXL生成的样本的视觉保真度。研究结果表明,与稳定扩散的先前版本相比,SDXL表现出显著提高的性能,并达到与现有黑盒最先进图像生成器相竞争的结果。为了促进开放研究和提高大型模型训练和评估的透明度,论文提供了代码和模型权重的访问链接。

6.What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? 

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec67ce/

ChatPaper综述:论文指出了训练GPT4风格的多模态语言模型所面临的问题。尽管最近的大型语言模型如GPT4在根据图像遵循开放式指令方面展示出了卓越的多模态能力,但这些模型的性能严重依赖于网络结构、训练数据和训练策略等设计选择。然而,关于这些选择在文献中尚未广泛讨论,这使得难以量化该领域的进展。为了解决这个问题,本文系统全面地研究了训练这种模型的问题,并进行了定量和定性的分析。具体而言,对于网络结构,我们比较了不同的LLM骨干和模型设计。对于训练数据,我们研究了数据和采样策略的影响。对于指令,我们探讨了多样化提示对训练模型的指令遵循能力的影响。对于基准测试,我们通过众包贡献了第一个全面评估集,包括图像和视频任务。根据我们的发现,我们提出了Lynx,它在保持与现有开源GPT4风格模型相比最准确的多模态理解能力的同时,具有最佳的多模态生成能力。

7.Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec658d/

ChatPaper综述:大型语言模型(LLMs)在进行规划时存在确定性偏差,即它们经常产生自信的虚构预测。这可能导致机器人在复杂的多步规划环境中需要人类的帮助。为了解决这个问题,研究者提出了一种名为KnowNo的框架,它通过测量和调整LLM基础规划器的不确定性,使其在需要帮助时知道自己不知道并寻求帮助。KnowNo利用符合预测理论提供了任务完成的统计保证,同时在复杂的多步规划环境中最大程度地减少了人类的帮助。通过在各种模拟和真实机器人设置中进行实验,包括涉及不同类型不确定性的任务(例如,从空间不确定性到数值不确定性,从人类偏好到Winograd模式),结果显示KnowNo在提高效率和自主性方面优于现代基准模型(可能涉及模型集成或大量提示调整),同时提供了形式上的保证。KnowNo可以直接用于LLMs,无需模型微调,并且提供了一种轻量级的建模不确定性的有前途的方法,可以与基础模型不断增强的能力相适应和扩展。

8.Building Cooperative Embodied Agents Modularly with Large Language Models

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec67de/

ChatPaper综述:论文探讨了大型语言模型(LLMs)在单一智能体任务中的规划能力,并指出这些模型在多智能体合作中的规划和通信能力尚不明确。然而,多智能体合作对智能体来说是至关重要的技能。为了解决这个问题,论文提出了一个新的框架,利用LLMs实现多智能体合作,并在各种具体环境中进行了测试。框架使智能体能够高效地规划、通信和合作,以完成长期任务。论文还表明,最近的LLMs(如GPT-4)可以在不需要微调或少量提醒的情况下,超越强规划方法,并通过我们的框架展现出新兴的有效通信能力。此外,我们还发现,以自然语言进行通信的基于LLM的智能体能够赢得更多信任,并与人类更有效地合作。这项研究突显了LLMs在具体AI中的潜力,并为多智能体合作的未来研究奠定了基础。

9.Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec660a/

ChatPaper综述:说明了一个问题,即T5-based LLMs在需要具有一般问题解决能力的任务上,仍然优于最新的基于解码器的LLMs,例如LLAMA和VICUNA。作者通过对VICUNA进行微调来研究第三个因素的影响,即指令数据集。他们使用了一个自定义的指令数据集集合FLANMINI,其中包括了FLAN的子集以及来自ChatGPT/GPT-4的各种代码相关数据集和对话数据集。实验结果表明,通过在FLAN数据集上微调VICUNA,他们的模型FLACUNA在INSTRUCTEVAL的多个基准数据集上实现了显著改进。

如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。

资源下载: