万字长文！DeepMind科学界总结2021年的15个高能研究

2025-08-03 12:16:32

转既有会给予不够加国际新标准既有组织的仿真。

3 正因如此于Transformer

在后提到的先于操练仿真多半数都基于Transformer的仿真核心。在2021年，物理研究核心技术人员也仍然在寻找Transformer的替代仿真。 Perceiver（种系统）的仿真核心类似于Transformer的核心，采用一个；也维度的潜在链表作为系统既有表示，并通过交叠目光对回传来进行可调，从而将回传扩展到高维。Perceiver IO 促使扩展了仿真的核心来处理事件形型式既有的反向空间。还有一些仿真尝试系统既有上Transformer之中的自目光层，一个比较成功的例兄就是采用多层种系统(MLPs) ，如 MLP-Mixer和 gMLP仿真。另外FNet 采用二阶傅立叶变换代替自目光来混合token层面的资讯。；也，把一个仿真核心和先于操练解决方案脱钩是MVP的。如果 CNN 先于操练的方型式与Transformer仿真并不相同，那么他们在许多 NLP 目标上都能给予不够有竞争力的效率。或多或少，采用其他的先于操练期望给定，例如ELECTRA-style的先于操练也不会促使效率收益。

4 若有

受到GPT-3的启发，prompting对于NLP仿真来说是一种可行的原先形型式既有。若有符；也包含一个促请仿真做单单某种先于测的模型式，以及一个用于将先于测转既有为类字句的语句既有程序来。以外的量既有方法有PET, iPET 和 AdaPET，利用若有来进行Few-shot研修。然而，若有并不是一种灵丹妙药，仿真的效率不会因不尽相同的若有不尽相同而大不并不相同。并且，为了找到最好的若有，仍然无需标注数据资料。为了有用地比较仿真在few-shot setting之中的展示单单，有物理研究核心技术人员开发了原先的赞赏程序来。通过采用公共若有池(public pool of prompts, P3)的之中的大量若有，人们可以探索采用若有的最佳方型式，也为一般的物理研究层面提供了一个极好的阐述。以外物理研究核心技术人员仅仅认清了采用若有来系统既有上仿真研修的皮毛。之后的若有将越发不够加细致，例如包含不够粗大的指称令、仍要面和比如说的例兄以及一般的启发法。若有也确实是将重构学理解确立仿真操练的一种不够自然的方型式。

5 高效量既有方法

先于操练仿真；也非常大，而且在实践之中效率不一定不高。 2021年，显现单单来了一些不够必需的核心和不够必需的微调量既有方法。在仿真上都，也有几个原先的、不够必需的自目光的版本。以外的先于操练仿真非常薄弱，只需升级的少量的值就可以必需地来进行可调，于是显现单单来了基于年终若有和USB等的不够必需的微调量既有方法急剧蓬勃发展。这种控制能力还能通过研修相应的形容词或相应的转既有来充分利用原先的模型式。另外，还有一些其他路线来大大提高效率，例如创始人不够必需的优既有器以及稀疏度的计量量既有方法。当仿真不能在新标准软件上运行，或者成本高过分昂贵时，仿真的可用性就会大打折扣。为了必需仿真在激增的同时，仿真部署也能采用这些量既有方法并且借此预见，仿真的效率无需随之退步。下一步的物理研究之中，人们不宜无需不够加容易地获和采用必需的仿真和操练量既有方法。与此同时，活动中心地带将开发不够必需的量既有方法，来与大型仿真接口，并必需地充分利用、组合成或重写它们，而不可从头开始先于先操练一个原先仿真。

6 相对于于测试

在在人工神经的网络和重构学处理事件仿真的控制能力急剧大大提高，仍然将近了许多相对于于的测量控制能力。与此同时，活动中心地带用于来进行审核的相对于于更加少，而这些相对于于来自少数年青人的机构。每个的机构的数据资料集采用具体情况表明，将近50% 的数据资料集都可以忽视来自12个的机构。以基尼指称数衡量的数据资料集采用在的机构和特定数据资料库上的集之中度大幅大大提高。因此，在2021年，可以想到很多关于最佳实践，以及如何有用地审核这些仿真的愿景蓬勃发展的讨论。重构学处理事件活动中心地带2021年显现单单来的显著的告示牌形型式既有有: 动态对抗性赞赏（dynamic adversarial evaluation）、活动中心地带驱动赞赏（community-driven evaluation），活动中心地带小团体合作开发创始人赞赏数据资料集，如 BIG-bench、区域性不尽相同误判；也的交互型式细粒度赞赏，以及胜过单一的外观设计赞赏仿真的多维赞赏。此外，原先的相对于于提单单了有影响力的设，如few-shot赞赏和区域性域普遍性。还可以想到原先的相对于于，其重点是审核国际新标准既有组织的先于操练仿真，用于特定的模型式，如不尽相同的语言学（印尼语和摩尔多瓦），以及多种形型式既有和多语言学周围环境，也不宜不够多地非议赞赏指称标。机器翻译meta-evaluation显示，在从前十年的769篇机器翻译博士论文之中，尽管提单单了108个可供选择的指称，；也不具备不够佳的人类所就其性，但74.3% 的博士论文仍仅采用 BLEU。因此，在在如 GEM 和bidimensional告示牌促请对仿真和量既有方法来进行倡议审核。相对于于测试和赞赏是人工神经的网络和重构学处理事件物理退步的关键。如果不能吻合和有用的相对于于，就不确实知道我们到底是在争得真仍要的退步，还是在过度充分利用看做的数据资料集和指称标。为了大大提高对相对于于测试疑虑的认识，下一步不宜不够加深思熟虑地外观设计原先的数据资料集。对原先仿真的审核也不宜少非议单一的的外观设计，而是考虑多个维度，如仿真的公平竞争、效率和鲁棒性等。

7 条件影像分解

条件性影像分解，即基于文档所述分解影像，在2021年争得了显著的退步。在在的量既有方法不是像 DALL-E 仿真那样单独基于文档回传分解影像，而是利用像 CLIP 这样的影像和文档embedding倡议仿真来借助 VQ-GAN 这样的薄弱分解仿真的反向。基于似然的散布仿真，渐渐去除信号之中的噪声，仍然带入薄弱的原先的分解仿真，可以胜过 GANs 。通过基于文档回传借助反向，仿真分解的影像也渐渐接近真实感的影像质量。这样的仿真也特别适用于影像修复，还可以根据所述重写影像的区域。与基于GAN的仿真相比，在在基于散布的仿真的时域速度要慢得多。这些仿真无需大大提高效率，以使它们对真实不宜用程序来感兴趣。这个层面还无需对许多现代来进行不够多的物理研究，以相符这些仿真如何通过最佳方型式和不宜用为了让人类所创作。

8 用于物理的人工神经的网络

2021年，人工神经的网络核心技术在阻截自然物理上都争得了一些突破。在气象学上都，降水中心地带地带先于测模型和先于测模型的进展造成了先于测模型吻合性的大幅度大大提高。在这两种实质上，仿真都优于最先进的基于天体物理学的先于测仿真。在药理学层面，AlphaFold 2.0以无疑的精准度先于测了核酸的构造，即使在不能类似构造的实质上也是如此。在数学上都，人工神经的网络被推论无需借助莱布尼茨的直觉去找到原先的紧密联系和解法。 Transformer仿真也已被推论无需研修数学性质的差分系统，如操练更多的数据资料就无需全局稳定。采用循环之中的仿真（models in-the-loop）来为了让物理研究核心技术人员找到和开发原先的进展是一个特别引人注目的朝向。它既无需开发薄弱的仿真，也无需物理研究交互型式人工神经的网络和许多现代。

9 程序来人工合成

今年大型语言学仿真最引人注目的不宜用之一是代码分解，Codex 作为 GitHub Copilot 的一部分，首次结合到一个主要的产品之中。然而，对于当前的仿真来说，分解繁复和粗大多种形型式的程序来仍然是一个挑战。一个引人注目的就其朝向是研修督导或数据分析程序来，这可以通过督导多步测算给予系统既有上，其之中之下部的测算步骤记录在一个暂存器（scratchpad）之中。在实践之中，代码分解仿真在多大程度上系统既有上了软件工程师的实习程序，但仍然是一个有待解决的疑虑。为了真仍要发挥作用，这些仿真ー类似于对话仿真ー无需无需根据原先的资讯升级的其先于测，并无需顾及全局和比如说下的代码上下文。

10 性别歧视

鉴于先于操练大仿真的潜在影响，至关重要的是，这些仿真不不宜包含沾染的性别歧视，不不宜被不道德以产生沾染的以下内容，而不宜当被永续的采用。一些物理研究核心技术人员对性别、特定种族社群和政治经济偏向等除此以外属性的性别歧视来进行了调查，合理既有了这种仿真的潜在风险。然而，如果单纯地从有毒仿真之中去除性别歧视不会造成对边缘既有社群就其文档的总量减缓。到已确定，在美型式英语和先于先操练的仿真以及特定的文档分解或分类不宜用上都，多半聚焦了性别歧视。顾及这些仿真的先于期用途和；也，我们还不宜致力于在多语种周围环境之中相符和减轻不尽相同模型式组合成上都的性别歧视，以及在先于操练仿真的采用的不尽相同阶段——先于操练后、微调后和测试时——的性别歧视。

11 详见资料加强

详见资料加强语言学仿真（Retrieval-augmented language models）无需将详见资料结合到先于操练和下游目标之中。 2021年，详见资料语料库仍然扩大到一万亿个token ，并且仿真仍然无需查询的网络以回答疑虑。物理研究核心技术人员还找到了将详见资料集成到先于操练语言学仿真之中的原先量既有方法。详见资料加强使仿真无需不够必需地利用值，因为它们只无需在值之中存储不够少的物理知识，而且可以来进行详见资料。它还通过简单地升级的用于详见资料的数据资料借助于了必需的域自充分利用。愿景，我们不会想到不尽相同多种形型式的详见资料，以利用不尽相同；也的资讯，如常识性物理知识，真实情况彼此间，语言学资讯等。详见资料扩展也可以与不够加形型式既有的物理知识详见资料多种形型式相转既有，例如物理知识库上都量既有方法和开放型式资讯抽取详见资料。

12 无Token仿真

自从像 BERT 这样的先于操练语言学仿真显现单单来以来，tokenize后的subword组成的文档仍然带入 NLP 的新标准回传格型式。然而，兄词记号仍然被推论在有噪声的回传之中展示单单不佳，比如在社交报导和某些；也的词法之中常见的书面语误判（typos）或书面语变既有（spelling variation）。 2021年显现单单来了原先的token-free量既有方法，这些量既有方法单独采用字符序列。这些仿真仍然被推论比多语言学仿真效率不够佳，并且在非新标准语言学上展示单单得特别好。因此，token-free确实是比subword-based Transformer不够有单单路的一种替代仿真。由于token-free仿真不具备极大的机动性，因此无需不够佳地对词法来进行数据分析，并且无需不够佳地隐含原先词和语言学的变既有。然而，与基于不尽相同；也的形态学或语法过程的兄词量既有方法相比，以外仍不清楚它们的展示单单如何，以及这些仿真做单单了什么取舍。

13 时序充分利用性

仿真在许多上都都是基于它们所受操练的数据资料而假定差值的。在2021年，这些差值受到更加多的非议，其之中之一是仿真所操练的数据资料时间开放性假定差值。鉴于语言学随之蓬勃发展，原先词汇随之转回论述，那些以不合时宜数据资料为系统既有的仿真仍然被推论隐含上去相对于较差。然而，时序充分利用（ temporal adaptation）何时感兴趣，确实取决于下游目标。例如，如果语言学采用之中的Smalltalk的变既有与目标效率比如说，那么它对目标的为了让就确实不大。愿景，开发无需充分利用原先时间开放性的量既有方法无需摆脱静态的先于操练微调设，并无需必需的量既有方法升级的先于操练仿真的物理知识，这两种必需的量既有方法以及详见资料加强在这上都是感兴趣的。

14 数据资料的益处

数据资料粗大期以来仍然是人工神经的网络的关键组成部分，但数据资料的作用；也被仿真的退步所掩盖。然而，顾及数据资料对于扩展仿真的益处，人们的目光仍要便从以仿真为之中心地带转移到以数据资料为之中心地带。这当之中关键的主题包含如何必需地创设和确保原先的数据资料集，以及如何确保数据资料质量。 Andrew NG在NeurIPS 2021上举办活动了一个座谈会就物理研究了这个疑虑——以数据资料为之中心地带的智慧。以外关于如何必需地为不尽相同的目标创设数据资料集，确保数据资料质量等依赖于最佳实践和一般性量既有方法。关于数据资料如何与仿真的研修相互作用，以及数据资料如何影响仿真的差值，人们仍然相吻合。

15 元研修

元研修和搬迁研修，尽管都相比较Few-shot learning的合作开发期望，但物理研究的社群却不尽相同。在一个原先的相对于于上，大规模搬迁研修量既有方法优于基于元研修的量既有方法。一个有期望的朝向是扩大元研修量既有方法，这种量既有方法可以不够高效利用闪存的操练量既有方法相转既有，可以大大提高元研修仿真在真实世界性相对于于测试上的效率。元研修量既有方法也可以转既有必需的充分利用量既有方法，比如FiLM层[110] ，使得国际新标准既有组织仿真不够必需地充分利用原先的数据资料集。

概要：

愿景智慧Laboratory的主要实习包含：创设AI智慧系统智力系统对体系，进行世界性智慧智力系统对；进行在线（郊区）脑部物理研究计划，构筑在线（郊区）脑部核心技术和大型企业图集，为提升大型企业，大型企业与郊区的智慧水平服务。每日推荐范围愿景科技蓬勃发展趋势的研修型文章。以外线上的网络服务已收藏上千篇精华前沿科技文章和报告。

如果您对Laboratory的物理研究感兴趣，欢迎转至愿景智慧Laboratory线上的网络服务。追踪以下二维码或点击本文右上角“读物中文翻译”

。

牙疼怎么缓解疼痛
海露可以直接滴角膜塑形镜吗
初元营养品
新冠后遗症
整肠生的功效与作用
脑肿瘤
普通内科
什么是风热咳嗽?

上一篇：买房怎么选楼层1-33层优缺点全方位数据分析，你准备好了吗

下一篇：统计局付凌晖：房地产行业平衡发展仍具备较多有利条件