您的当前位置：首页正文

Human-level concept learning翻译（1）

来源：吉趣旅游网

概率算法归纳得人类级别概念学习

人们经常可以通过一个简单的例子来拓展学会一个新的概念。但是目前的机器学习算法却需要好几百的例子才能形成比较准确的结果。人们形成一个新概念的渠道比机器要广泛，比如通过动作、图像、文字说明等。我们提出了一个能够在简单的视觉概念方面，即世界字符表的手写字符，媲美人类的学习能力的计算模型。本模型把概念描绘成基于贝叶斯理论对所给出的示例理解得最好的一段简单程序。在这个单次识别的很有挑战性的任务中，本模型达到了人类级别的表现并且胜过了现在的深度学习算法。我们也提出了一些“图灵视觉测试”，来探查本模型针对一般情况的创造能力，而模型的这一能力在许多情况下与人类行为很难区分。
尽管人工智能与机器学习发展非同凡响，但是机器却一直不能在两方面达到人类水平。其一是对于大多数天然或人造的种类，人类能够仅通过很少的例子就能够对此形成概念。而机器学习的算法却需要成百上千的示例才能取得与人类相当的成果。比如，人类只需一个这种两个轮子代步工具的例子就能形成“这个东西”的概念并与其它东西区分开，甚至小孩子都可以只看一个东西就能够形成一个很有意义的概况。与此相反，许多机器学习算法的佼佼者都需要大量的数据，特别是那些在目标识别与语音识别实现了新突破的深度学习算法。其二，人们针对哪怕很简单的概念上都能形成比机器更为丰富的模型表示，用这些模型来实现更多的用处，包括：创造新的例子，把这个“东西”分成几个部分使其直接关系紧密，或者是在已有的种类上抽象出一个新的种类。相反，最好的机器分类算法也不能完成这些附加的功能。这些功能很少来进行“学习”或常常需要特殊的算法。一个核心挑战便是来解释这两个关于人类级别概念学习的问题：人们是如何以很少乃至一个例子形成了一个概念？人们又是如何形成了如此简要而丰富与复杂的模型表示？当把这两者放在一起时会产生更严峻的挑战：如何在只有如此稀少的数据面前形成丰富的模型表示？对于任意一种学习理论，适应越复杂的模型需要越多的数据而不是更少。为了实现一个好的普适情况，通常需要甄别新旧例子的不同。尽管如此，人类似乎以其惊人的敏感做到了这一切，从稀少的数据中形成了极丰富的概念。
这篇论文介绍了BPL（贝叶斯学习程序）的框架，可以从一个单独的例子中形成一类视觉概念并且其概况总结的方式与人类难以区分（这里指的是后文中笔画分解）。算法将概念表示为简单的概率程序，即以简要的描述语言构造的过程来表述概率生成的模型。我们的框架把三个分别在认知科学与机器学习领域过去几十年影响巨大的关键想法整合在了一起：创作性、因果性、学“学习”。程序可以从简单的基本元素创造性地产生丰富的概念。通过概率来处理噪声并支持在过程中创造性地概况（这不同于其他概率模型）很自然地抓住了真实世界的因果构成从而为这一类别创造新的例子。程序的“学习”从构造能够最好地解释基于贝叶斯理论得到的观察结果的程序开始，而模型通过分层优先并允许与之相关的先验经验来简化新概念的学习来学会“学习”。这些优先代表着学习归纳的偏好，提取定期的和维度的变化保持包括概念的种类以及穿越给定域的概念的表征两者都不变。简言之，BPL能够通过重新利用已存在的概念来构造新的概念，获得对真实世界多尺度有作用的因果性和创造性能力。
为了开发以上描述的算法，我们用五个很有挑战性的概念学习任务对人类、BPL和其他算法进行比较（Fig.1B）。这个挑战取材于Omniglot的简单视觉概念。Omniglot是一个我们从50种字符系统中收集到的1623个多样化的手写字符例子（Fig.2）。在在线补充素材的章节1里面是我们收集到的图像和笔画。手写字符很适合人类与机器学习相对公平地进行比较：这是自然认知并且通常作为学习算法比较的准则。然而，机器学习算法每一类都需要成百上千的训练例子，而我们在最有挑战性的地方评价分类任务、分解、形成新的例子，那就是只有一个例子来形成一个新的概念。我们还进行了更有创造性的实验：让人们和计算模型一起形成新的概念（Fig.1B.iv）。BPL与三种深度学习模型、一个模式识别分类算法还有许多各种各样的不同模型相比较，形成了为区分每个模型素材的角色（指这些模型分别更适合干什么）而进行的宽度比较。我们以目前最强的目标识别算法和HD模型代表深度卷积神经网络来进行比较。概率模型需要更多的生成次数却特别适合单目标学习。

BPL方法通过简单随机程序来表示概念，创造性地把各部分组合在一起（Fig 3A, ii, iii, iv, 论文中是把subpart，part，relation分开说的）。BPL定义了一个能够通过以新方法结合部分与子部分来形成概念的新类型的概况模型。每个新类型也代表了一种概况模型，而这个低级概况模型生成了这个概念的新例子（举一反三），使得BPL成为了一个有创造力的模型。最后一步使得新生成的例子具有与原始数据一样的格式（Fig 3A, vi）。联合分布类型Ψ，关于类型θ(1) ，……，θ(M)的新例子的集合M以及相应的二进制图片向量I(1) ，……，I(M)：
P(Ψ，θ(1) ，……，θ(M) ，I(1) ，……，I(M)) = P(Ψ)∏_(m=1)^M▒〖P(I^((m) ) |θ^((m) ))P(θ^((m) ) |Ψ)〗

P(Ψ)和P(θ^((m) ) |Ψ)的生成过程在图3B的伪代码中进行了描述，而图片模型P(I^((m) ) |θ^((m) ))的细节在支持材料的S2部分中。资源代码在网上可以获得（详见附录“感谢”部分）。本模型通过拟合以30个字符库为背景，包括图像和笔画数据的集合的条件分布来学着“学习”。而该集合也可以通过深度学习模型来进行预训练。不论生成的数据还是从上述集合中取得的任意字符都可以用来进行后续的评估任务，而且为本模型提供了原始图像和新的字符。
手写字符的类型Ψ是部分、子部分、相互之间关系的抽象概要。书写的大致过程为：字符笔画Si从按下笔开始到提起笔结束（Fig 3A iii），而子部分Si1,…,Sini则是通过笔的短暂暂停将之分开（Fig 3A ii）。要构造一个新类型的字符，首先本模型从背景集合中的经验分布中得出总共多少个部分（记为k），及每个部分有多少个子部分（记为ni）。第二步，从背景集合学习得到离散的原始数据（Fig 3A i）从而得到子部分形成部分Si的模板，这样下一个部分的概率就会依赖于之前步骤。第三步，通过取得控制点并测得每个子部分的参数，部分构成参数曲线（样条函数）的基础。最后，“部分”便依据关系Ri（Fig 3A iv）随意地独立地放置在开始、结束或者继续上一个“部分”的任意位置。
通过执行“部分”程序和“关系”程序以及模拟墨水如何从笔流到纸上来生成符号θ^((m) )。首先，向控制点位置和子部分的大小增加噪声来生成符号级别符号笔画S(m)。第二步，笔画的起始位置L(m)通过前几笔笔画的关系Ri提供的图解而得到。第三步，求得全局的转换关系，包括仿射变换A(m)和适应的噪声参数来简化概率推断。最后，通过一个随机生成函数生成一张二进制图像I(m)。该图像将灰度和像素值的解释联系起来形成笔画轨迹作为独立的伯努利实验。
接下来的推理需要查找能够生成新的图像I(m)程序的大型组合空间。我们的策略是采取自下而上的方法来生成一系列的候选解析过程。最靠谱的候选方法通过继续优化和本地搜索来具体化，形成对后验分布P(Ψ，θ(M)|I(M))的离散近似。图4A展示了对于训练图像I(1)的一套发现程序，以及他们怎样修改不同的测试图像I(2)来计算分类分数log⁡〖P(I^2 |I^1)〗(对数预测后验概率)，得分越高则越可能属于同一类。只有在至少一组“部分”和“关系”能够在不违反分类学习可变模型的软约束下成功解释训练和测试图片的情况下才会有一个高分。图像4B比较了模型得分最高的那些解析方式和相应的人类的解析方式。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文