强化学习的探索空间在哪？道翰天琼认知智能机器人平台API接口大脑为您揭秘。-白红宇

强化学习的探索空间在哪？道翰天琼认知智能机器人平台API接口大脑为您揭秘。

阅读量：171 次

发布时间：2019-02-28

本文共 6846 字，大约阅读时间需要 22 分钟。

强化学习的探索空间在哪？道翰天琼认知智能机器人平台API接口大脑为您揭秘。

探索 VS 利用，这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而，在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题，因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化，而探索仍然更像是一个开放性话题。本文讨论几种常见的深度强化学习探索策略。由于这个话题非常庞大，本文并不能涵盖所有的内容。

经典探索策略首先介绍几种经典的探索算法，这些算法在多臂老虎机问题或简单的表格型强化学习中颇具成效。

-贪婪：智能体以较小的概率进行随机探索，在大多数情况以概率选择当前的最优动作。

置信区间上界(UCB)：智能体选择当前最优的动作来最大化置信区间上界，其中是到时间 t 为止与动作 a 有关的平均奖励函数，是与已执行动作 a 的次数成反比的函数。

玻尔兹曼探索策略：智能体根据学习到的由温度参数调节的Q值，从玻尔兹曼分布（softmax函数）中选择动作。

汤普森采样：智能体将追踪记录的最优动作概率作为先验分布，然后从这些分布中采样。当神经网络用于函数逼近时，以下策略可以在深度强化训练中使智能体更好地探索：熵损失正则项：在损失函数中加入熵正则项，鼓励智能体选择包含多元化动作的策略。基于噪声的探索：在观察、动作甚至在参数空间中添加噪声。

2
探索问题之关键

当环境提供奖励的能力非常有限或者环境有干扰噪声时，模型探索的难度会增大。

1、硬探索问题

“硬探索”问题是指在奖励非常稀少甚至具有欺骗性的环境中进行探索。在这种情况下进行随机探索基本无法找到成功的状态或获得有意义的反馈。蒙特祖玛复仇游戏是硬探索问题的一个具体实例。深度强化学习仍然需要解决雅达利游戏中的一些挑战性难题。许多论文都应用蒙特祖玛复仇游戏的环境对自己的模型进行评估。

2、电视加噪问题

“电视加噪”问题源于2018年论文《Exploration by Random Network Distillation》中的一项实验。实验限定智能体通过观察新颖的画面就能获得奖励，如果播放的电视节目中加入了不可控和不可预测的随机噪声，就能够一直吸引智能体的注意。该智能体会持续地从含有噪声的电视节目中获得新的奖励，但未能取得任何有意义的进步。图1：实验中，一个智能体因观察新颖的画面而获得奖励。如果迷宫中播放了加噪TC版影片，则会吸引智能体的注意力，使其停止在迷宫中移动（图片来源：OpenAI博客：“基于奖励的强化学习预测研究”）

内在奖励作为额外的探索奖励对于解决硬探索问题，一种常用的探索方法是用附加的奖励信号来增加环境奖励，鼓励智能体进行持续的探索。因此，策略的训练由两项组成，，其中是调整探索与利用之间平衡的超参数。

根据当前任务所定义，是在 t 时刻来自环境的外部奖励。

是当前时刻 t 的内在探索奖励。

论文《How can we define intrinsic motivation?》中提到，这种内在奖励在某种程度上受到心理学的内在动机的启发。好奇心驱使的探索可能是儿童成长和学习的重要方式。换句话说，探索活动在人的潜意识中应该有内在的奖励。内在奖励可能与好奇心、惊喜、熟悉程度以及其他许多因素有关。同样的思想也可以应用到强化学习算法中。在下面的章节中，基于附加奖励的探索奖励方法大致分为两类：一是发现全新的状态，二是提高智能体对环境的认知。1、基于计数的探索策略如果将状态的新颖程度作为内在奖励的条件，那就需要寻找一种方法来衡量当前状态是新颖的还是经常出现的。一种直观的方法是统计一个状态出现的次数，并相应地分配附加奖励。与经常出现的状态相比，附加奖励会引导智能体选择那些很少受访问的状态，这被称为基于计数的探索方法。引入经验计算函数，该函数可以不断记录序列中状态 s 的实际被访问次数。但是不能将其直接用在探索过程中，因为大多数状态的经验计算函数值为0，并且整个状态空间通常是连续或者高维的。我们首先需要对大多数状态进行非零计数。（1）基于密度模型的计数方法2016年论文《Unifying Count-Based Exploration and Intrinsic Motivation》利用密度模型估计状态的访问频率，并利用一种新算法从该密度模型中推导出伪计数。首先在状态空间中定义一个条件概，表示在前 n 个状态是的情况下，第 n+1 个状态是 s 的概率。为了从经验上衡量这一点，我们可以简单使用。给出状态 s 的重编码概定义：当观察到s的新状态出现，密度模型分配给状态 s 的概率。为了更好地调整密度模型，本文引入了两个概念：伪计数函数和伪计数总量。它们被用来模拟经验计数函数，因此有如下计算公式：和之间的关系要求密度模型正向学习，即所有的和，要求。换言之，在观察到 s 的一个实例后，密度模型对该 s 的预测概率也要相应地增加。除了需要正向学习外，密度模型还要利用非随机化的经验状态数据，进行在线训练，由此可以得到。求解上述线性系统后，可由和计算伪计数：或者通过预测增益估计PG）：基于计数的内在附加奖励的常见选择是（如MBIE-EB；2008年论文《An analysis of model-based Interval Estimation for Markov DecisionProcesses》）。基于伪计数的探索附加奖励的形式类似于。2016年论文《Unifying Count-Based Exploration and Intrinsic Motivation》中的实验采用简单的上下文树切换（CTS）密度模型来估计伪计数。CTS模型将二维图像作为输入，并根据位置相关的 L 形滤波器的乘积为其分配一个概率，其中每个滤波器的预测是由在之前图像上训练的CTS算法给出。CTS模型虽然简单，但在表达能力、可扩展性和数据效率方面有一定的限制。在后续的论文中，2017年论文《Count-Based Exploration with Neural Density Models》将训练的像素级卷积神经网络（2016年论文《Conditional Image Generation with PixelCNN Decoders》）作为密度模型改进了该方法。如2018年论文《Curiosity-Driven Experience Prioritization via Density Estimation》中所述，密度模型也可以是高斯混合模型（GMM）。他们使用变分GMM估计轨迹密度（例如一系列连贯的状态序列）及其预测概率，来指导离线策略环境中经验回放中的样本优先级。（2）哈希编码后再计数另一种对高维状态计数的方法是将状态映射到哈希码中，使状态的出现具备可追踪性（2017年论文《Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning》）。状态空间用哈希函数离散化。将探索附加奖励添加到奖励函数中，定义为，其中 N(ϕ(s)) 是 ϕ(s) 出现的经验计数。论文《Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning》中建议使用局部敏感哈希（LSH）算法将连续的高维数据转换为离散的哈希码。LSH是一类流行的哈希函数，其根据某种相似性度量方法来查询最邻近的点。如果哈希映射x↦h（x）保留了数据点之间的距离信息，封闭向量就会获得相似的哈希值，而散列向量获得不同的哈希值，那这个映射方案就是局部敏感的。（请参阅 LSH 如何用于改进Transformer模型。）SimHash是一种计算效率很高的LSH算法

道翰天琼认知智能未来机器人接口API简介介绍

认知智能是计算机科学的一个分支科学，是智能科学发展的高级阶段，它以人类认知体系为基础，以模仿人类核心能力为目标，以信息的理解、存储、应用为研究方向，以感知信息的深度理解和自然语言信息的深度理解为突破口，以跨学科理论体系为指导，从而形成的新一代理论、技术及应用系统的技术科学。认知智能的核心研究范畴包括：1.宇宙、信息、大脑三者关系；2.人类大脑结构、功能、机制；3.哲学体系、文科体系、理科体系；4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。认知智能四步走：1.认知宇宙世界。支撑理论体系有三体（宇宙、信息、大脑）论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系；2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。
认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。认知智能机器人是依托道翰天琼10年研发的认知智能CI体系为核心而打造的认知智能机器人大脑，是全球第一个认知智能机器人大脑。具有突破性，创新性，领航性。是新一代智能认知智能的最好的产品支撑。认知智能机器人技术体系更加先进，更加智能，是新一代智能，认知智能领域世界范围内唯一的认知智能机器人。认知智能机器人是新时代的产物，是新一代智能认知智能的产物。代表了新一代智能认知智能最核心的优势。和人工智能机器人大脑相比，优势非常明显。智能度高，客户粘性大，客户满意度高，易于推广和传播等核心特点。依托认知智能机器人平台提供的机器人大脑服务，可以赋能各个行业，各个领域的智能设备，各类需要人机互动的领域等。认知智能机器人平台网址：www.weilaitec.com，www.citec.top。欢迎注册使用，走进更智能机器人世界。
认知智能和人工智能的优劣势对比主要可以分为四大方面：第一：时代发展不同。人工智能是智能时代发展的第二个阶段，认知智能是智能时代发展的第三个阶段。时代发展上决定了认知智能更显具有时代领先性。第二：基础理论体系不同。人工智能的基础理论体系以数学为基础，以统计概率体系为基础。认知智能基础理论体系以交叉许可理论体系为基础。包含古今中外哲学体系，心理学体系，逻辑学体系，语言学体系，符号学体系，数学体系等学科。其基础理论体系更加具有创新性，突破性和领先性。且交叉学科理论体系的研究也是未来智能发展的大方向。其具体理论体系，还包含三体论（宇宙，信息，大脑三者关系），融智学，和HNC等。第三：技术体系不同。人工智能的核心技术体系主要是算法，机器学习，深度学习，知识图谱等。其主要功用在感知智能。感知智能其核心主要是在模仿人类的感知能力。认知智能的核心技术体系是以交叉学科理论体系而衍生出来的。具体包含三大核心技术体系，认知维度，类脑模型和万维图谱。认知智能的技术体系核心以类脑的认知体系为基础。以全方位模仿类脑能力为目标。人工智能以感知智能为基础的体系，只能作为认知智能中的类脑模型技术体系中的感知层技术体系。类脑模型大致包含，感知层，记忆层，学习层，理解层，认知层，逻辑层，情感层，沟通层，意识层等9大核心技术层。因此人工智能的核心只是作为认知智能类脑模型中的感知层。因此在技术体系上，人工智能和认知智能基本上没有太多的可比性。第四：智能度成本等方面的不同：人工智能产品的综合智能程度，普遍在2-3岁左右的智力水平。认知智能产品其智能程度大致在5-8岁左右。认知智能体系构建的机器人更加智能。且更省时间，更省人力和资金。优势非常多。具体请看下列的逐项对比。

道翰天琼CiGril机器人API

道翰天琼CiGril认知智能机器人API用户需要按步骤获取基本信息：

在平台注册账号

登录平台，进入后台管理页面，创建应用，然后查看应用，查看应用相关信息。

在应用信息页面，找到appid,appkey秘钥等信息，然后写接口代码接入机器人应用。

开始接入

请求地址：http://www.weilaitec.com/cigirlrobot.cgr

请求方式：post

请求参数：

参数	类型	默认值	描述
userid	String	无	平台注册账号
appid	String	无	平台创建的应用id
key	String	无	平台应用生成的秘钥
msg	String	""	用户端消息内容
ip	String	""	客户端ip要求唯一性,无ip等可以用QQ账号，微信账号，手机MAC地址等代替。

接口连接示例：http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552

注意事项：参数名称都要小写，五个参数不能遗漏，参数名称都要写对，且各个参数的值不能为空字符串。否则无法请求成功。userid,appid,key三个参数要到平台注册登录创建应用之后，然后查看应用详情就可以看到。userid就是平台注册账号。

示例代码JAVA：

import java.io.ByteArrayOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.net.HttpURLConnection;

import java.net.URL;

public class apitest {

/**

* Get请求，获得返回数据

* @param urlStr

* @return

private static String opUrl(String urlStr)

{

URL url = null;

HttpURLConnection conn = null;

InputStream is = null;

ByteArrayOutputStream baos = null;

try

{

url = new URL(urlStr);

conn = (HttpURLConnection) url.openConnection();

conn.setReadTimeout(5 * 10000);

conn.setConnectTimeout(5 * 10000);

conn.setRequestMethod("POST");

if (conn.getResponseCode() == 200)

{

is = conn.getInputStream();

baos = new ByteArrayOutputStream();

int len = -1;

byte[] buf = new byte[128];

while ((len = is.read(buf)) != -1)

{

baos.write(buf, 0, len);

}

baos.flush();

String result = baos.toString();

return result;

} else

{

throw new Exception("服务器连接错误！");

}

} catch (Exception e)

{

e.printStackTrace();

} finally

{

try

{

if (is != null)

is.close();

} catch (IOException e)

{

e.printStackTrace();

}

try

{

if (baos != null)

baos.close();

} catch (IOException e)

{

e.printStackTrace();

}

conn.disconnect();

}

return "";

}

public static void main(String args []){

//msg参数就是传输过去的对话内容。

System.out.println(opUrl("http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552"));

}

转载地址：http://scwn.baihongyu.com/

你可能感兴趣的文章

强化学习的探索空间在哪？道翰天琼认知智能机器人平台API接口大脑为您揭秘。

2探索问题之关键

1、硬探索问题

2、电视加噪问题

道翰天琼认知智能未来机器人接口API简介介绍

道翰天琼CiGril机器人API

开始接入

2
探索问题之关键