自主驾驶技术的五大挑战
我们来看看无人驾驶要适应这些复杂的交通环境所面临的五大挑战。
第一,复杂交通场景的周密感知。自主驾驶要在所有条件下都要能作出安全的判断,无论是天气变化,路况的复杂,它要非常周密的感知周围的场景。
第二,意外的遭遇的理解和判断。自主驾驶必须能够抽象,所谓抽象就是能够根据环境或其他语境的线索来理解交通情境。
目前自主驾驶很难解释异常现象,比如说城市经常交通管制,交通管制有时并不提前通知;比如无人车来到这个十字路口,遇上交通管制,交警用手势指挥车辆的停止和行驶。
另外由计算机来判断路边的行人或非机动车是不是很快要闯入到自己前进的方向?这些现象说明仅仅基于简单规则的自主驾驶是不可能为每个场景进行编码。
第三,预行为理解。什么叫预行为呢?人类驾驶员是根据预行为来传达我们行驶的意图。
比如,我们开车在路上走,前方的车,我们能判断出前方开车的是一个老司机还是一个新手,如果是新手,有时候要离它远一点。但是目前在自主驾驶技术很难解释或理解这些细微的预行为。
第四,网络安全的风险。这里给大家展现的这个现象在未来一定会出现。当你早上起来到车库,让无人车开出车库,这个时候你手机上就接到一个短信,要你在今天几点以前支付比特币才能让你的车门打开。
虽然黑客的这种行为不会影响你的生命安全,但是你没有办法使用自己的车。因此,通过云端的获取和更新地图的自主驾驶将面临更大的风险。这种风险的存在使得我们在研究自主驾驶无人车的时,必须要考虑:怎么样提供更加可靠,更加安全的自主驾驶。
第五,人-车的自然交互。自主驾驶必须以自然的方式与人类交流,要实现车辆与乘客之间的无障碍交流。
比如,乘客上了无人车,自主驾驶系统知晓乘客要去的目的地,理解并回答乘客提出的问题,比如我还有多少时间能到达目的地?请播放一首歌等等。
也就是说,自然的人-车交互的可以为乘客提供更加舒适、愉快、直观的、人性化的体验,而不是一个简单的点到点的行驶。
交通高精计算的复杂性
从我前面所谈的这些问题可以清楚地看到,自主驾驶面临的许多问题是具有不确定性、脆弱性和开放性。而带来的不确定性、脆弱性和开放性是存在着两个问题,即,对于驾驶行为来讲存在:
1、条件问题。因为我们不可能枚举出规划一个行为的所有先决条件。
2、分支问题,我们不可能枚举出产生一个行为的所有分支。因此我们需要将车外复杂未知的现实世界的描述转变成有限的语义“推理”,这是一个直观的理解。
人开车在很多场合下是一种直觉的判断。直觉判断就是要使得机器也要有对环境有直观的理解。
这里展现的图是目前绝大多数自主驾驶采用的基本技术框架。首先是场景感知,然后是定位,随着给出驾驶决策、规划和行为的控制。但是我们人在开车的时候并不是按照这样一个简单的串型的方式进行的。
人类驾驶员开车是一个对交通情境认知理解的连续过程。因此我们需要探讨类人自主驾驶的一种新的方法,也就是说,自主驾驶不是简单的AI的形式,不是简单的一种形式化问题的求解。
既然不是一个简单的形式化问题的求解,那么,怎样定义自主驾驶这个问题?
这里我们把场景感知和情境认知区别开来,所谓“场景”是指某个交通场合在一个特定的时间和特定的空间中的具体情形或景象。它可以定义为一组实体,当然这种实体的描述是通过传感器的数据来获得的。
“情境”,它是指某一段时间和空间许多具体情形的概括。“情境”的“境”是指构成和蕴含在场景中的那些相互交织的因素及其相互之间的关系。
所以情境计算是对场景各个对象相互关系的解释。交通环境中各种物体(或对象)关系的描述在自主驾驶中就显得非常重要。
前面我们分别谈到了场景感知和情境计算。那么我们怎么用机器来实现它?我们还要定义机器实现的基本科学问题。
这里我们从情境认知的角度来重新定义自主驾驶:如何使自主驾驶汽车像人一样理解和记忆交通情境,使其具有记忆、推理和经验更新的机制,能够应对高动态和强随机性的交通场景变化?这里谈到了记忆和理解。
那么,怎样实现理解和记忆的目的是什么?也就是说,我们要发展一种进化的、发展的自主驾驶学习系统,使自主驾驶系统像人类驾驶员一样熟能生巧。
为什么谈到“进化”?因为如果设计一个深度学习系统来构建一个自主驾驶,你设计成什么样的算法,你的车就具有什么样的能力和属性。
但是我们人不是这样,我们在驾校学习驾驶,然后取得驾驶执照,随着开车的时间增长,驾驶技术会越来越娴熟。所以这里如何把熟能生巧和系统实现结合,这就是我们现在正在做的工作。
在我们思考这个问题的时候,需要从认知的角度去了解人类驾驶员是如何注意并获取交通环境信息的?而交通环境的信息是如何在大脑中储存和加工的?特别是在产生驾驶行为的背后存在怎样的内部表征?
人对环境信息的注意是具有高度选择性,它只注意自己感兴趣的,只注意自己在下一步采取行为的时候,周围的场景因素会对自己的行为产生什么样的影响。
从这个角度来看,我们要将许多无意义的线段及场景特征组织和建立一个有意义的模型。我们从视觉获得场景的图像,实际上传感器得到的都是若干个杂乱的无意义的点、线段,那怎么把无意义的点、线段描述成有意义的实景,这就需要知识。
从认知的层面,将孤立、分别的感知事件转换成有意义的模型表征。每一个传感器是从这个感知通道得到孤立的事件,那怎么能够把各类传感器所获得的信息在事件驱动的情况下来构成有意义的模式表征?按照这样一个思路,我们逐步来实现怎么在机器上通过算法和模型表征它。
这里给出场景感知与情境记忆的基本模块。这是环境信息输入,我们可以把视觉传感器所获得的信息看成是传感器对外界场景的快速扫描,快速的扫描是一种预编码,在这面我们引入一些选择性记忆,把这样一个预编码的信息再送到短期的记忆,后面是长期记忆,长期记忆是把前面短期记忆抽象出来的知识和我们的交通规则整体形成一个长期记忆的知识库。
人类对视觉空间关注的基本机制
在信息处理模型中有四个认知过程,正如我前面所谈到的对场景的快速扫描,是一种选择性注意。对感觉记忆的一些特定信息的注意,然后进入到“学习”,而这个学习是在短期记忆中建立联系,我们又称之为“组织”。
从图像处理来看,提取了各个边缘, 把这些边缘组织形成有意义的面,这些有意义的面进而构成对一个三维物体的描述,也就是说,从线到面再到三维实体描述,实际上就是一个组织的过程。对这些组织的过程,我们还需要进行整合,这个整合实际上是把长期记忆与现场,还有与交通规则形成关联描述。
这些长期记忆还要反馈到短期记忆中,然后在短期记忆中再进行整合,这个整合过程是一个再学习的过程。也就是说在已有知识情况下扩充一种新的知识的描述。
得到这样一个结果以后,我们就可以实现把一个短期记忆转换成长期的记忆,就可以实现一种编码。在这个过程中既有前馈又有反馈,而当前主要的自主驾驶汽车框架是串型结构。
另外,人对场景的变化非常敏感,比如人开车看到右前方有一个骑自行车的,这个时候驾驶员的注意力就转移到具体的位置和视角。从人的驾驶来看,注意力在自主驾驶中是不可或缺的。
从前面讨论我们再来看看认知构建的自主驾驶,我们把它称之为直觉性AI。当前深度学习的“端到端”的自主驾驶方法在结构化或半结构化的交通场景取得了很大的成功,但是在复杂的城区道路或恶劣环境中依然面临巨大的困难。
带来这些困难的一个直接原因是,许多交通场景的复杂性和动态性并不都是可观测和可控的。特别是行驶过程中对异常情况的处理能力是无法通过事先的大量样本训练得到,而且也无法获得大量的负样本。
但是交通场景没有办法在现场采集更多的负样本,所以怎么用对抗网络来实现大量交通场景的负样本训练汽车,下午会有其专家做更深入的探讨。
“场景感知”与“情境认知”的融合
对于“场景感知”与“情境认知”的融合,我们进一步给出其定义。
情境是对场景动态变化的解释,还涉及到自主驾驶的行为模型、行动结果和内部状态,包括转向、速度、意图或目标。
虽然场景是对外部环境中感知可信实体的完整描述,但是情境仅包括必须认识到情况和/或启动适当行为的相关实体。这里的描述实际上谈到就是选择性,因为传感器是对周围场景所有数据的采集,但是对于情境认知而言,我们并不需要对所有场景进行计算。
那机器怎么实现?我们需要要建立世界模型,即情境认知地图的构建。
这里要给出各个场景的影响关系、因果关系和控制关系。融合先验信息的概率模型,这里就是记忆与学习。这里我们提到了成本函数和预测与优化。
什么叫认知地图?这里举一个简单的例子,人类理解或描述物理世界时,大脑总会形成一种对时间的“可视化”图像。我们把这种可视化图像称之为认知地图。
左边这幅图,大家看到就很快会记住,而右边这个图你就很难记住,因为右边这个图,我们无法按照常识去解释他们相互之间的关系。也就是说,在物理世界中,各个物体依存的关系是记忆的基础,这里又进一步强调了对场景中各个实体相互关联的描述是自主驾驶中内部表征一个极其重要的因素。
2025-04-09 10:28
2025-04-07 09:58
2025-04-07 09:58
2025-04-07 09:58
2025-04-07 09:34
2025-04-03 08:57
2025-04-03 08:57
2025-04-03 08:57
2025-04-02 14:24
2025-04-01 10:46