车辆的控制方法、装置、设备以及车辆与流程

xiaoxiao2月前 14

本技术涉及智能车辆，尤其涉及一种车辆的控制方法、装置、设备以及车辆。

背景技术：

1、在汽车的自动驾驶领域，车辆需要根据自车周围的动静态的环境信息和全局性的导航信息，对周围交通参与对象的行驶路径进行预测，进而按照预测的行驶路径对车辆进行行驶控制。由于进行行驶决策需要考虑的特征维度较多，因此，基于环境信息和导航信息，直接预测行驶路径，有可能导致环境信息和导航信息中的一些特征缺乏表征能力，也即发生算法的模态塌缩，从而导致行驶决策结果不准确。

技术实现思路

1、本技术实施例提供的一种车辆的控制方法、装置、设备以及车辆，以期在自动驾驶的实现中提高行驶决策的准确性。

2、第一方面，本技术实施例提供一种车辆的控制方法，该方法包括：获取车辆信息和环境信息，该车辆信息包括车辆的行驶意图信息、行驶轨迹信息、或位姿信息中的至少之一，该环境信息包括道路的拓扑信息和/或道路中的目标对象的信息；根据该车辆信息和该环境信息，从第一策略空间确定第一目标点，该第一目标点在该第一策略空间中的坐标包括第一空间目标点的值和第一时间目标点的值，该第一策略空间包括m乘n个目标点，该m乘n个目标点由m个空间目标点和n个时间目标点确定，该空间目标点指示该车辆在预设时间或预设距离内可到达的位置，该时间目标点指示该车辆在该预设时间内以对应的空间目标点为方向的行驶速度和/或加速度，m和n均为大于1的正整数；根据该第一目标点，确定目标策略；控制该车辆按照该目标策略行驶。

3、通过第一方面提供的车辆的控制方法，控制装置基于车辆信息和环境信息，在具有明确语义的策略空间中，确定决定目标策略的目标点，从而实现对车辆的行驶控制，避免算法的模态塌缩问题，提高行驶决策的准确性。

4、在一种可能的实施方式中，该m个空间目标点在欧式空间中形成的空间面与道路方向垂直，且该空间面与该车辆相距第一距离，该第一距离大于或等于预设距离。

5、通过该实施方式提供的车辆的控制方法，对第一策略空间的空间维度赋予明确的语义，使得控制装置确定的目标策略更加准确。

6、在一种可能的实施方式中，该第一距离基于该预设时间和该车辆的当前速度确定。

7、通过该实施方式提供的车辆的控制方法，基于预设时间和车辆的当前速度确定m个空间目标点所指示的位置，使得第一目标点指示的行驶位置更符合车辆的行驶规律，也即提高了目标策略的类人性。

8、在一种可能的实施方式中，根据该车辆信息和该环境信息，从第一策略空间确定第一目标点，包括：根据该车辆信息和该环境信息，确定第一概率分布，该第一概率分布包括该m乘n个目标点用于确定该目标策略的概率；根据该第一概率分布，从该第一策略空间确定该第一目标点。

9、通过该实施方式提供的车辆的控制方法，控制装置对各目标点用于确定目标策略的概率进行预测，并依据各目标点用于确定目标策略的概率确定第一目标点，以使第一目标点确定的目标策略能够对车辆进行准确的行驶控制。

10、可选的，控制装置将该第一概率分布中的最大值对应的目标点作为该第一目标点，能够快速选择全局最优解，具有较高的处理效率。

11、可选的，控制装置根据该第一概率分布，从该第一策略空间确定k个候选目标点，并从该k个候选目标点确定该第一目标点，k为大于1的整数。其中，该k个候选目标点分别与该第一概率分布中k个概率值对应，该k个概率值包括极大值，或者该k个概率值包括极大值和该极大值的预设范围内的概率值，或者该k个概率值为该第一概率分布中按照由大到小的顺序选择的前k个概率值。此种情况下，第一目标点并非受限于最高概率的目标点，增加了确定第一目标点的维度。

12、可选的，控制装置采用决策树算法，根据该第一概率分布，从该第一策略空间确定该第一目标点；或者，采用联合优化算法，根据该第一概率分布，从该第一策略空间确定所第一目标点。将第一概率分布于白盒算法相结合，提高目标策略的可靠性。

13、在一种可能的实施方式中，将该第一概率分布中的最大值对应的目标点作为该第一目标点，包括：基于该第一概率分布中的最大值对应的目标点，确定预测轨迹；对该预测轨迹进行行车安全性评估；在行车安全性评估通过时，将该第一概率分布中的最大值对应的目标点作为该第一目标点。以在按照目标策略进行车辆行驶控制时，确保行车安全，提高了行驶控制的可靠性。

14、可选的，控制装置对该k个候选目标点分别对应的预测轨迹进行行车安全性评估，将行车安全性较高的候选目标点作为该第一目标点，进而控制装置按照目标策略控制对车辆进行行驶控制时可以确保行车安全。

15、可选的，控制装置采用决策树算法，从该k个候选目标点确定该第一目标点；或者，采用联合优化算法，从该k个候选目标点确定该第一目标点。在第一概率分布的基础上基于白盒算法继续进行目标点的筛选，增加了基于第一目标点确定的目标策略的可靠性。

16、在一种可能的实施方式中，采用决策树算法，从该k个候选目标点确定该第一目标点，包括：针对该k个候选目标点中的每个候选目标点，确定该候选目标点在该决策树中的路径；根据该候选目标点在该决策树中的路径，确定该候选目标点的代价值；将代价值最小的候选目标点作为该第一目标点。以确定最满足行驶控制需求的目标策略。

17、在一种可能的实施方式中，该决策树包括第一层级的节点、第二层级的节点和第三层级的节点，该第一层级的节点为该第二层级的节点的父节点，该第二层级的节点为该第三层级的节点的父节点；该第一层级的节点表示该第一策略空间的目标点用于确定该目标策略的概率；该第二层级的节点表示该车辆的预测轨迹；该第三层级的节点表示至少一个目标对象的交互标签和/或预测轨迹，该交互标签用于指示该车辆对该目标对象的交互策略，该交互策略包括让行、抢行、绕行中的至少之一。通过定义第一策略空间的目标点用于确定该目标策略的概率的层级节点、预测轨迹的层级节点、目标对象的交互标签和/或预测轨迹的层级节点，相比于定义车辆信息、道路信息的层级节点而言，降低了白盒算法的参数复杂度。

18、在一种可能的实施方式中，该第一层级的第一子层级的节点表示该第一策略空间的空间目标点用于确定该目标策略的概率，该第一层级的第二子层级的节点表示该第一策略空间的时间目标点用于确定该目标策略的概率，该第一层级的第一子层级的节点为该第一层级的第二子层级的节点的父节点。空间目标点和时间目标点分别部署为不同的层级节点，使得决策树中不同层级的参数具有明确的语义，提高了决策树算法确定目标策略的准确性。

19、在一种可能的实施方式中，该第三层级的第一子层级的节点表示该至少一个目标对象的交互标签，该第三层级的第二子层级的节点表示该至少一个目标对象的预测轨迹；或者，该第三层级的第一子层级的节点表示该至少一个目标对象中的第一目标对象的交互标签，该第三层级的第二子层级表示该第一目标对象的预测轨迹，该第三层级的第三子层级的节点表示该至少一个目标对象中的第二目标对象的交互标签，该第三层级的第四子层级表示该第二目标对象的预测轨迹，以此类推；或者，该第三层级的第一子层级的节点表示该至少一个目标对象中的第一目标对象的预测轨迹，该第三层级的第二子层级的节点表示该至少一个目标对象中的第二目标对象的预测轨迹，以此类推。

20、通过该实施方式提供的车辆的控制方法，一方面，在第三层级中不同的目标对象处于同一子层级时，不固定不同目标对象之间的排序，便于得到最优解，在第三层级中不同的目标对象分别处于不同子层级时，决策树算法中简化了不同目标对象之间的交互关系，算法的复杂度较低；另一方面，第三层级不包括交互标签的子层级时，决策树中预测轨迹的约束更少，预测轨迹的可能性更多，第三层级包括交互标签的子层级时，预测轨迹可定义的维度较少，决策树的搜索空间更小，具有较高的处理效率。

21、在一种可能的实施方式中，该方法还包括：根据该车辆信息和该环境信息，确定至少一个目标对象的预测轨迹和交互标签，该交互标签用于指示该车辆对该目标对象的交互策略，该交互策略包括让行、抢行、绕行中的至少之一，该目标对象的预测轨迹和交互标签用于进行行车安全性评估。

22、在一种可能的实施方式中，根据该车辆信息和该环境信息，确定至少一个目标对象的预测轨迹和交互标签，包括：根据该车辆信息、该环境信息和导航信息，确定至少一个目标对象的预测轨迹和交互标签，该导航信息指示该车辆的计划行驶路径。

23、在一种可能的实施方式中，根据该车辆信息和该环境信息，确定第一概率分布，包括：根据该车辆信息和该环境信息，确定该m个空间目标点的概率分布；针对该m个空间目标点中的每个空间目标点的概率，确定该n个时间目标点在该空间目标点下的条件概率分布；根据该n个时间目标点在该m个空间目标点下的条件概率分布，确定该第一概率分布。

24、在一种可能的实施方式中，还包括：根据该车辆信息和该环境信息，确定初始策略空间；对该初始策略空间进行离散得到该m个空间目标点和该n个时间目标点。

25、在一种可能的实施方式中，根据该车辆信息和该环境信息，从第一策略空间确定第一目标点，包括：将该车辆信息、该环境信息、该m乘n个目标点输入第一模型，由该第一模型输出以下至少之一：第一概率分布；该m乘n个目标点分别对应的预测轨迹；至少一个目标对象的交互标签；至少一个目标对象的预测轨迹；其中，该第一模型为基于神经网络模型训练得到的。通过神经网络模型对决定目标策略的相关信息进行预测，提高了目标策略的类人性。

26、在一种可能的实施方式中，还包括：获取多个训练样本，该训练样本包括输入数据和预期输出数据，该预期输出数据用于指示该神经网络模型在输入该输入数据时的预期输出，该输入数据包括第二策略空间的m'乘n'个目标点、人驾交互过程中的车辆信息和环境信息，该预期输出数据包括空间目标点真值、时间目标点真值、目标点真值、车辆的轨迹真值、目标对象的轨迹真值和交互标签真值中的至少之一，m'和n'均为大于1的正整数；将该多个训练样本输入该神经网络模型，对该神经网络模型进行训练，在损失值收敛至预设值后，得到该第一模型，该损失值基于该预期输出数据和该神经网络模型对该输入数据的预测值确定。基于人驾交互过程中的车辆信息和环境信息进行模型训练，使得基于第一模型确定目标策略时具有更高的类人性。

27、在一种可能的实施方式中，将该多个训练样本输入该神经网络模型，对该神经网络模型进行训练，在损失值收敛至预设值后，得到该第一模型，包括：将该多个训练样本输入神经网络模型，通过如下训练过程，得到该第一模型；该训练过程包括第一训练阶段和第二训练阶段；在该第一训练阶段，通过神经网络模型预测得到该m'个空间目标点分别对应的概率，并根据该m'个空间目标点中概率最高的空间目标点和该空间目标点真值确定第一损失值，通过迭代训练，在第一损失值收敛至第一预设值时结束该第一训练阶段；在所第二训练阶段，通过神经网络模型预测得到该空间目标点真值下n'个时间目标点分别对应的概率，并根据该n'个时间目标点中概率最高的时间目标点和该时间目标点真值确定第二损失值，通过迭代训练，在该第二损失值收敛至第二预设值时结束该第二训练阶段；或者，该训练过程包括第三训练阶段；在该第三训练阶段，通过神经网络模型预测得到该m'个空间目标点和该n'个时间目标点组成的m'乘n'个目标点分别对应的联合概率，并根据该m'乘n'个目标点中联合概率最高的目标点和该目标点真值确定第三损失值，通过迭代训练，在第三损失值收敛至第三预设值时结束该第三训练阶段。

28、其中，基于空间目标点的概率和时间目标点的概率分别进行模型训练，使得模型的每步推理的可解释性更高，对空间目标点的概率和时间目标点的概率的耦合特征进行模型训练，简化了训练过程，使得模型训练能够更快收敛。

29、在一种可能的实施方式中，该训练过程还包括第四训练阶段：在该结束该训练过程的第一训练阶段之后，通过神经网络模型预测得到该空间目标点真值对应的轨迹；或者，在该结束该训练过程的第二训练阶段之后，通过该神经网络模型预测得到该时间目标点真值对应的轨迹；或者，在该结束该训练过程的第三训练阶段之后，通过该神经网络模型预测得到该目标点真值对应的轨迹；根据该轨迹和该轨迹真值确定第四损失值，通过迭代训练，在该第四损失值收敛至第四预设值时结束该第四训练阶段。

30、在一种可能的实施方式中，该训练过程还包括第五训练阶段和/或第六训练阶段；在该第五训练阶段，通过该神经网络模型预测得到目标对象的轨迹，并根据该目标对象的轨迹和该目标对象的轨迹真值确定第五损失值，通过迭代训练，在该第五损失值收敛至第五预设值时结束该第五训练阶段；在该第六训练阶段，通过该神经网络模型预测得到目标对象的交互标签，并根据该目标对象的交互标签和该交互标签真值确定第六损失值，通过迭代训练，在该第六损失值收敛至第六预设值时结束该第六训练阶段。

31、第二方面，本技术实施例提供一种控制装置，包括用于执行如第一方面或第一方面的各可能的实现方式中的方法的模块。

32、第三方面，本技术实施例提供一种芯片，包括：处理器，用于从存储器中调用并运行计算机指令，使得安装有该芯片的设备执行如第一方面或各可能的实现方式中的方法。

33、第四方面，本技术实施例提供一种电子设备，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行第一方面或各可能的实施方式中的方法。

34、第五方面，本技术实施例提供一种计算机可读存储介质，用于存储计算机程序指令，该计算机程序使得计算机执行如第一方面或各可能的实现方式中的方法。

35、第六方面，本技术实施例提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或各可能的实现方式中的方法。

36、第七方面，本技术实施例提供一种装置，包括逻辑电路和输入输出接口，其中，该输入输出接口用于接收来自该装置之外的其他通信装置的信号并传输至该逻辑电路或将来自该逻辑电路的信号发送给该装置之外的其他通信装置，该逻辑电路用于执行代码指令以实现如第一方面或各可能的实现方式中的方法。

37、第八方面，本技术实施例提供一种车辆，包括：控制装置，该控制装置用于执行如第一方面或第一方面的各可能的实施方式中的方法。

38、在一种可能的实施方式中，该车辆还包括：驾驶执行装置；该驾驶执行装置用于：接收该控制装置发送的控制指令；根据该控制指令控制该车辆按照该目标策略行驶。

技术特征：

1.一种车辆的控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述m个空间目标点在欧式空间中形成的空间面与道路方向垂直，且所述空间面与所述车辆相距第一距离，所述第一距离大于或等于所述预设距离。

3.根据权利要求2所述的方法，其特征在于，所述第一距离基于所述预设时间和所述车辆的当前速度确定。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述车辆信息和所述环境信息，从第一策略空间确定第一目标点，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一概率分布，从所述第一策略空间确定所述第一目标点，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第一概率分布中的最大值对应的目标点作为所述第一目标点，包括：

7.根据权利要求5所述的方法，其特征在于，所述从所述至少两个候选目标点确定所述第一目标点，包括：

8.根据权利要求7所述的方法，其特征在于，所述采用决策树算法，从所述k个候选目标点确定所述第一目标点，包括：

9.根据权利要求5至8任一项所述的方法，其特征在于，所述决策树包括第一层级的节点、第二层级的节点和第三层级的节点，所述第一层级的节点为所述第二层级的节点的父节点，所述第二层级的节点为所述第三层级的节点的父节点；

10.根据权利要求9所述的方法，其特征在于，所述第一层级的第一子层级的节点表示所述第一策略空间的空间目标点用于确定所述目标策略的概率，所述第一层级的第二子层级的节点表示所述第一策略空间的时间目标点用于确定所述目标策略的概率，所述第一层级的第一子层级的节点为所述第一层级的第二子层级的节点的父节点。

11.根据权利要求9或10所述的方法，其特征在于，

12.根据权利要求6至11任一项所述的方法，其特征在于，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，所述根据所述车辆信息和所述环境信息，确定至少一个目标对象的预测轨迹和交互标签，包括：

14.根据权利要求4至13任一项所述的方法，其特征在于，所述根据所述车辆信息和所述环境信息，确定第一概率分布，包括：

15.根据权利要求1至14任一项所述的方法，其特征在于，还包括：

16.根据权利要求1至15任一项所述的方法，其特征在于，所述根据所述车辆信息和所述环境信息，从第一策略空间确定第一目标点，包括：

17.根据权利要求16所述的方法，其特征在于，还包括：

18.根据权利要求17所述的方法，其特征在于，所述将所述多个训练样本输入所述神经网络模型，对所述神经网络模型进行训练，在损失值收敛至预设值后，得到所述第一模型，包括：

19.根据权利要求18所述的方法，其特征在于，所述训练过程还包括第四训练阶段：

20.根据权利要求18或19所述的方法，其特征在于，所述训练过程还包括第五训练阶段和/或第六训练阶段；

21.一种控制装置，其特征在于，包括用于执行如权利要求1至20任一项所述的方法的模块。

22.一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机指令，使得安装有所述芯片的设备执行如权利要求1至20中任一项所述的方法。

23.一种电子设备，其特征在于，包括：处理器和存储器，该存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，执行如权利要求1至20中任一项所述的方法。

24.一种车辆，其特征在于，包括：控制装置，所述控制装置用于执行如权利要求1至20任一项所述的方法。

25.根据权利要求24所述的车辆，其特征在于，还包括：驾驶执行装置；所述驾驶执行装置用于：

26.一种计算机程序产品，其特征在于，包括计算机程序指令,该计算机程序指令使得计算机执行如权利要求1至20中任一项所述的方法。

27.一种计算机可读存储介质，其特征在于，用于存储计算机程序指令，所述计算机程序使得计算机执行如权利要求1至20中任一项所述的方法。

技术总结
本申请提供一种车辆的控制方法、装置、设备以及车辆，该方法包括：控制装置获取车辆信息和环境信息，并根据车辆信息和环境信息，从第一策略空间确定第一目标点，第一策略空间包括由M个空间目标点和N个时间目标点确定的M乘N个目标点，空间目标点指示该车辆在预设时间或预设距离内可到达的位置，该时间目标点指示该车辆在该预设时间内以对应的空间目标点为方向的行驶速度和/或加速度，进而根据第一目标点，确定目标策略，再控制该车辆按照该目标策略行驶。控制装置在具有明确语义的策略空间中，确定决定目标策略的目标点，实现对车辆的行驶控制，避免算法的模态塌缩问题，提高行驶决策的准确性。

技术研发人员：柳肖雪,许言川,李茂森,陈玉莹,李军,王新宇
受保护的技术使用者：华为技术有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)