本发明涉及智能装备软件测评,具体涉及一种智能算法多模态测试数据集构建方法。
背景技术:
1、随着机器学习、计算机视觉、自然语言处理等关键技术的重大突破以及新装备新手段等智能化技术的发展,人工智能已渗透至军事领域的各个环节,正加速军事领域从机械化、信息化到智能化的深刻变革,战争的科技含量与复杂性明显上升,其战术技术指标和效率要求呈现几何数量级增长,复杂程度空前膨胀,武器智能化发展已成为不可逆的趋势,智能装备软件是未来新域新质作战能力形成的关键,智能算法是智能装备软件的产物之一;智能算法具有随机性、自主性、学习性的特点,传统的测试方法(如代码走查、公式理论计算、典型样例、语句或分支覆盖等)已不再适用于智能装备软件;如何对智能算法进行验证与智能化评估是目前智能装备软件测试的难点,相关试验测试技术相对滞后,仍存在一定的局限性,并且随着数据集的膨胀以及算法复杂度提高,测试数据集的选择和构建更加重要,基于基准数据集的测评方法已不能满足要求,测试数据集是一个在建模阶段没有使用过的数据集,构建测试数据集能够提高数据的质量,从而帮助提高模型训练的质量和预测的准确率,然而目前对测试数据集构建方法没有形成统一的标准,国内外无针对智能算法的测试与评估标准,导致在推进智能算法测试与评估过程中“无标可依”,无法使智能算法试验测试与评估工作标准化、规范化发展。
技术实现思路
1、为解决上述技术问题,本发明提供一种智能算法多模态测试数据集构建方法,为开展智能装备软件试验验证与智能化水平评估奠定扎实的技术基础,促进测试数据集构建合理性评估工作标准化、规范化发展。
2、本发明的目的是通过以下技术方案实现的,一种智能算法多模态测试数据集构建方法,包括以下步骤:
3、步骤1、确定测试数据集构造方案;
4、步骤2、构造数据采集方案;
5、步骤3、构造数据标注方案;
6、步骤4、构造数据清洗方案;
7、步骤5、构造数据增强方案;
8、步骤6、构造数据平衡方案;
9、步骤7、划分标准符合性测试数据集;
10、步骤8、对标准符合性测试数据集的合理性进行评估。
11、优选的,步骤1具体包括以下步骤:
12、步骤1.1、确定智能系统的测试机制,包括系统的基础软硬件层、算法模型层以及应用服务层;
13、步骤1.2、根据智能系统的数据模态构建不同的测试数据集,其中,智能系统的数据模态包括图像、文本和语音。
14、优选的,步骤2中,构造数据采集方案包括:确定数据采集的模态、来源和采集方式。
15、优选的,步骤3包括以下步骤:
16、步骤3.1、确定不同模态的数据标注方式;
17、步骤3.2、确定不同模态的数据标注的格式要求;
18、步骤3.3、确定不同模态的数据标注的校验方式;
19、步骤3.4、确定不同模态的数据标注的质量判别方法。
20、优选的,步骤4包括以下步骤:
21、步骤4.1、确定不同模态的数据清洗方式;
22、步骤4.2、确定不同模态的数据清洗格式;
23、步骤4.3、不同模态的数据清洗方案构建。
24、优选的,步骤5中,数据增强方案中的数据增强方法包括:图像翻转、随机裁剪、旋转、缩放、平移、色彩变换、风格转换和对抗样本;根据数据模态和数据来源的情况,采取上述数据增强方法中的一种或几种。
25、优选的,步骤6数据平衡方案考虑以下内容:样本数量平衡、特征平衡、边界条件和异常值平衡、欠采样、过采样和生成新样本。
26、优选的,步骤7中,划分标准符合性测试数据集的方法包括“留出法”、“交叉验证法”和“自助法”。
27、优选的,步骤8中,从五个方面对标准符合性测试数据集进行评估,包括:标准符合性测试数据集的复杂性、有效性、准确性、对抗性和均衡性。
28、与现有技术相比,本发明具备以下优点:
29、本发明提供的一种智能算法多模态测试数据集构建方法,针对测试数据集构建方法没有形成统一的标准以及智能算法测试与评估过程中“无标可依”问题,提供一种不同数据模态标准符合性测试集构建合理性的评估方法。本发明分析了测试数据集构建的必要性以及测试数据集构造方案,提出了测试数据集的构造步骤与方法,形成了一种多属性的测试数据集质量评估方法,为开展智能装备软件试验验证与智能化水平评估奠定扎实的技术基础,促进测试数据集构建合理性评估工作标准化、规范化发展。
1.一种智能算法多模态测试数据集构建方法,其特征在于:所述方法包括以下步骤:
2.如权利要求1所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤1具体包括以下步骤:
3.如权利要求2所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤2中,构造数据采集方案包括:确定数据采集的模态、来源和采集方式。
4.如权利要求3所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤3包括以下步骤:
5.如权利要求4所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤4包括以下步骤:
6.如权利要求5所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤5中,数据增强方案中的数据增强方法包括:图像翻转、随机裁剪、旋转、缩放、平移、色彩变换、风格转换和对抗样本;根据数据模态和数据来源的情况,采取上述数据增强方法中的一种或几种。
7.如权利要求6所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤6数据平衡方案考虑以下内容:样本数量平衡、特征平衡、边界条件和异常值平衡、欠采样、过采样和生成新样本。
8.如权利要求7所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤7中,划分标准符合性测试数据集的方法包括“留出法”、“交叉验证法”和“自助法”。
9.如权利要求8所述的一种智能算法多模态测试数据集构建方法,其特征在于:所述步骤8中,从五个方面对标准符合性测试数据集进行评估,包括:标准符合性测试数据集的复杂性、有效性、准确性、对抗性和均衡性。
