一种基于自监督学习的大模型初中英语完形填空生成方法与流程

xiaoxiao14天前  13


本发明涉及英语领域,尤其涉及一种基于自监督学习的大模型初中英语完形填空生成方法。


背景技术:

1、随着教育技术的发展和智能化教学需求的增加,自动化生成高质量的英语完形填空题目成为了一项重要的研究方向。传统的完形填空题目生成方法主要依赖于人工编写或基于简单规则的生成方式,这些方法在实践中存在诸多局限性。

2、首先,人工编写完形填空题目需要耗费大量的时间和精力。每道题目需要教师精心设计,包括选择适当的文本段落、确定遮挡的单词以及设计合理的选项。对于大规模的教育需求来说,这种方法显然难以满足。特别是在初中阶段,学生需要大量的练习题目来提升其英语水平,而依靠人工编写的方式难以提供足够数量和多样性的题目。

3、其次,基于简单规则的方法虽然可以在一定程度上提高题目生成的效率,但这些方法往往忽视了语言的复杂性和多样性,生成的题目质量参差不齐。例如,一些基于词频或句型的简单生成算法,无法准确把握句子的语义和上下文关系,导致生成的题目缺乏逻辑性和一致性。此外,这些方法难以根据学生的学习水平和个性化需求进行调整,无法提供针对性的练习题目。

4、现有技术中的自然语言处理(nlp)技术为自动化生成英语完形填空题目提供了一些新的思路。例如,基于预训练语言模型(如gpt、bert等)的文本生成方法,通过大规模语料库的训练,可以生成较为自然的文本段落。然而,现有的预训练模型在生成完形填空题目时仍存在一些不足。首先,这些模型需要大量标注数据进行微调,而标注数据的获取成本高且不易获得。其次,现有模型在生成题目时,缺乏对教育内容的专门优化,生成的题目可能不符合教学需求,特别是在初中英语教学中,对词汇和语法的掌握有着特殊的要求。因此,如何提供一种基于自监督学习的大模型初中英语完形填空生成方法是本领域技术人员亟需解决的问题。


技术实现思路

1、本发明的一个目的在于提出一种基于自监督学习的大模型初中英语完形填空生成方法,本发明利用自监督学习和大规模自然语言处理模型,可以高效地生成大量完形填空题目,极大地节省了人力和时间成本。

2、根据本发明实施例的一种基于自监督学习的大模型初中英语完形填空生成方法,包括以下步骤:

3、s1、收集大量未标注的英语文本数据作为训练数据集及各省市10年内中考完形填空真题作为文本改编学习数据集;

4、s2、收集并整理初中各个英语教材版本的词汇按照单元机课时的词性词义及黑体重点词汇排布好形成出题词汇表;

5、s3、并对训练数据集进行预处理,所述预处理包括去除噪声数据、分词和标注词性;

6、s4、使用自监督学习方法结合预处理后的训练数据集构建大规模自然语言处理模型,并对大规模自然语言处理模型进行预训练,所述自监督学习方法包括遮挡预测任务和对比学习任务,所述遮挡预测任务包括随机遮挡英语文本数据中的部分单词,并让大规模自然语言处理模型预测被遮挡的单词,所述对比学习任务包括构建正负样本对,通过最大化正样本对的相似度和最小化负样本对的相似度进行训练;

7、s5、根据训练数据集及文本改编学习数据集对大规模自然语言处理模型进行任务微调,所述任务微调包括将预训练的大规模自然语言处理模型应用于英语完形填空题目文本素材的改编及题目的生成任务,通过监督学习方法对大规模自然语言处理模型进行进一步优化,使其能够生成符合初中英语教学需求的完形填空题目;

8、s6、基于训练好的大规模自然语言处理模型及改编后的文本自动生成初中英语完形填空题目,包括选择合适的文本段落作为基础材料,并在文本中基于出题词汇表随机选择若干单词进行遮挡,生成具有选项的完形填空题目;

9、s7、对生成的完形填空题目进行自动校验和人工审核,确保题目的难度和内容适合初中生的学习需求,所述自动校验包括对生成题目的语法正确性和语义合理性进行检查,所述人工审核包括由英语教学专家对题目进行评估和修改;

10、s8、将生成的完形填空题目存储在题库中,并根据初中生的学习数据和表现,动态调整和分发题目。

11、可选的,所述s1包括以下步骤:

12、s11、收集大量未标注的英语文本数据,所述英语文本数据来源包括网络文章、书籍、新闻报道和对话记录;

13、s12、将收集的英语文本数据进行清洗和去重,去除其中的噪声数据和重复数据:

14、dclean={di∈d|if score(di)≥λ};

15、其中,d表示初始数据集,di表示数据集中的第i条数据,score(di)表示数据di的噪声评分,λ为去除噪声的阈值,dclean表示清洗后的数据集;

16、s13、对清洗后的英语文本数据进行分词处理,将每个句子分割成单词序列,并对每个单词进行词性标注,生成标注词性后的分词文本数据集:

17、{(w1,t1),(w2,t2),...,(wn,tn)}=pos_tagger(tokenikzer(dclean));

18、其中,wi表示第i个单词,ti表示第i个单词的词性标签,tokenizer为分词算法,pos_tagger为词性标注算法;

19、s14、收集各省市近10年内的中考完形填空真题,包括历年中考真题卷中的完形填空部分;

20、s15、对收集的中考完形填空真题进行整理和标注,将每道题目的文本段落与对应的正确选项进行匹配,并将真题文本标记为文本改编学习数据集:

21、qprep={(qi,ai)|qi∈q,ai=match(qi)};

22、其中,q表示收集到的真题集合,qi表示第i个题目,ai表示第i个题目的正确选项,match为匹配函数,qprep表示整理后的真题数据集;

23、s16、构建训练数据集和文本改编学习数据集,将分词处理后的标注词性英语文本数据和中考完形填空真题文本改编学习数据集分别保存:

24、datasettrain={{(w1,t1),(w2,t2),...,(wn,tn)}};

25、datasetadapt=qprep;

26、其中,datasettrain表示分词和标注词性后的训练数据集,datasetadapt表示整理后的真题文本改编学习数据集。

27、可选的,所述s2包括以下步骤:

28、s21、收集初中各个英语教材版本的词汇,所述词汇包括教材中的单元词汇、课时词汇及黑体重点词汇,形成初步词汇表;

29、s22、对所述初步词汇表进行整理,按照单元和课时对词汇进行分类,并标注每个词汇的词性和词义,生成分类标注词汇表:

30、vunit={(wi,pi,mi)|wi∈w,pi=pos(wi),mi=meanimg(wi)};

31、其中,vunit表示按单元分类的词汇表,wi表示第i个词汇,pi表示词汇wi的词性,mi表示词汇wi的词义,pos为词性标注函数,meaning为词义标注函数;

32、s23、将黑体重点词汇从分类标注词汇表中提取出来,形成黑体重点词汇表:

33、vbold={wi∈vunit|if isbold(wi)};

34、其中,vbold表示黑体重点词汇表,isbold为判断词汇是否为黑体重点的函数;

35、s24、按照单元和课时对分类标注词汇表和黑体重点词汇表进行排序和排布,形成最终的出题词汇表:

36、vfinal={(wi,pi,mi)∈vunit∪vbola};

37、其中,vfinal表示最终的出题词汇表,包含分类标注词汇和黑体重点词汇。

38、可选的,所述s4包括以下步骤:

39、s41、使用预处理后的英语文本数据datasettrain构建大规模自然语言处理模型,所述大规模自然语言处理模型包括输入层、编码层、自监督学习任务层和输出层;

40、s42、在自监督学习任务层中,设计遮挡预测任务,随机遮挡输入文本数据中的部分单词,并让模型预测被遮挡的单词,遮挡预测任务的损失函数定义为:

41、

42、其中,为遮挡预测任务的损失函数,n为被遮挡的单词数量,p(wi|w\i)表示在给定上下文w\i的条件下预测被遮挡单词wi的概率;

43、s43、设计对比学习任务,构建正负样本对,通过最大化正样本对的相似度和最小化负样本对的相似度进行训练,对比学习任务的损失函数定义为:

44、

45、其中,为对比学习任务的损失函数,n为正样本对数量,m为负样本对数量,hi表示第i个样本的向量,表示第i个正样本对的向量,正样本对向量是与hi相似的样本对的特征向量,表示第j个负样本对的向量,负样本对向量是与hi不相似的样本对的特征向量,表示样本hi和正样本对之间的相似度,表示样本hi和负样本对之间的相似度;

46、s44、设计预测句子顺序任务,让大规模自然语言处理模型判断两个句子是否按照原文顺序排列,预测句子顺序任务的损失函数定义为:

47、

48、其中,为预测句子顺序任务的损失函数,n为句子对数量,yi表示第i个句子对是否为正确顺序的标签,p(yi|si,si+1)表示模型判断第i个句子对顺序的概率;

49、s45、结合遮挡预测任务、对比学习任务和预测句子顺序任务,对大规模自然语言处理模型进行预训练,预训练的总损失函数定义为:

50、

51、其中,为总损失函数,λ1,λ2,λ3为自适应权重参数,用于动态调整每个任务损失的影响。

52、可选的,所述s5包括以下步骤:

53、s51、根据训练数据集datasettrain及文本改编学习数据集datasetadapt对预训练的大规模自然语言处理模型进行任务微调,所述任务微调包括将预训练模型应用于英语完形填空题目文本素材的改编及生成任务;

54、s52、将训练数据集datasettrain中的每个句子si和对应的标注词性词汇作为输入,生成初步完形填空题目:

55、qi={(si,{(wi1,ti1),(wi2,ti2),...,(win,tin)})};

56、其中,qi表示第i个生成的初步完形填空题目,si为句子,{(wi1,ti1),(wi2,ti2),...,(win,tin)}为词汇和词性标注对;

57、s53、对初步完形填空题目进行改编,结合文本改编学习数据集datasetadapt中的中考完形填空真题文本段落{qi,ai},调整题目难度和内容,生成最终完形填空题目:

58、qfinal={(qi,{ai},{(wi1,ti1),(wi2,ti2),...,(win,tin)})};

59、其中,qfinal表示最终生成的完形填空题目,qi为真题文本段落,ai为对应的正确选项;

60、s54、通过监督学习方法对大规模自然语言处理模型进行进一步优化,使用训练数据集和改编后的完形填空题目数据集进行微调训练,优化模型参数以最小化生成题目与真实题目之间的损失:

61、

62、其中,为微调训练的损失函数,n为训练样本数量,qfinal(i)为第i个生成的完形填空题目,为第i个真实题目;

63、使微调后的大规模自然语言处理模型能够生成符合初中英语教学需求的完形填空题目。

64、可选的,所述s6包括以下步骤:

65、s61、基于训练好的大规模自然语言处理模型选择合适的文本段落作为基础材料,所述文本段落来源于预处理后的英语文本数据datasettrain和文本改编学习数据集datasetadapt,选择合适文本段落的公式为:

66、

67、其中,score(di)表示段落di的评分,λ为选择阈值,length(di)表示文本段落di的长度,freq(lj)表示长度lj的频率分布,k为候选长度的数量;

68、s62、对所选文本段落进行分句处理,将文本段落分割为若干个句子,分句处理的公式为:

69、

70、其中,split(di)表示将文本段落di分割为句子的集合;

71、s63、基于出题词汇表vfinal在每个句子中随机选择若干单词进行遮挡,生成完形填空题目,遮挡选择的公式为:

72、qi={(si,{wij|wij∈vfinaland random()<p})|si∈{s1,s2,...,sn}};

73、其中,qi表示生成的完形填空题目,wij为被遮挡的单词,random()为随机函数,p为遮挡概率;

74、s64、为每个被遮挡的单词生成若干个选项,包含正确选项和若干个干扰选项,干扰选项从同一词性和相似词义的词汇中选择:

75、aij={wjz,{wijm|wijm∈vfinaland pos(wijm)=pos(wij)and sim(wij,wijm)≥δ}};

76、其中,aij表示选项集合,wjz为正确选项,wijm,pos(wijm)为词性标注,sim(wij,wijm)为相似度函数,δ为相似度阈值;

77、s65、将生成的句子、被遮挡的单词及其选项组合,形成最终的完形填空题目:

78、qfinal={(si,{(wij,aij)})|(si,{wij})∈qi};

79、其中,qfinal表示最终生成的完形填空题目,包含句子、被遮挡的单词及其对应的选项集合。

80、本发明的有益效果是:

81、(1)本发明利用自监督学习和大规模自然语言处理模型,可以高效地生成大量完形填空题目,极大地节省了人力和时间成本。在生成题目时,使用了预处理后的大规模数据集和经过微调的模型,能够生成符合初中英语教学需求的题目。遮挡预测任务和对比学习任务的结合,使生成的题目在语法和语义上更加准确,质量和一致性得到有效保证。

82、(2)本发明通过根据学生的学习数据和表现,动态调整和分发生成的题目,实现了个性化的教学内容推送。模型可以根据不同学生的学习水平和需求,自动生成适合其学习阶段的题目,提供智能化的教育支持。

83、(3)本发明的方法适用于各种初中英语教材版本,通过收集和整理教材中的词汇,生成出题词汇表,确保生成的题目与教学内容紧密结合。同时,基于大规模自然语言处理模型的预训练和微调,使方法具有较高的灵活性,能够适应不同地区、不同教材版本的教学需求。


技术特征:

1.一种基于自监督学习的大模型初中英语完形填空生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于自监督学习的大模型初中英语完形填空生成方法,其特征在于,所述s1包括以下步骤:

3.根据权利要求2所述的一种基于自监督学习的大模型初中英语完形填空生成方法,其特征在于,所述s2包括以下步骤:

4.根据权利要求3所述的一种基于自监督学习的大模型初中英语完形填空生成方法,其特征在于,所述s4包括以下步骤:

5.根据权利要求4所述的一种基于自监督学习的大模型初中英语完形填空生成方法,其特征在于,所述s5包括以下步骤:

6.根据权利要求5所述的一种基于自监督学习的大模型初中英语完形填空生成方法,其特征在于,所述s6包括以下步骤:


技术总结
本发明公开了一种基于自监督学习的大模型初中英语完形填空生成方法,包括S1、收集英语文本数据作为训练数据集及各省市10年内中考完形填空真题作为文本改编学习数据集;S2、形成出题词汇表;S3、并对训练数据集进行预处理;S4、使用自监督学习方法构建大规模自然语言处理模型;S5、根据训练数据集及文本改编学习数据集对大规模自然语言处理模型进行任务微调;S6、基于训练好的大规模自然语言处理模型及改编后的文本自动生成初中英语完形填空题目;S7、对生成的完形填空题目进行自动校验和人工审核;S8、将生成的完形填空题目存储在题库中。本发明利用自监督学习和大规模自然语言处理模型,高效地生成大量完形填空题目,极大地节省了人力和时间成本。

技术研发人员:毛太辉
受保护的技术使用者:北京光年无限科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)