一种试题的结构化方法
【技术领域】
[0001]本发明属于计算机领域,特别是涉及一种将文本形式的试题转换为计算机可处理 的结构化数据的方法。
【背景技术】
[0002]随着计算机与互联网技术的发展,不论是传统教育机构还是新兴的互联网教育行 业,都将教育资源的信息化与网络化视为今后发展的趋势。作为检验教学质量的重要手段 之一,考试过程的信息化与网络化将是不可忽视的重要的环节,而其中又以试题数据结构 化为基础。
[0003]试题数据结构化是指生成计算机可以理解的结构化的试题数据。计算机要处理试 题信息,所必须知道的结构化的试题数据通常包括4个基本部分(属性):题干、题空、选项、 答案。例如,对于单选题,计算机只有知道题干、题空、选项,才能在人机交互界面上显示该 试题以供答题者选择,而计算机只有知道答案,才能自动判断答题者的作答是否正确。对于 不同题型,可以忽略某些基本属性。例如:填空题可以缺少选项属性。
[0004]传统的生成计算机可处理的结构化试题数据的方法有两种。第一种方法是通过人 工点击人机交互界面提供的各种控件(如:添加试题、添加选项等按钮)并在试题各基本部 分(题干、选项等)对应的输入框中以键盘输入内容。该方法通过人机交互界面定义了试题 数据的结构,出题者需要将原始试题人为分解为所定义结构的各个属性,并分别输入。因此 整个录入过程需要在人机交互界面的各个控件之间进行切换,试题本身信息的录入不流 畅,增加了录入者的时间成本。第二种方法是将传统的以文本形式呈现的试题直接提交给 计算机,由计算机自动识别出试题的各基本属性。但目前已有的此类方法,通常需要在试题 文本中增加额外信息以辅助计算机进行识别,如用"[单选题]"这样的标签来标注题型。如 此需要输入与试题本身信息无关的辅助信息,同样也增加了录入者的录入成本。
【发明内容】
[0005] 为解决上述问题,本发明提供了一种将文本形式的试题转换为计算机可处理的结 构化数据的方法,无须多次点击人机交互界面和分别输入各个基本部分,无须添加辅助信 息,即可自动识别试题题型及各属性并生成结构化数据。
[0006] 本发明所采取的技术方案是,一种试题的结构化方法,该方法分为两个阶段:文本 形式的试题准备阶段与计算机自动识别阶段。
[0007] 1.文本形式的试题准备阶段 本方法无需为试题添加额外辅助信息,仅需要将文本形式的试题按一定的格式呈现。 本方法规定的格式与目前通用的纸质形式的试题基本一致,因此与已有的其他方法相比, 本发明的准备阶段不需要过多额外工作。本方法规定格式说明如下。
[0008] 1)总则: a)试题与试题间以一个或多个空行分隔; b) 试题分为选择题、填空题、判断题和问答题四种题型,其中选择题包括按答案选项 数分的单选题和多选题,按题干行数分的题干为单行的选择题和题干为多行的选择题,以 及有多组选项的完形填空题; c) 试题以题干为第一行,题干有一行或多行。
[0009] 2)选择题 a) 题空位于题干中,题空有一个或多个; b) 答案写在题空上,以左右各两个或两个以上下划线或空格围绕答案,单选题答案以 单个英文字母表示,多选题答案以多个英文字母表示; c) 对于单选题或多选题,每个选项占一行;并且对于多行题干选择题,每个选项以单 个英文字母+点号或右括号为选项序号开头;选项序号后为选项; d) 对于有多组选项的完形填空题,每组选项占一行,为选项组项,每行以数字+右括 号开头,每个选项以单个英文字母+点号或右括号为选项序号,选项序号后为选项,选项 与选项间以一个或多个空格分隔。
[0010] 3)填空题 a) 题空位于题干中,题空有一个或多个; b) 答案写在题空上,以左右各两个或两个以上下划线或空格围绕答案,答案为普通文 字。
[0011] 4)判断题 a) 答案在最后一行,开头以Y或N表示正确或错误;或者, b) 答案后额外添加空格+正确选项文字+斜杠+错误选项文字。
[0012] 5)问答题 a) 答案在题干的下一行; b) 提供参考答案,答案以"答" +空格开始,空格后为参考答案,参考答案为一行或多 行; c) 不提供参考答案,答案以"答" +空格开始,空格后无内容。
[0013] 2.计算机自动识别阶段 对第1阶段按规定的格式输入的每一文本形式的试题按判断规则及处理方式进行自动 识别并输出结构化试题。所谓自动识别就是对一试题依次按问答题、判断题、题干为多行的 选择题、题干为单行的选择题和填空题的顺序判断题型并处理,即先按第一题型即问答题 判断规则进行判断,如判断结果相符合,则确定为该题型并按该题型处理方式进行处理,如 判断结果不相符,则按下一题型判断规则继续进行判断,如此类推,直至确定题型并按该题 型处理方式进行处理,然后对下一试题判断题型并处理。如果以上题型都不符合,则将该文 本形式的试题另行存储以便进行格式检查和修改;同时进入下一试题判断题型并处理。各 种题型试题的判断规则及处理方式如下: 1)问答题: a) 判断规则:某行以"答" +空格开始; b) 处理方式:以"答" +空格为问答题标志,将问答题标志之前的内容作为题干;将问 答题标志之后的内容作为参考答案,若其后没有内容,则不提供参考答案。
[00M] 2)判断题: a) 判断规则:最后一行以Y或N开头; b) 处理方式:最后一行之前的内容为题干;最后一行开头为Y则答案为"正确",开头为 N则答案为"错误";Y或N之后若有以斜杠划分的内容,则分别作为判断题正确选项文字和错 误选项文字;若Y或N之后无内容,则正确选项文字默认为"正确"、错误选项文字默认为"错 2 口,, 〇
[0015] 3)题干为多行的选择题: a)判断规则:第一步判断:最后一行或最后数行均以选项序号开头,或均为选项组项; 第二步判断:除以选项序号开头或为选项组项的行以外的其余各行中至少有一个选择题题 空。
[0016] b)处理方式:若两步判断都满足,除以选项序号开头或为选项组项的行以外的其 余各行内容为题干,从题干中所有选择题题空中获取选择题答案,并将选择题题空替换为 无答案题空;以选项序号开头或为选项组项的行为选择题选项,此时分两种情况: ①若每行以数字+右括号开头,则为有多组选项的完型填空题,此时每行为一组选 项,该行中以单个英文字母+点号或右括号开头的内容则为选项; ?每行不以数字+右括号开头,而是以选项序号开头,则每行为一个选项;去掉选项 序号,只保留文字内容。
[0017] 4)题干为单行的选择题: a) 判断规则:第一行包含选择题题空; b) 处理方式:第一行为题干,从题干中所有选择题题空中获取选择题答案,并将选择 题题空替换为无答案题空;之后的每一行为一个选项,若每行开头是选项序号,则去掉选项 序号,只保留文字内容。
[0018] 5)填空题: a) 判断规则:包含填空题题空; b) 处理方式:所有内容为题干,从题干中所有填空题题空中获取填空题答案,并将填 空题题空替换为无答案题空。
[0019] 所述选项序号为单个英文字母+点号或右括号。
[0020] 所述选择题题空为位于题干中的以左右各两个或两个以上下划线或空格围绕的 单个英文字母或多个英文字母;所述填空题题空为位于题干中的以左右各两个或两个以上 下划线或空格围绕的普通文字;所述无答案题空为自定义标志。
[0021] 所述自定义标志为四个或更多个下划线。
[0022] 本发明适用于选择题、填空题、判断题和问答题四种题型,其中选择题包括按答案 选项数分的单选题和多选题,按题干行数分的题干为单行的选择题和题干为多行的选择 题,以及有多组选项的完形填空题。采用本发明可以对上述各该题型的文本形
式试题进行 结构化数据处理。所述结构化数据处理是由计算机自动识别完成的,人工仅需在文本形式 的试题准备阶段将文本形式的试题按规定的格式输入,无需为试题添加额外辅助信息。本 发明规定的格式与目前通用的纸质形式的试题格式基本一致,因此本发明的准备阶段不需 要过多额外工作,省时省力。
【附图说明】
[0023]图1为本发明试题的结构化方法流程框图。
【具体实施方式】
[0024]下面结合附图和实施例对本发明作进一步的说明。
[0025]实施例1:文本形式的试题准备阶段,按规定的格式输入的文本形式的试题示例。 [0026] (1)选择题: a) 题空位于题干中,题空有一个或多个; b) 答案写在题空上,以左右各两个或两个以上下划线或空格围绕答案,单选题答案以 单个英文字母表示,多选题答案以多个英文字母表示; c) 对于单选题或多选题,每个选项占一行;并且对于多行题干选择题,每个选项以单 个英文字母+点号或右括号为选项序号开头;选项序号后为选项; d) 对于有多组选项的完形填空题,每组选项占一行,为选项组项,每行以数字+右括 号开头,每个选项以单个英文字母+点号或右括号为选项序号,选项序号后为选项,选项 与选项间以一个或多个空格分隔。
[0027] 例1(单选题): "但愿人长久,千里共婵娟"出自《水调歌头·丙辰中秋》。
[0028] 那么它是_B_的作品? A. 李清照 B. 苏轼 C. 辛弃疾 D. 欧阳修 说明:其中,选择题题空,选项序号为第3行开始的各行开头的A.、B.、C.和 D. 〇
[0029] 例2(多选题): 以下哪几部作品的作者为苏轼?_ABD_ A) 念奴娇?赤壁怀古 B) 赤壁赋 C) 采桑子?群芳过后西湖好 D) 水调歌头?明月几时有 说明:其中,选择题题空S__ABD__,选项序号为第2行开始的各行开头的A)、B)、C)和 D)〇
[0030] 例3(多组选项): "但愿人长久,千里共婵娟"是_B_朝代的_C_的作品? 1) A.唐B.宋C.元D.明 2) A.李清照B.辛弃疾C.苏轼D.欧阳修 说明:其中,选择题题空有两个,分别是__8_和_(:__;选项有两组,分别是"A.唐B. 宋C.元D.明"和"A.李清照B.辛弃疾C.苏轼D.欧阳修'。
[0031] (2)填空题: a)题空位于题干中或在题干最后,题空有一个或多个; b)答案写在题空上,以左右各两个或两个以上下划线或空格围绕答案,答案为普通文 字。
[0032] 例4: 苏轼(1037年1月8日一1101年8月24日),字子瞻,号_东坡居士_,_宋_代文学家。
[0033] 说明:其中填空题题空有两处,分别是" _东坡居士_"和" _宋_"。
[0034] (3)判断题 a) 答案在最后一行,开头以Y或N表示正确或错误;或者, b) 答案后额外添加空格+正确选项文字+斜杠+错误选项文字。
[0035] 例5: 杭州西湖的苏堤是苏轼在杭州任职时率众修筑的。
[0036] Y 说明:此题答案为正确,正确选项文字是默认的"正确"、错误选项文字是默认的"错 2 口,, 〇
[0037] 例6: 苏轼在杭州任职期间,百姓为感谢他带领大家疏濬西湖,抬猪担酒来给他拜年。
[0038] 苏轼指点家人将猪肉切成方块,烧得红酥,然后分送给大家吃,这就是东坡肉的由 来。
[0039] Y 对/错 说明:此题答案为正确,正确选项文字是"对"、错误选项文字是"错"。
[0040] (4)问答题 a) 答案在题干的下一行; b) 提供参考答案,答案以"答" +空格开始,空格后为参考答案,参考答案为一行或多 行;或者, c) 不提供参考答案,答案以"答" +空格开始,空格后无内容。
[0041] 例7: 苏轼是宋代重要的文学家,其词开豪放一派,与辛弃疾同是豪放派代表,并称"苏辛"。 [0042]请列举苏轼的主要词作品。
[0043]答《少年游?去年相送》《江城子?湖上与张先同赋》《虞美人?有美堂赠述古》 《水调歌头·明月几时有》《念奴娇·赤壁怀古》。
[0044]实施例2:文本形式的试题准备阶段,一组文本形式的试题按规定的格式排列的示 例。
[0045] "但愿人长久,千里共婵娟"是_B_的作品? A. 李清照 B. 苏轼 C. 辛弃疾 D. 欧阳修 杭州西湖的苏堤是苏轼在杭州任职时率众修筑的。
[0046] Y 苏轼(1037年1月8日一1101年8月24日),字子瞻,号_东坡居士_,_宋_代文学家。
[0047] 说明:上述一组三个试题,试题与试题间以单个或多个空行分隔。
[0048]实施例3:计算机自动识别阶段,对文本形式的试题按判断规则及处理方式进行判 断并处理的示例。
[0049] (1)问答题 设需处理实施例1中例7所示原始试题,因为第3行以"答" +空格开始,所以确认为问 答题。以"答" +空格为问答题标志,将问答题标志之前的内容作为题干,也即题干为: 苏轼是宋代重要的文学家,其词开豪放一派,与辛弃疾同是豪放派代表,并称"苏辛"。
[0050] 请列举苏轼的主要词作品。
[0051 ]将问答题标志之后内容作为参考答案,即参考答案为: 《少年游?去年相送》《江城子?湖上与张先同赋》《虞美人?有美堂赠述古》《水调歌 头·明月几时有》《念奴娇·赤壁怀古》。
[0052] (2)判断题 设需处理实施例1中例5所示原始试题,依次按问答题、判断题、题干为多行的选择题、 题干为单行的选择题和填空题的顺序判断题型并处理,即先按问答题判断规则进行判断, 由于判断结果不相符合,故再按判断题判断规则进行判断。因其最后一行以Y或N开头,所以 确认为判断题。最后一行之前的内容为题干,也即题干为: 杭州西湖的苏堤是苏轼在杭州任职时率众修筑的。
[0053]最后一行开头为Y,因此答案为"正确";Y后无文字,则正确选项文字为默认的"正 确",错误选项文字为默认的"错误"。
[0054] 计算机以此获得的结构化试题数据,后续呈现给答题者的试题为: 杭州西湖的苏堤是苏轼在杭州任职时率众修筑的。
[0055] □正确 □错误 其中,□为让答题者勾选答案的人机交互界面控件。注意:对、错选项的文字使用了默 认的"正确"与"错误"。
[0056] (3)题干为多行的选择题 设需处理实施例1中例1所示原始试题,依次按问答题、判断题、题干为多行的选择题、 题干为单行的选择题和填空题的顺序判断题型并处理,即先按问答题判断规则进行判断, 由于判断结果不相符合,故再按判断题判断规则进行判断,由于判断结果仍不相符合,故再 按题干为多行的选择题判断规则进行判断。因其最后4行均以选项序号(分别为A.、B.、C. 和D.)开头,其第2行包含一个选择题题空"_B__",所以确认为题干为多行的选择题。除了 最后4行外均为题干,也即题干为: "但愿人长久,千里共婵娟"出自《水调歌头·丙辰中秋》。
[0057] 那么它是_B_的作品? 从题干中的选择题题空"_B_"中获取选择题答案为B,并将该选择题题空替换为无答 案题空,也即最终的题干为: "但愿人长久,千里共婵娟"出自《水调歌头·丙辰中秋》。
[0058]那么它是_的作品? 最后4行每行不以数字+右括号开头,则每行为一个选项,去掉选项序号后,最终得到 选项为: 李清照、苏轼、辛弃疾、欧阳修。
[0059] 计算机以此获得的结构化试题数据,后续呈现给答题者的试题为: "但愿人长久,千里共婵娟"出自《水调歌头·丙辰中秋》。
[0060] 那么它是_的作品? □李清照 □苏轼 □辛
弃疾 □欧阳修 其中,□为让答题者勾选答案的人机交互界面控件。
[0061] (4)题干为单行的选择题: 设需处理的原始试题为: "但愿人长久,千里共婵娟"是_B_的作品? 李清照 苏轼 辛弃疾 欧阳修 因为在计算机自动识别阶段,按问答题、判断题、题干为多行的选择题、题干为单行的 选择题、填空题的顺序进行识别,由于不满足问答题、判断题、题干为多行的选择题的判别 条件,而又因为它第一行包含选择题题空"_B__",因此确认为题干为单行的选择题。将第 一行识别为题干,并从题干中所有选择题题空中获取选择题答案,并将选择题题空替换为 无答案题空,因此得到题干为: "但愿人长久,千里共婵娟"是_的作品? 答案为:B 之后的每一行为一个选项,也即选项为: 李清照、苏轼、辛弃疾、欧阳修。
[0062] (5)填空题: 设需处理实施例1中例4所示原始试题,依次按问答题、判断题、题干为多行的选择题、 题干为单行的选择题和填空题的顺序判断题型并处理,即先按问答题、判断题、题干为多行 的选择题、题干为单行的选择题判断规则进行判断,由于判断结果均不相符合,故再按填空 题判断规则进行判断。因其包含两个填空题题空(东坡居士_"和"__宋__"),判断为填 空题。所有内容为题干,从题干中所有填空题题空中获取填空题答案,并将填空题题空替换 为无答案题空,因此得到题干为: 苏轼(1037年1月8日一1101年8月24日),字子瞻,号_,_代文学家。
[0063]答案为:东坡居士、宋。
【主权项】
1. 一种试题的结构化方法,分为文本形式的试题准备与计算机自动识别两个阶段,其 特征在于: (1) 文本形式的试题准备阶段:按规定的格式输入文本形式的试题,不添加额外辅助信 息; (2) 计算机自动识别阶段:对第(1)阶段按规定的格式输入的每一文本形式的试题按判 断规则及处理方式进行自动识别并输出结构化试题。2. 根据权利要求1所述的试题的结构化方法,其特征在于:所述的规定的格式如下: (1) 试题与试题间以一个或多个空行分隔; (2) 试题分为选择题、填空题、判断题和问答题四种题型,其中选择题包括按答案选项 数分的单选题和多选题,按题干行数分的题干为单行的选择题和题干为多行的选择题,以 及有多组选项的完形填空题; (3) 试题以题干为第一行,题干有一行或多行; 并且, (4) 对于选择题: a) 题空位于题干中,题空有一个或多个; b) 答案写在题空上,以左右各两个或两个以上下划线或空格围绕答案,单选题答案以 单个英文字母表示,多选题答案以多个英文字母表示; c) 对于单选题或多选题,每个选项占一行;并且对于多行题干选择题,每个选项以单 个英文字母+点号或右括号为选项序号开头;选项序号后为选项; d) 对于有多组选项的完形填空题,每组选项占一行,为选项组项,每行以数字+右括 号开头,每个选项以单个英文字母+点号或右括号为选项序号,选项序号后为选项,选项 与选项间以一个或多个空格分隔; 或者, (5) 对于填空题: a) 题空位于题干中,题空有一个或多个; b) 答案写在题空上,以左右各两个或两个以上下划线或空格围绕答案,答案为普通文 字; 或者, (6) 对于判断题: a) 答案在最后一行,开头以Y或N表示正确或错误;或者, b) 答案后额外添加空格+正确选项文字+斜杠+错误选项文字; 或者, (7) 对于问答题: a) 答案在题干的下一行; b) 提供参考答案,答案以"答" +空格开始,空格后为参考答案,参考答案为一行或多 行;或者, c) 不提供参考答案,答案以"答" +空格开始,空格后无内容。3. 根据权利要求1所述的试题的结构化方法,其特征在于:所述的自动识别是对一试题 依次按问答题、判断题、题干为多行的选择题、题干为单行的选择题和填空题的顺序判断题 型并处理,即先按第一题型即问答题判断规则进行判断,如判断结果相符合,则确定为该题 型并按该题型处理方式进行处理,如判断结果不相符,则按下一题型判断规则继续进行判 断,如此类推,直至确定题型并按该题型处理方式进行处理,然后对下一试题判断题型并处 理;所述的判断规则及处理方式如下: (1) 问答题: a) 判断规则:某行以"答" +空格开始; b) 处理方式:以"答" +空格为问答题标志,将问答题标志之前的内容作为题干;将问 答题标志之后的内容作为参考答案,若其后没有内容,则不提供参考答案; (2) 判断题: a) 判断规则:最后一行以Y或N开头; b) 处理方式:最后一行之前的内容为题干;最后一行开头为Y则答案为"正确",开头为 N则答案为"错误";Y或N之后若有以斜杠划分的内容,则分别作为判断题正确选项文字和错 误选项文字;若Y或N之后无内容,则正确选项文字默认为"正确"、错误选项文字默认为"错 误"; (3) 题干为多行的选择题: a) 判断规则:第一步判断:最后一行或最后数行均以选项序号开头,或均为选项组项; 第二步判断:除以选项序号开头或为选项组项的行以外的其余各行中至少有一个选择题题 空; b) 处理方式:若两步判断都满足,除以选项序号开头或为选项组项的行以外的其余各 行内容为题干,从题干中所有选择题题空中获取选择题答案,并将选择题题空替换为无答 案题空;以选项序号开头或为选项组项的行为选择题选项,此时分两种情况: ?若每行以数字+右括号开头,则为有多组选项的完型填空题,此时每行为一组选项, 该行中以单个英文字母+点号或右括号开头的内容为选项; ②每行不以数字+右括号开头,而是以选项序号开头,则每行为一个选项;去掉选项序 号,只保留文字内容; (4) 题干为单行的选择题: a) 判断规则:第一行包含选择题题空; b) 处理方式:第一行为题干,从题干中所有选择题题空中获取选择题答案,并将选择 题题空替换为无答案题空;之后的每一行为一个选项,若每行开头是选项序号,则去掉选项 序号,只保留文字内容; (5) 填空题: a) 判断规则:包含填空题题空; b) 处理方式:所有内容为题干,从题干中所有填空题题空中获取填空题答案,并将填 空题题空替换为无答案题空; (6) 以上题型都不符合,则将该文本形式的试题另行存储以便进行格式检查和修改;同 时进入下一试题判断题型并处理。4. 根据权利要求2或3所述的试题的结构化方法,其特征在于:所述选项序号为单个英 文字母+点号或右括号。5. 根据权利要求3所述的试题的结构化方法,其特征在于:所述选择题题空为位于题干 中的以左右各两个或两个以上下划线或空格围绕的单个英文字母或多个英文字母;所述填 空题题空为位于题干中的以左右各两个或两个以上下划线或空格围绕的普通文字;所述无 答案题空为自定乂标志。6.根据权利要求5所述的试题的结构化方法,其特征在于:所述自定义标志为四个或更 多个下划线。
【专利摘要】本发明涉及一种试题的结构化方法,该方法分为两个阶段:(1)文本形式的试题准备阶段:按规定的格式输入文本形式的试题,不添加额外辅助信息;(2)计算机自动识别阶段:对第(1)阶段按规定的格式输入的每一文本形式的试题按判断规则及处理方式进行自动识别并输出结构化试题。本发明结构化数据处理是由计算机自动识别完成的,人工仅需在文本形式的试题准备阶段将文本形式的试题按规定的格式输入,无需为试题添加额外辅助信息。本发明规定的格式与目前通用的纸质形式的试题格式基本一致,因此本发明的准备阶段不需要过多额外工作,省时省力。
【IPC分类】G06F17/22, G06F17/27
【公开号】CN105488015
【申请号】CN201610043832
【发明人】吴以凡
【申请人】吴以凡
【公开日】2016年4月13日
【申请日】2016年1月22日