网页信息自动录入方法及系统的制作方法
【技术领域】
[0001] 本发明涉及信息处理领域,特别是涉及一种网页信息自动录入方法及系统。
【背景技术】
[0002] 名词解释: TextBox:文本框; RadioBox:单选框; ComboBox:选择框。
[0003] 随着信息管理软件逐步由传统的C/S结构向B/S结构转变,越来越多的信息录入都 在网页上实现,这种方式的转变一方面极大减轻了软件实施方的安装、维护工作量,同时在 一定程度也降低了对客户端的设备要求,但像其他任何事物一样,有利必然有弊,其最大的 不足在于客户端信息录入方面与传统C/S结构软件相比,一是在便利化、人机友好性方面有 所欠缺;最主要的是,这种B/S结构应用软件,其数据库非常集中,应用规模广,数据库位于 最核心服务后台,一般不可能向客户端开放任何数据接口,客户端也无从窥探后台数据接 口,这样就造成客户端只有通过客户端网页唯一媒介向后台录入数据。而现实情况是,在客 户端往往已存在这样或那样的信息系统和本地数据库,有诸多现成的信息可供录入。目前 的网页信息录入方式需要手动将各种本地信息库进行录入,无法自动录入各种本地信息, 操作较为繁琐,工作效率低下,而且由于需要大量的人为输入操作,导致数据出错的概率增 大,最后导致录入的准确率较低。
【发明内容】
[0004] 为了解决上述的技术问题,本发明的目的是提供网页信息自动录入方法。本发明 的另一目的是提供网页信息自动录入系统 本发明解决其技术问题所采用的技术方案是: 网页信息自动录入方法,包括: 51、 将目标网页按照网页文档结构生成XML文档; 52、 将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表与本地信息 库进行映射后,生成映射字典库; 53、 提取本地信息库的数据信息并根据映射字典库的映射关系,将数据信息中的数据 内容自动录入到目标网页中; 54、 判断本地信息库是否录入完毕,若是,则自动提交到远程后台。
[0005] 进一步,所述步骤S1,包括: 511、 将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档格式; 512、 对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上述XML标准文 档格式中,生成XML文档。
[0006] 进一步,所述XML标准文档格式包括文档名称、网页层名称、信息单元识别符、信息 单元结构类型以及信息单元数据类型。
[0007] 进一步,所述步骤S2,包括: 521、 将XML文档转换成对应的数据表; 522、 响应于用户的输入信息,将数据表的网页信息单元识别符与本地信息库的本地信 息单元名称进行映射配对后,生成映射字典库。
[0008] 进一步,所述步骤S22,其具体为: 分别列表显示数据表的网页信息单元识别符以及本地信息库的本地信息单元名称,并 响应于用户在两个列表上的点击操作信息,将网页信息单元识别符与本地信息单元名称进 行映射配对后,生成映射字典库。
[0009] 进一步,所述步骤S3,包括: 531、 逐条提取本地信息库中的数据信息; 532、 根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应的网页信息的 数据格式; 533、 根据获取的网页信息的数据格式,将数据信息中的数据内容自动录入到目标网页 中。
[0010]进一步,所述步骤S33,其具体为: 判断获取的网页信息的数据格式是否为文本框格式,若是,则将数据信息中的数据内 容赋值到目标网页的对应文本框中,反之,若判断获取的网页信息的数据格式为选择框格 式,则计算出数据信息中的数据内容在该选择框中的排序,并将输入光标移动到目标网页 的对应选择框后,根据该排序模拟移动选择框的列表项,最后定格在与该数据内容匹配的 选项后,选择该选项。
[0011] 本发明解决其技术问题所采用的另一技术方案是: 网页信息自动录入系统,包括: 网页提取模块,用于将目标网页按照网页文档结构生成XML文档; 映射模块,用于将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表 与本地信息库进行映射后,生成映射字典库; 自动录入模块,用于提取本地信息库的数据信息并根据映射字典库的映射关系,将数 据信息中的数据内容自动录入到目标网页中; 自动提交模块,用于判断本地信息库是否录入完毕,若是,则自动提交到远程后台。
[0012] 进一步,所述网页提取模块包括: 第一子模块,用于将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档 格式; 第二子模块,用于对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上 述XML标准文档格式中,生成XML文档。
[0013] 进一步,所述映射模块包括: 第三子模块,用于将XML文档转换成对应的数据表; 第四子模块,用于响应于用户的输入信息,将数据表的网页信息单元识别符与本地信 息库的本地信息单元名称进行映射配对后,生成映射字典库。
[0014] 进一步,所述自动录入模块,包括: 第五子模块,用于逐条提取本地信息库中的数据信息; 第六子模块,用于根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应 的网页信息的数据格式; 第七子模块,用于根据获取的网页信息的数据格式,将数据信息中的数据内容自动录 入到目标网页中。
[0015] 本发明的有益效果是:本发明的网页信息自动录入方法,包括:将目标网页按照网 页文档结构生成XML文档;将XML文档转换成对应的数据表,并响应于用户的输入信息,将数 据表与本地信息库进行映射后,生成映射字典库;提取本地信息库的数据信息并根据映射 字典库的映射关系,将数据信息中的数据内容自动录入到目标网页中;判断本地信息库是 否录入完毕,若是,则自动提交到远程后台。本方法可以将本地信息库的数据信息自动录入 到目标网页并提交到远程后台,适用范围广、兼容性强、简单高效率且录入准确率高。
[0016] 本发明的另一有益效果是:网页信息自动录入系统,包括:网页提取模块,用于将 目标网页按照网页文档结构生成XML文档;映射模块,用于将XML文档转换成对应的数据表, 并响应于用户的输入信息,将数据表与本地信息库进行映射后,生成映射字典库;自动录入 模块,用于提取本地信息库的数据信息并根据映射字典库的映射关系,将数据信息中的数 据内容自动录入到目标网页中;自动提交模块,用于判断本地信息库是否录入完毕,若是, 则自动提交到远程后台。本系统可以将本地信息库的数据信息自动录入到目标网页并提交 到远程后台,适用范围广、兼容性强、简单高效率且录入准确率高。。
【附图说明】
[0017]下面结合附图和实施例对本发明作进一步说明。
[0018] 图1是本发明的网页信息自动录入方法的流程图。
【具体实施方式】
[0019] 参照图1,本发明提供了 一种网页信息自动录入方法,包括: 51、 将目标网页按照网页文档结构生成XML文档; 52、 将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表与本地信息 库进行映射后,生成映射字典库; 53、 提取本地信息库的数据信息并根据映射字典库的映射关系,将数据信息中的数据 内容自动录入到目标网页中; 54、 判断本地信息库是否录入完毕,若是,则自动提交到远程后台。
[0020] 进一步作为优选的实施方式,所述步骤S1,包括: 511、 将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档格式; 512、 对目
标网页的信息内容进行遍历树扫描后,获取对应信息填充到上述XML标准文 档格式中,生成XML文档。
[0021] 进一步作为优选的实施方式,所述XML标准文档格式包括文档名称、网页层名称、 信息单元识别符、信息单元结构类型以及信息单元数据类型。
[0022] 进一步作为优选的实施方式,所述步骤S2,包括: S21、将XML文档转换成对应的数据表; S22、响应于用户的输入信息,将数据表的网页信息单元识别符与本地信息库的本地信 息单元名称进行映射配对后,生成映射字典库。
[0023]进一步作为优选的实施方式,所述步骤S22,其具体为: 分别列表显示数据表的网页信息单元识别符以及本地信息库的本地信息单元名称,并 响应于用户在两个列表上的点击操作信息,将网页信息单元识别符与本地信息单元名称进 行映射配对后,生成映射字典库。
[0024] 进一步作为优选的实施方式,所述步骤S3,包括: 531、 逐条提取本地信息库中的数据信息; 532、 根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应的网页信息的 数据格式; 533、 根据获取的网页信息的数据格式,将数据信息中的数据内容自动录入到目标网页 中。
[0025] 进一步作为优选的实施方式,所述步骤S33,其具体为: 判断获取的网页信息的数据格式是否为文本框格式,若是,则将数据信息中的数据内 容赋值到目标网页的对应文本框中,反之,若判断获取的网页信息的数据格式为选择框格 式,则计算出数据信息中的数据内容在该选择框中的排序,并将输入光标移动到目标网页 的对应选择框后,根据该排序模拟移动选择框的列表项,最后定格在与该数据内容匹配的 选项后,选择该选项。
[0026] 本发明还提供了 一种网页信息自动录入系统,包括: 网页提取模块,用于将目标网页按照网页文档结构生成XML文档; 映射模块,用于将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表 与本地信息库进行映射后,生成映射字典库; 自动录入模块,用于提取本地信息库的数据信息并根据映射字典库的映射关系,将数 据信息中的数据内容自动录入到目标网页中; 自动提交模块,用于判断本地信息库是否录入完毕,若是,则自动提交到远程后台。
[0027] 进一步作为优选的实施方式,所述网页提取模块包括: 第一子模块,用于将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档 格式; 第二子模块,用于对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上 述XML标准文档格式中,生成XML文档。
[0028] 进一步作为优选的实施方式,所述映射模块包括: 第三子模块,用于将XML文档转换成对应的数据表; 第四子模块,用于响应于用户的输入信息,将数据表的网页信息单元识别符与本地信 息库的本地信息单元名称进行映射配对后,生成映射字典库。
[0029] 进一步作为优选的实施方式,所述自动录入模块,包括: 第五子模块,用于逐条提取本地信息库中的数据信息; 第六子模块,用于根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应 的网页信息的数据格式; 第七子模块,用于根据获取的网页信息的数据格式,将数据信息中的数据内容自动录 入到目标网页中。
[0030]以下结合具体实施例对本发明做详细说明。
[0031 ] 实施例一 参照图1,一种网页信息自动录入方法,包括: 51、 将目标网页按照网页文档结构生成XML文档; 52、 将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表与本地信息 库进行映射后,生成映射字典库; 53、 提取本地信息库的数据信息并根据映射字典库的映射关系,将数据信息中的数据 内容自动录入到目标网页中; 54、 判断本地信息库是否录入完毕,若是,则自动提交到远程后台。
[0032] 步骤S1具体包括S11和S12: S11、将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档格式;XML标准 文档格式包括文档名称、网页层名称、信息单元识别符、信息单元结构类型以及信息单元数 据类型,如下表1所示: 表1 XML标准文档格式
S12、对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上述XML标准文档格 式中,生成XML文档。将信息填充到XML标准文档格式中的一个实例如下表2所示: 表2填充信息的XML标准文档格式
上表2中,Documentl为文档名称,Iframe(O)为网页层名称,name、sex、age、nation均为 信息单元识别符,分别表示名称、性别、年龄、国籍;TextBox、RadioBox、ComboBox均为信息 单元结构类型,分别表示文本框、单选框、选择框;String、Bool、Int均为信息单元数据类 型,分别为字符串、布尔变量或整数。
[0033] 步骤S2包括S21和S22: 521、 将XML文档转换成对应的数据表; 522、 响应于用户的输入信息,将数据表的网页信息单元识别符与本地信息库的本地信 息单元名称进行映射配对后,生成映射字典库,具体为:分别列表显示数据表的网页信息单 元识别符以及本地信息库的本地信息单元名称,并响应于用户在两个列表上的点击操作信 息,将网页信息单元识别符与本地信息单元名称进行映射配对后,生成映射字典库。
[0034] 更详细的,步骤S22中,在显示界面上,左侧列表显示网页信息单元识别符,右侧列 表显示本地信息单元名称,由人工或专家用户智能地在列表上进行映射配对,从而并响应 于用户在两个列表上的点击操作信息,将网页信息单元识别符与本地信息单元名称进行映 射配对后,生成映射字典库。
[0035] 步骤S3包括S31~S33: 531、 逐条提取本地信息库中的数据信息; 532、 根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应的网页信息的 数据格式; 533、 根据获取的网页信息的数据格式,将数据信息中的数据内容自动录入到目标网页 中,具体为:判断获取的网页信息的数据格式是否为文本框格式,若是,则将数据信息中的 数据内容赋值到目标网页的对应文本框中,反之,若判断获取的网页信息的数据格式为选 择框格式,则计算出数据信息中的数据内容在该选择框中的排序,并将输入光标移动到目 标网页的对应选择框后,根据该排序模拟移动选择框的列表项,最后定格在与该数据内容 匹配的选项后,选择该选项。
[0036] 本实施例中,对于网页上复杂的输入控件,如RadioBox,ComboBox等组件,则采取 机器模拟技术,让机器模仿人一样进行选择录入。例如,某人的民族是"维吾尔族",目标网 页上录入民族信息的数据格式是由ComBoBox列表组件来完成的,那么本实施例完成该数据 信息自动录入须经以下几步完成: 1、 计算出"维吾尔族"在民族字典列表中的排列序数η值; 2、 将输入光标定位到目标网页的对应选择框一一民族录入栏; 3、 根据η值,自动移动ComboBox列表后,定格于"维吾尔族"这个选项上,并模拟点击回 车键,完成该信息的录入。
[0037] 最后,在完成本地信息库与目标网页的网页信息的交换后,即判断本地信息库录 入完毕后,模拟人工操作,判断本地信息库是否录入完毕,将输入光标定位到提交按钮上, 自动点击提交,完成整个信息由本地信息库向远程后台的自动录入提交工作。
[0038] 本方法通过自动对各种要录入信息的目标网页进行分层、剥离解析后,生成特定 的XML文档,而且对XML文档采用了独特的与本地信息库进行自由映
射的机制,使得目标网 页的来源可灵活定制和改变,极大地扩展了应用的范围和领域。另外,本方法可以解决各种 数据格式的网页信息的全自动录入工作,解决了不同浏览器、不同网页信息呈现以及不同 行业应用的信息自动录入问题。本方法具有适用范围广、兼容性强、简单高效的有点,能运 用于各行各业、各种不同的Web浏览器、各种场景的网页信息的自动填写和提交。本方法能 极大解放生产力,提高网页信息录入工作的效率和准确率;尤其适用于本地信息与网络信 息进行整合的IT应用领域,特别是行业应用由C/S结构向B/S转换阶段或是两种模式混合应 用阶段,是当前中国各行各业信息化发展的大趋势。
[0039] 实施例二 本实施例是与实施例---对应的软系统,一种网页信息自动录入系统,包括: 网页提取模块,用于将目标网页按照网页文档结构生成XML文档; 映射模块,用于将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表 与本地信息库进行映射后,生成映射字典库; 自动录入模块,用于提取本地信息库的数据信息并根据映射字典库的映射关系,将数 据信息中的数据内容自动录入到目标网页中; 自动提交模块,用于判断本地信息库是否录入完毕,若是,则自动提交到远程后台。
[0040] 其中,网页提取模块包括: 第一子模块,用于将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档 格式; 第二子模块,用于对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上 述XML标准文档格式中,生成XML文档。
[0041 ]映射模块包括: 第三子模块,用于将XML文档转换成对应的数据表; 第四子模块,用于响应于用户的输入信息,将数据表的网页信息单元识别符与本地信 息库的本地信息单元名称进行映射配对后,生成映射字典库。
[0042]自动录入模块,包括: 第五子模块,用于逐条提取本地信息库中的数据信息; 第六子模块,用于根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应 的网页信息的数据格式; 第七子模块,用于根据获取的网页信息的数据格式,将数据信息中的数据内容自动录 入到目标网页中。
[0043]关于各个子模块的具体细节,可参照实施例一的详细描述,这里不再赘述。
[0044] 本系统可以自动将本地信息库录入到具有各种数据格式的目标网页,适用范围 广、兼容性强、简单高效、录入准确率高,能运用于各行各业、各种不同的Web浏览器、各种场 景的网页信息的自动填写和提交。
[0045] 以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施 例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替 换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
【主权项】
1. 网页信息自动录入方法,其特征在于,包括: 51、 将目标网页按照网页文档结构生成XML文档; 52、 将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表与本地信息 库进行映射后,生成映射字典库; 53、 提取本地信息库的数据信息并根据映射字典库的映射关系,将数据信息中的数据 内容自动录入到目标网页中; 54、 判断本地信息库是否录入完毕,若是,则自动提交到远程后台。2. 根据权利要求1所述的网页信息自动录入方法,其特征在于,所述步骤S1,包括: 511、 将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档格式; 512、 对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上述XML标准文 档格式中,生成XML文档。3. 根据权利要求2所述的网页信息自动录入方法,其特征在于,所述XML标准文档格式 包括文档名称、网页层名称、信息单元识别符、信息单元结构类型以及信息单元数据类型。4. 根据权利要求1所述的网页信息自动录入方法,其特征在于,所述步骤S2,包括: 521、 将XML文档转换成对应的数据表; 522、 响应于用户的输入信息,将数据表的网页信息单元识别符与本地信息库的本地信 息单元名称进行映射配对后,生成映射字典库。5. 根据权利要求1所述的网页信息自动录入方法,其特征在于,所述步骤S3,包括: 531、 逐条提取本地信息库中的数据信息; 532、 根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应的网页信息的 数据格式; 533、 根据获取的网页信息的数据格式,将数据信息中的数据内容自动录入到目标网页 中。6. 根据权利要求5所述的网页信息自动录入方法,其特征在于,所述步骤S33,其具体 为: 判断获取的网页信息的数据格式是否为文本框格式,若是,则将数据信息中的数据内 容赋值到目标网页的对应文本框中,反之,若判断获取的网页信息的数据格式为选择框格 式,则计算出数据信息中的数据内容在该选择框中的排序,并将输入光标移动到目标网页 的对应选择框后,根据该排序模拟移动选择框的列表项,最后定格在与该数据内容匹配的 选项后,选择该选项。7. 网页信息自动录入系统,其特征在于,包括: 网页提取模块,用于将目标网页按照网页文档结构生成XML文档; 映射模块,用于将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表 与本地信息库进行映射后,生成映射字典库; 自动录入模块,用于提取本地信息库的数据信息并根据映射字典库的映射关系,将数 据信息中的数据内容自动录入到目标网页中; 自动提交模块,用于判断本地信息库是否录入完毕,若是,则自动提交到远程后台。8. 根据权利要求7所述的网页信息自动录入系统,其特征在于,所述网页提取模块包 括: 第一子模块,用于将目标网页按照网页文档分层进行剥离、解析后,形成XML标准文档 格式; 第二子模块,用于对目标网页的信息内容进行遍历树扫描后,获取对应信息填充到上 述XML标准文档格式中,生成XML文档。9. 根据权利要求7所述的网页信息自动录入系统,其特征在于,所述映射模块包括: 第三子模块,用于将XML文档转换成对应的数据表; 第四子模块,用于响应于用户的输入信息,将数据表的网页信息单元识别符与本地信 息库的本地信息单元名称进行映射配对后,生成映射字典库。10. 根据权利要求7所述的网页信息自动录入方法,其特征在于,所述自动录入模块,包 括: 第五子模块,用于逐条提取本地信息库中的数据信息; 第六子模块,用于根据映射字典库的映射关系进行匹配处理,获取与该数据信息对应 的网页信息的数据格式; 第七子模块,用于根据获取的网页信息的数据格式,将数据信息中的数据内容自动录 入到目标网页中。
【专利摘要】本发明公开了网页信息自动录入方法及系统,该方法包括:将目标网页按照网页文档结构生成XML文档;将XML文档转换成对应的数据表,并响应于用户的输入信息,将数据表与本地信息库进行映射后,生成映射字典库;提取本地信息库的数据信息并根据映射字典库的映射关系,将数据信息中的数据内容自动录入到目标网页中;判断本地信息库是否录入完毕,若是,则自动提交到远程后台。本发明可以将本地信息库的数据信息自动录入到目标网页并提交到远程后台,适用范围广、兼容性强、简单高效率且录入准确率高,可广泛应用于网页信息录入领域中。
【IPC分类】G06F17/30
【公开号】CN105488219
【申请号】CN201510976394
【发明人】赵三多, 张红卫, 赵智多, 陈曲, 周苡蝶
【申请人】珠海威泓医疗科技有限公司
【公开日】2016年4月13日
【申请日】2015年12月21日