一种基于回复感知的会话式信息检索方法

本发明属于信息检索领域，特别涉及一种基于回复感知的会话式信息检索方法。

背景技术：

1、随着互联网的发展和信息爆炸，用户面对海量信息时，很难快速找到所需的精确信息。传统的关键字搜索往往不能准确理解用户的真实意图，导致产生大量不相关的结果。会话式检索通过自然语言的方式与用户互动，对会话状态进行跟踪，通过多轮检索，逐步了解用户的查询意图，提供更加精准和相关的检索结果。

2、会话式检索实现查询改写的方法有很多，主要分为查询扩展和查询重写两类。查询扩展通过添加或替换用户原始查询中的关键词，来提高检索范围的相关性和覆盖范围。主流的方法有基于同义词，文档内容，和知识库等对查询进行扩展，添加扩展项。查询重写用于修改，替换或重新组织用户的原始查询词，来解决查询过于简短，模糊或者不准确的问题。两者不同的之处在于用于最终检索的查询是不是一个句子。本发明仅涉及查询扩展的方法来实现上述过程，选用基于文档内容的查询扩展技术。

3、对于查询扩展的方法，如何查找准确的扩展词成为首要任务，现有方法计算所有候选扩展词与当前所有文档的邻近度作为筛选扩展词的选项，为了更好的筛选合适的扩展词，各种方法及其改进方法逐渐出现，使用滑动窗口和核函数来计算邻近度在近些年得到很好的发展。近期由于大模型的出现，使用预训练语言模型（gpt-3，bert等）实现零样本，少样本训练使得信息检索仅需要少量的训练数据。当前新的预训练语言模型层出不穷，越来越高性能的大模型可以给检索带来更优质的服务体验与检索效率。

4、但是，并非所有的文档都需要进行扩展词匹配，如果使用全部的文档与查询词用大模型进行匹配势必会降低检索的效率，延长检索时长。如何筛选出具有与当前查询词强相关性的文档成为重中之重。更多的是，会话式检索与传统单轮检索的不同的是，具有较强的上下文关联性和具有历史查询这一表征特性，若不考虑历史查询对当前查询的影响，势必会造成理解上的偏差，在使用过程中，用户往往会使用代词it them来指代上文出现的名词与短语，但对上文反复检索会造成性能浪费，重复工作重复出现，检索效率直线下降。

技术实现思路

1、针对上述问题，本发明一种基于回复感知的会话式信息检索方法，通过使用历史查询回复和历史查询文档作为当前查询扩展词的知识库，实现更加精确化检索，进一步联系上下文查询语句。本文使用的simsce模型，能够显著提升语义表达的质量与效率，通过对比学习来训练句子嵌入，在自然语言处理任务中具有广泛的使用性，提升检索效果。

2、以下是本发明的技术方案，基于回复感知的会话式查询扩展及信息检索方法，包括以下步骤：

3、s1：对文档d利用大语言模型进行编码得到。

4、s2：对于一组会话式查询，>1，针对第轮次的查询、上一条查询，基于bm25算法，分别获取对应反馈集。

5、对于一组会话式查询，>1，针对第轮次的查询，使用bm25算法计算查询词与每个文档d的得分，取其前n个文档在s1中相应已编码的文档输入到基于对比学习的句向量表示simsce中，计算语义相似度，获得其中||排名最高的文档作为反馈集，||表示经过simsce重新排序之后的所取的文档数；找到该查询上一条查询，同上述操作获得其反馈集。

6、s3：基于反馈集利用大语言模型编码，通过超空间语义方法，获得扩展词。

7、s4：将进行编码获得与扩展项，拼接成新的查询，并使用simsce计算与语义相似度，并对语义相似度从大到小进行排序，得到检索的排序结果，并计算损失进行训练。

8、s5：使用训练好的模型，对测试集查询进行检索，得到检索的排序结果，同时simsce也会输出综合文档的统一回复。

9、本发明提供的基于回复感知的会话式查询扩展及信息检索方法，通过加入历史回复和历史查询反馈集中的扩展词，提高上下查询回复的连续性，并且添加回复作为扩展词候选项来减小噪声，为用户带来流畅，个性化的信息和建议。使用simsce来代替传统大语言模型，使用对抗学习来做句子嵌入，最大化相似句子之间的相似度，最小化非相似句子之间的相似度，生成更具语义区分力的句子嵌入，训练简单高效，具有较强的泛化能力，生成更加高质量的句子，实现用户体验感更加的检索服务。

技术特征：

1.一种基于回复感知的会话式信息检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于回复感知的会话式信息检索方法，其特征在于，所述步骤s2具体过程为：对于一组会话式查询，>1，针对第轮次的查询，使用bm25算法计算查询词与每个文档d的得分，取其前n个文档在s1中相应已编码的文档输入到基于对比学习的句向量表示simsce中，计算语义相似度，获得其中||排名最高的文档作为反馈集，||表示经过simsce重新排序之后的所取的文档数；找到该查询上一条查询，同上述操作获得其反馈集。

3.根据权利要求2所述的基于回复感知的会话式信息检索方法，其特征在于，所述使用bm25算法计算查询词与每个文档d的得分具体过程如下：

4.根据权利要求3所述的基于回复感知的会话式信息检索方法，其特征在于，所述前n个文档在s1中相应已编码的文档输入到基于对比学习的句向量表示simsce中，计算语义相似度具体过程如下：

5.根据权利要求3所述的基于回复感知的会话式信息检索方法，其特征在于，所述步骤s3具体实现过程如下：

6.根据权利要求5所述的基于回复感知的会话式信息检索方法，其特征在于，所述步骤s4具体实现过程如下：

技术总结
本发明公开了一种基于回复感知的会话式信息检索方法，该方法首先对文档D利用大语言模型进行编码；对于一组会话式查询，针对查询，基于使用BM25算法，分别获取对应反馈集。其次基于反馈集利用大语言模型编码，通过超空间语义方法，获得扩展词。然后将查询进行编码获，与扩展词，拼接成新的查询，并计算其与文档编码后语义相似度，并对语义相似度从大到小进行排序，并计算损失进行训练。最后使用训练好的模型，对测试集查询进行检索，得到检索的排序结果。本发明提高上下查询回复的连续性，并且添加回复作为扩展词候选项来减小噪声，为用户带来流畅，个性化的信息和建议。

技术研发人员：陈夏丹,何璞玉,张奉静,王俊美
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)