WWW2020|信息检索中基于上下文的文本词项权重生成

[复制链接]

下载APP可以快速和圈友联系

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
©PaperWeekly 原创 · 作者|金金

单元|阿里巴巴研讨练习生

研讨偏向|保举系统

本文由卡耐基梅隆大学颁发于 WWW 2020,先容了 基于高低文的文本词项权重天生方式 HDCT。原本的搜索引擎在利用词袋模子暗示文本时,性能受限于基于词频(term frequence)的词项权重,HDCT 可以天生基于高低文的词项权重作为优化计划,该研讨对 BM25 等初步检索(first stage)模子性能提升具有较大意义。

WWW2020|信息检索中基于高低文的文本词项权重天生s1.png


论文题目:Context-Aware Document Term Weighting for Ad-Hoc Search

论文来历:WWW 2020

论文链接:http://www.paperweekly.site/papers/3972

代码链接:https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先经过 BERT 模子获得段落级词项权重,然后聚合文本内各段落词项权重,最初利用文本内容信号、相关性信号和伪相关反应信号作为标签练习模子,模子框架图以下:

WWW2020|信息检索中基于高低文的文本词项权重天生s2.png


图1. HDCT框架图

段落级词项权重

给定文本 ,作者首先将其分别为 个段落 ,在此根本上,作者将每个段落输入BERT模子获得各词项的 embedding,并利用回归层获得初步的权重分数:

WWW2020|信息检索中基于高低文的文本词项权重天生s3.png


尔后作者将权重分数放缩到类似于term frequence的整数范围,例如 暗示连结原分数的两位小数精度:

WWW2020|信息检索中基于高低文的文本词项权重天生s4.png


由此我们可以获得类似于词袋模子的段落向量暗示以下:

WWW2020|信息检索中基于高低文的文本词项权重天生s5.png


文档级词项权重

按照以上步调获得的段落级词项权重暗示,文档级词项权重可以经过段落级词项权重的加权和暗示:

WWW2020|信息检索中基于高低文的文本词项权重天生s6.png


具体来说,权重的拔取有两种方式:第一种方式以为各段落的重要性不异,即 第二种方式斟酌用户阅读的留意力随文本的深入而下降,以为各段落的权重随位置前后慢慢递加,具体可设备为 该步调获得的文档级词项权重可间接利用 BM25 等初步检索模子。

模子练习

按照给定的 ground truth 权重分数 ,作者以最小化均匀平方误差作为方针练习模子,损失函数以下:

WWW2020|信息检索中基于高低文的文本词项权重天生s7.png


具体来说,作者提出了三种获得 ground truth 的方式,别离基于文本内容(document content)、基于相关性信号(relevance)和基于伪相关反应信号(Pseudo-Relevance Feedback)。

基于文本内容的方式斟酌包括词项的文本信息源(fields,例如题目、关键词等)的比例。给定文本 的段落调集 和 field 调集 ,ground truth 分数计较方式以下:

WWW2020|信息检索中基于高低文的文本词项权重天生s8.png


基于相关性信号的方式斟酌包括词项的相关查询的比例。给定文本的段落调集 和相关查询调集 ,ground truth 分数计较方式以下:

WWW2020|信息检索中基于高低文的文本词项权重天生s9.png


基于伪相关反应信号的方式斟酌包括词项的相关查询获得的伪相关反应文本的比例。ground truth 分数计较方式以下:

WWW2020|信息检索中基于高低文的文本词项权重天生s10.png


尝试

本文尝试在 ClueWeb 数据集(包括 ClueWeb09-B/C,ClueWeb12-C)和 MS-MARCO Document Ranking 数据集上实现。作者在前者考证了基于内容的练习方式在初步检索使命和重排序使命上的结果,在后者研讨了分歧练习方式之间的结果差别。

ClueWeb数据集

作者首先在该数据集上对照了传统的 term frequence 算法和 HDCT 获得的权重对 BM25 及相关算法的结果差别。作者别离利用文本的 title 和 inlink 练习模子,发现两种情况结果均优于传统的 term frequence,而在分歧的使命上两者结果各有千秋,整体而言利用 inlink 结果略好。

WWW2020|信息检索中基于高低文的文本词项权重天生s11.png


在此根本上,作者对照了该模子和今朝较好的重排序模子的结果,和基于 BERT 的重排序模子 BERT-FirstP 相比,该模子在利用 title 作为 query 时和 BM25 的连系获得了更好的结果,在利用 deion 作为 query 时一样获得相当的结果。斟酌到该模子的时候效力,表示的成果很满足现实的利用需求。

WWW2020|信息检索中基于高低文的文本词项权重天生s12.png


MS-MARCO数据集

作者在该数据集上研讨了分歧练习信号对模子性能的影响。作者别离利用 title 作为 content-based 的练习信号(HDCT-title),利用 out-domain 和 in-domain 的伪相关反应文本作为伪相关反应信号(HDCT-PRFaol 和 HDCT-PRFmacro),利用练习集查询词作为相关性练习信号(HDCT-supervised)。终极成果显现,三者均优于传统的 term frequence,而相关性练习信号的结果最好。

WWW2020|信息检索中基于高低文的文本词项权重天生s13.png


总结

本文先容了基于高低文的文本词项权重天生方式 HDCT。在搜索引擎在利用词袋模子暗示文本时,HDCT 可以天生基于高低文的词项权重,优化检干脆能,该研讨对 BM25 等初步检索(first stage)模子性能提升具有较大意义。

• 稿件确系小我 原创作品,来稿需说明作者小我信息(姓名+黉舍/工作单元+学历/职位+研讨偏向)

• PaperWeekly 默许每篇文章都是首发,均会增加“原创”标志
温馨提示:
好向圈www.kuaixunai.com是一个专业经验分享交流平台,你可以在这里发布专业经验,也可以发布需求与服务,禁止带推广链接、联系方式、违法词等,违规将封禁账号。 下载好向圈APP可以随时随地交流经验,也可以和圈友发起聊天成为好友哦!
如果想要各大搜索引擎收录,请使用秘塔写作猫进行内容伪原创
回复

使用道具 举报

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本圈子积分规则