这描述了实体与内容之间的关系,这强化了我在文章基于实体的索引:从内容索引到实体索引中解释的“实体优先”思想。
该专利还描述了知识图谱中的实体如何连接或与边缘相关。如果实体在相关文档语料的许多内容中频繁被一起提及,则这两个实体可以相互关联。
如果两个实体频繁地与集合中的同一资源相关联,则实体图中与这些实体相对应的节点将通过边连接。具体而言,如果节点所表示的两个实体与集合中的同一资源相关联的频率高于两个实体不相关或独立时所预期的频率,则两个节点将通过边连接。例如,表示实体“michael jordan”和“basketball”的节点可能通过实体图中的边连接,因为两个实体与集合中的同一资源相关联的概率比实体“michael jordan”与实体“basketball”没有任何关系时高出阈值量。可以对边进行加权,例如,两个实体与同一资源相关联的次数越多,与这两个实体相对应的两个节点之间的边的权重就越大。
此外,该专利还描述了如何从文档相关实体图中删除没有边或与其他实体没有关系或只有弱关系的记录节点或实体。这样就可以将相关实体与不相关实体区分开来。
一旦确定了文档的主要实体,就可以根据与知识图谱中其他实体的传出连接数,使用中心性分数对它们进行加权。这也是与主题相关的实体权重的一个重要概念,我将在另一篇文章中更详细地讨论。
为了确定文档所代表的主要实体,需要计算“中心性分数”,该分数基于传出边的总和,即与其他实体的关系。这可能是从 Google NLP API 的实体分析中得知的显著性分数。
一旦确定了中心实体,附加内容系统 130 就会根据代表实体的节点的出边权重为每个中心实体生成初始中心性得分。例如,实体图中节点 A 所代表的实体 A 的初始中心性得分可以基于节点 A 的出边权重总和与实体图中所有边权重总和的比率。因此,具有大量高权重出边的节点将具有更高的初始中心性得分。
衡量实体重要性的另一个信号是其在相关语料库的文档中被提及的频率。逆文档频率(IDF)在这里也可以发挥作用。
附加内容系统 130 可能使用的第二个信号是实体在资源集合中出现的频率。可以根据实体在资源集合中出现的频率来降低实体的初始中心性得分,使得在集合中频繁出现的实体的得分低于不频繁出现的实体的得分。在一些实现中,使用实体的逆文档频率 (IDF) 来调整每个实体的初始中心性得分。实体的 IDF 可以是实体在资源中出现的次数除以实体在资源集合中出现的次数。通过使用 IDF 调整实体的初始中心性得分,附加内容系统 130 确保实体不会仅仅因为在集合中的其他资源中频繁出现而被视为与资源的主要主题高度相关。
同样有趣的是,根据选择文档的实体的搜索频率进行额外的加权,这使我们回到点击率。与实体相关的搜索一起频繁选择的文档会加强文档和实体之间的关联。
附加内容系统 130可以使用的另一个信号 是实体是否出现在导致资源请求的搜索查询日志中。具体而言,出现在搜索查询日志中的实体的初始中心性得分可以增加。在一些实现中,在搜索查询日志中出现频率较高的实体的得分将比出现频率较低的实体的得分增加更多。
另一个信号是在页面标题、URL 或元数据中提及实体。
其他信号可能与实体在资源中出现的位置有关。例如,出现在资源标题、资源 URL 或与资源相关的元数据中的实体的初始中心性得分可能会增加。
除了中心性得分之外,还描述了一种相当简单的方法来识别来源的主要主题实体。如果有两个实体 A 和 B 可供选择,则此决定仅基于与 A 和 B 的搜索相关的文档排名来做出。如果某个文档在 A 中的排名高于在 B 中的排名,则 A 是主要主题实体。
用于语义分析引擎训练和评估的自动标注
该项谷歌专利已于2017年转让给谷歌。描述了一种对与维基百科等权威网站相关的文档进行语义分析的方法。这种关系是从这些文档到权威页面的链接。这样,这些文档就被标记或评论了。注释文档的语料库可以包含每个网页的实体提及、实体提及在文档中的位置以及提及所引用的权威页面的位置。
这样的链接可以是带有锚文本“相关性”的指向相应维基百科文章的外向链接。这将使该文档成为实体相关性语料库的候选。
使用非结构化数据中的实体引用进行问答
这项谷歌专利于 2017 年转让给谷歌,描述了对与实体相关的搜索查询的文档进行排名并根据搜索结果生成知识卡或精选片段的过程。
例如,典型的谁、哪里和什么问题可以通过语音搜索以自然语言的形式来回答。为了回答该问题,可以使用用户预先给出的答案以及第一个搜索结果。在实践中,人们往往看到后者。大多数时候,精选摘要中的答案来自前五个搜索结果之一。
第一个搜索结果中的精选摘要示例
第一个搜索结果中的精选摘要示例
对于具有实体引用的文档的排名,不再提及关键字或术语,而只提及实 美国华侨华人数据 体文档引用。此外,针对每个搜索查询单独提到了以下可能的评估标准,但不作详细说明:
质量得分
相关性得分
新鲜度分数
…
系统可以检索与前十个搜索结果相关的实体引用。...排名和/或选择基于质量得分、新鲜度得分、相关性得分、任何其他合适的信息或它们的任意组合。
除了这些评分方法之外,参考或不参考文本长度的词频也被提及作为排名信号,这也非常接近 TF-IDF 原理。
此外,还提到了主题性得分,该得分基于例如新鲜度、文档的年龄、传出和传入链接的数量、文档在其他搜索查询中出现的频率、搜索查询与文档的接近度(参见向量空间分析)。
内容的类型/上下文(例如新闻页面或历史文献)也会影响主题性得分。
在一些实现中,话题性得分取决于实体引用与实体引用出现的内容之间的关系。例如,实体引用 [George Washington] 在历史网页上可能比在当前新闻网页上具有更高的话题性得分。在另一个示例中,实体引用 [Barak Obama] 在政治网站上可能比在法学院网站上具有更高的话题性得分。
从前 5-10 个搜索结果中,可以根据提及的频率确定最有可能提供答案的实体。