其次,很明显,数据模型的开发只是第

Collection of structured data for analysis and processing.
Post Reply
Bappy11
Posts: 349
Joined: Sun Dec 22, 2024 6:06 am

其次,很明显,数据模型的开发只是第

Post by Bappy11 »

2.3.研究过程:任务
最后,在第三个层次上,可以记录研究环境中出现的疑问。没有办法将研究人员本身纳入数据模型中。因为他们是发现源材料中模糊之处的人,或者是他们自己提出了易错的假设。前两个层次的属性和关系基于研究者的解读,可能需要提供一种“怀疑系数”。然而,映射这一点会带来相当大的复杂性:在图形数据库的实现中,可以为关系分配属性,但不能为属性分配属性。例如,我们可以将西班牙国王的不确定干预建模为国王与案件之间的关系,其中可以注意到属性›不确定‹以及可能的其他属性,例如假设所依据的来源或相反地对它产生怀疑的来源。然而,如果决议的形式被列为决议的一个属性,那么就不再可能简单地将其作为类似限定的主题。在CIDOC CRM生态系统网站上,很多问题为我们提供了指导,其中相应的问题由Alexiev [16]描述 。

在此背景下,我们测试了 Niccolucci 和 Hermon 提出的一项提案的实施:在有疑问的情况下,将值本身的确定建模为一个事件(“E13_Attribute_Assignment”或其子类之一),而该事件本身可以成为可靠性评估的主题(见图4)。[17]通过这种方式,我们能够充分捕捉不同研究人员对某些属性或关系的不同解释。同样,不同的研究人员可能会为每一种解释赋予不同的确定性和可靠性水平(第 2.3 节)。

图4:研究过程层面的数据模型。 ©研究项目›特伦托会议后的普世教会政府‹ 2018。
图4:研究过程层面的数据模型。 ©研究项目›特伦托会议后的普世教会政府‹ 2018。[18]

作为该提议的替代方案,可以将整个解释上下文明确建模为›信念系统‹,如 CRMinf 扩展[19]所定义 ,它使用新实体(“I1_Argumentation”、“I2_Belief”、“I4_Proposition_Set”等)来描述整个科学解释和推理过程。[20]一方面,这将允许对知识各个方面的相互支持和解释进行更清晰、更广泛的建模,并且理想情况下还可以对仍然隐含在这里的知识进行详细的推理。然而,出于务实实施和应用的原因,我们遵循 Niccolucci 和 Hermon 的更简单的方法,他们将该方法描述为与 CRMinf 兼容,但具有上述优点。[21]

根据 Niccolucci 和 Hermon [22]的说法,可靠性评估除了可以定量确定可靠性之外,还可以记录影响评估的因素(通过»P15_was_influenced_by« 或 »P33_used_specific_technique«,例如,可以包括通过定义的标准目录进行的分类)并参考进一步的文献,例如研究人员对该问题表明立场的文章(通过»P70_is_documented_in«)。诸如其中一个可能值确实与历史现实相对应,但这个过去的历史“现实”已无法得到客观验证等原因,使得 Niccolucci 和 Hermon 将可靠性值理解为“模糊”演算框架内 0 到 1 之间的数值。这意味着不仅可以对替代方案进行保留和比较,而且原则上还可以根据形式演算进行进一步的计算。[23]

3. 展望
这种观点确定了建模和实际项目环境中仍然存在的一些挑战,或者只是通过迄今为止采取的步骤才明显显现出来的挑战。

首先,需要解决上面提到的初步问题,即明确各层级之间关系在各自较低层级的锚定等要点,并使数据模型与 CIDOC CRM 更加一致。实体和关系类型以及属性名称应该与 CIDOC CRM 定义的名称相对应。如果需要的话可以使用CRMinf等官方扩展。为了限制或掩盖输入和编辑数据的复杂性,您也可以选择自己的名称,只要它们能够尽可能清晰地映射到 CIDOC CRM(和扩展)。如果最终出于经济和直观地处理数据集的原因而有必要这样做,那么建议根据自己的概念对单个现象进行建模,并仅在最后的导出步骤中通过明确定义的转换将它们转换为 RDF 或 CIDOC CRM。特别是,在项目内收集和研究数据时,考虑使用属性图的可能性非常重要,即能够为关系本身分配属性。这不能直接映射到 RDF 三元组,而只能通过(自动)创建附加实体而不是关系来实现,这些实体一方面链接到相关实体,另一方面还可以包含关系属性。
一步(或者至少只是非常早期的一步),即它必须在数据库(a)中实现,并填充已有数据和进一步提供的数据(b)。在项目中,我们并行进行:在现有数据收集表的基础上直观生成和填充的图形数据库(见图5),通过系统转换逐渐适应反映的数据模型,同时相反,数据模型得到细化,尤其是通过使用现有的图形数据库。通过系统地定义和重新定义数据库,可以随时使用与原始(CSV)表不同的数据模型重新创建数据库。

图 5:图形数据库的部分。 ©研究项目›特伦托会议后的普世教会政府‹ 2018。
图 5:图形数据库的部分。 ©研究项目›特伦托会议后的普世教会政府‹ 2018。
第三,必须开发界面元素,让甚至技术经验较少的项目参与者也能收集、处理和 英国电报数据 查询数据。例如,为了节省工作量,应通过技术预防措施(例如可显示或隐藏的输入字段、默认值以及可能的图形元素(例如在颜色标度上表示和选择可能的值(而不是数值和小数或百分比数字))来降低或隐藏可靠性评估的复杂性,并且仅在必要时进行扩展和解释。也许还值得考虑准备某些数据视图和分析,并通过数据库服务器使其可自由访问,以记录研究成果并向对数据集感兴趣的其他访问者提供服务。Neo4j 中所谓的浏览器指南非常适合此目的(见图6)。[24]

图 6:浏览器指南示例。 ©研究项目›特伦托会议后的普世教会政府‹ 2018。
图 6:浏览器指南示例。 ©研究项目›特伦托会议后的普世教会政府‹ 2018。
第四,也是最后一点,必须明确的是,在检索和分析中,应该如何实际评估和考虑这里关注的不确定性和疑虑信息。例如,在什么条件下、以何种形式,身份不确定的讨论参与者应显示在查询中?仅当查询者以某种方式明确请求此请求时,还是总是如此?是否应该按照时间顺序或字母顺序将它们排列到结果集中,或者基于它们属于正确结果集的确定性?是否有一种实用的方法可以在图形显示中表示某个字段的“置信度值”?即使是恋爱关系?如何证明一个术语在数据库中可以指代两个人?在考虑任何代表性问题之前:当询问两个领域并且两个领域都不确定时,或者当一个领域非常不确定时,确定性会如何变化?[25]

进一步的项目工作将表明是否能够针对所有这些问题和所提到的所有挑战找到令人满意、
Post Reply