最后一个例子:在《安魂曲》的当代演出报告中 ,通常会非常精确地记录作品的哪些部分是重复的。[17] 这与个别作品的接受历史有关,因为流行的作品后来作为单独的版本出版,供家庭使用(特别是钢琴转录本)。不过,报告中通常会节省篇幅,比如当国外的消息通过电报传来时:在这种情况下,报告仅限于摘要信息,例如“必须重复安魂曲的三个乐章” [18]。这里可能的具体参考点实际上分裂成数千种理论上可以想象的组合。为了解决这个难题,可以使用整个文本语料库来确定通常会给出哪些返场表演。从语言学的角度来表述,必要的查询听起来很像基于图形的查询:引用该作品的其他文本通常指的是哪些段落?作品的哪些部分在谈论同一表演的其他文本中被称为重复?
3.3 集群引用
当涉及一组作品时,情况变得更加复杂,例如:“诸如《魔笛》和(莫扎特的)交响曲” [19]。引文的第二部分并不是指单个作品,而是指更大的流派综合体。如果将总索引中的作品归入某一流派,那么就可以提取出该上下文中指代的该作曲家的作品。然而,事实在这里也很快变得更加复杂:对于“R·舒曼、勃拉姆斯、拉赫纳和威尔第的安魂曲” [20]等表述 ,建议谨慎,因为在发表这一声明时,除了舒曼之外,提到的作曲家都还活着,而且可以想象他们会创作更多的安魂曲作品。因此,模型必须至少考虑到创作类型和时间,因为它将提供比当时历史时间点实际存在的更多的结果。此外,如果可能的话,它还应该包括迄今为止他所创作的交响曲的历史知识。[21]对于那些涉及经典个人风格的引用来说,情况就更加抽象了。因此,“像帕莱斯特里纳” [22]这句话可以被理解为既指一个人,也指一种与该人的作品相关并由此衍生出来的音乐风格。[23]然而,这可以通过与前面的例子(第 3.2 节)类似的图形查询来实现:如果有人有一个包含关于帕莱斯特里纳的当代陈述的语料库,那么就可以轻松地查询经典作品。
3.4 聚合体
在描述当前事件时,通常只需要一个模糊的描述,以便读者可以识别它。在这方面,报纸文本的作者倾向于务实,因为通常需要简洁,并且只提供读者理解文本可能需要的信息,因为从上下文中看这些信息并不清楚。例如,日报中昨晚的文字不需要明确的日期。
如果文本指的是音乐表演,则应注意,这包括表演者、动作、协调、布景和观众的相互作用,或者用信息技术术语来说:人员、功能、动作、地点和时间的集合。此外,如果由同一位演员在同一地点重复演出,就会形成一系列演出。然而,地点、演员阵容和音乐节目并不总是完全相同:例如,参与者可能会发生变化,或者演出可能由相同的表演者在同一城市举行,但在不同的音乐厅举行。音乐节目也经常变化。所有这些信息通常只在剧院门票上完整记录,而剧院门票通常不会被保存。对于历史学家来说,这意味着必须结合来自不同来源的有关某一事件的信息,而这些信息只有在最好的情况下才能相互补充。数字信息也经常容易出现错误。总体而言,由于数据零散且容易出错,尽管源材料良好,但
图6:不同性能数据的汇总。 [图片:Torsten Roeder。]
图6:不同性能数据的汇集。 [图片:Torsten Roeder。]
图表分析有助于汇总有关表演的可用信息,同时突出矛盾。为此,仅对参考进行初步评估,而不将性能定义为固定的参考点。通过查询实体包(例如同一日期或同一地点),可以更清楚地了解哪些信息可以分配给哪些表现以及哪里 乌干达电报数据 可能存在不正确的信息。[24]第二步,这些表演可以被创建为可参考的单元。
4. 总结
总体而言,当查看这里提供的示例时,可以说建模参考的问题通常是焦点。因此,只要涉及数据收集,使用某种特定技术最初看起来是次要的,但在后来的评估中却被证明更为重要。由于存在大量可能的参考点,正如这里的情况一样,基于图形的模型的优势在于可以比基于文本的格式更有效地评估可能性。
在这里给出的示例中,重叠层次结构的问题不会出现在 XML 中,因此甚至不需要将其用作反对 XML 和图形技术的论据。相反,数据的结构复杂性和大量的语义引用表明,应该通过随后导出到图形模型来促进语料库的分析开发。
Standoff 标记在 XML 和图形技术之间架起了一座桥梁,使研究人员能够绘制和评估大量可能或可能的路径而不会造成超载。[25]因此,应该进一步探索和深入开发基于 XML 标记的图形方法的技术解决方案。幸运的是,继续使用 XML 作为文本标记语法和利用图形建模的结构优势进行分析评估并不矛盾。