在研究工作中传递语料库的权力比一般意义上的向

Collection of structured data for analysis and processing.
Post Reply
Bappy11
Posts: 349
Joined: Sun Dec 22, 2024 6:06 am

在研究工作中传递语料库的权力比一般意义上的向

Post by Bappy11 »

图 1:在 XSample 中开发的提取概念。 [Gärtner 2021]
图 1:在 XSample 中开发的提取概念。 [园丁 2021 ]
[ 7 ]在第 2 章中,本文 首先讨论了适用于文本和数据挖掘(TDM) [7]方法的法律基础,并为此处提出的摘录概念创建了框架。第 3 章描述了如何在法律框架内从技术上实现个性化文本摘录的可用性。特别是,我们考虑了不同的参与者,并提出了数据准备的步骤和提取生成的各种选项。随后,第 4 章介绍了两种使用场景,在具体的研究问题背景下,解释了派生文本格式和/或摘录概念在多大程度上可用于重现其研究和重新使用其数据。第一个使用场景专门针对文学、语言学和哲学等人文学科的科学语言,创建了总共 135 篇受版权保护的期刊文章的语料库。第二种使用场景涉及不可靠叙述现象,首先使用 19 世纪至 21 世纪的八个德语虚构叙述语料库进行检查,其中一些受版权保护。研究完成后,数据将用于验证结果并供进一步的项目重复使用。第 5 章的结论总结了结果并得出了切实可行的建议和要求。

2. 文本和数据挖掘的版权框架
[ 8 ]特别是在研究较新的文本和语料库时,数字人文学科必须处理版权问题。近年来,TDM 研究的版权框架已多次发生变化,这使得从人文学科的角度理解如何以及在多大程度上利用受保护的作品进行研究变得更加困难。最近一次变化发生在 2021 年 6 月,当时《数字单一市场版权指令》(DSM 指令)在《版权法》 (UrhG)中实施。为了简要概述法律状况的发展,下文(第 2.1 章)概述了不同版本的法律对在 TDM 背景下创建和(联合)研究语料库的复制(《版权法》第 16 条)和向公众提供(《版权法》第 19a 条)的程度。 [8]接下来讨论了有关语料库的可访问性和可重用性的问题以及可能的解决方案(第 2.2 章),特别是包括本文提出的摘录概念的法律基础。最后,总结了法律框架对研究基础设施的主要要求(第 2.3 章)。

2.1.法律的发展
[ 9 ]直到 2018 年 3 月 1 日,《版权法》尚未包含任何单独的许可,允许将作品用于 TDM 目的。因此,仅在作品未被复制或传播的范围内才有可能对受版权保护的作品进行 TDM 分析:根据 UrhG 第 16、19a 条的规定,这些行为与版权法相关,其中包含作者复制其作品并公开提供的专有权利。2018 年《使版权法适应知识社会当前要求法案》(UrhWissG)通过新的第 60d 条 UrhG明确允许[9]采取此类行动。此后,在合法获取的条件下,版权法第 60d 条允许非商业性科学研究复制(版权法第 16 条第 1 款)并公开提供受保护的作品(版权法第 19a 条),以用于 TDM 的目的。自此,德国版权法首次明确允许TDM广泛处理受保护的作品。当时已经存在的缺陷是,虽然语料库可以存储在某些机构,包括本文讨论的研究基础设施机构,但不可能将语料库重新用于后续研究。

[ 10 ]由于2021 年 6 月 7 日《数字单一市场版权法》 [10]的颁布,法律框架再次发生了变化。自此,使用 TDM 进行的研究也可以用于非商业科学研究以外的目的(这仍然受《版权法》第 60d 条的管制),例如在公司或媒体中,尽管程度有限(《版权法》第 44b 条)。[11]该许可仍然与合法访问相关。当所使用的文本以书籍形式提供、可在互联网上免费获取或已获得电子书许可时,即可享有这种合法访问权。[12]同样新的是,至少对于 TDM 框架内的复制,现在无需支付报酬(《版权法》第 60h 条第 2 款第 3 项)。这笔费用以前由各个机构承担。

2.2.研究基础设施许可证
[ 11 ]现行《版权法》第 60d 条规定,特定特权群体和机构可以为了 TDM 的目的复制完整的作品(第 1 至 3 段),并将复制品(即非未经改变的原始材料)公开提供给特定群体用于联合科学研究,或向个人第三方用于审查科学研究(第 4 段第 1 句)。与前版《版权法》不同,新版《版权法》第 60d 条并未笼统提及非商业性的科学目的[13],而是授权研究组织(大学、科研院所和其他从事科学研究的机构,包括本文所讨论的研究基础设施机构),前提是它们 1. 不追求商业目的,2. 将所有利润再投资于研究,或 3. 在国家认可的合同 新西兰电报数据 框架内为公共利益而运作。公私合作伙伴关系,即与私营公司的合作,仅在私营公司对研究机构没有决定性影响且不能优先获得研究成果的情况下才受到保护(《版权法》第 60d 条第 2 款第 3 句)。 《版权法》第 60d 条第 3 款第 1 项现在还明确指出了所谓的文化遗产机构,例如图书馆、博物馆、档案馆以及声音和电影遗产领域的机构,这与非商业目的无关,而是与其公众可访问性有关。个人研究人员仍受保护,前提是他们追求非商业目的(《版权法 》第 60d 条第 3 款第 2 项)。向公众提供作品须遵守非商业目的的条件,因此,向公众开放的文化遗产机构最终也必须遵守这些条件,才能享受《版权法》第 60d 条规定的全部许可范围。联合研究或审查完成后,必须终止访问(第 4 段第 2 句)。
公众提供(《版权法》第 19a 条)的定义要狭窄得多:它允许以“公众可以在他们选择的地点和时间访问”的方式向公众提供作品。这意味着该作品可供公众人士访问,即: h.与他们不存在任何个人关系(参见《版权法》第 15 条第 3 款),并且属于“不确定数量的潜在收件人”和“相当多的人”。[14]另一方面,对于在TDM研究工作中分发语料库的许可(《版权法》第60d条第4款第1句),仅仅指明确定义的,即。 h.属于公众的人群比较有限。研究团体通常不公开[15] ,这就是为什么这种许可在大多数情况下并不重要。

[ 13 ]根据德国版权法 (UrhG) 第 60d 条,TDM 语料库可在研究或验证目的所需的时间内保留。该期限通常为良好科学实践所要求的 10 年,[16]但在个别情况下可能会更短或更长。由于学术自由,保留期的评估由研究人员自行决定,并且只能在有限的范围内进行验证。[17]

[ 14 ]不再明确包含将语料库传递给研究基础设施机构进行存储的许可。传递数据的可能性只能通过对法律的解释性备忘录进行广泛的解释而得出,因为这似乎假设数据将由文化遗产机构存储:[18] “据此,永久存储也可能是必要的,因此是允许的,特别是如果它是由文化遗产机构而不是研究机构本身进行的。” [19]不过,无论如何,从一开始就将 TDM 项目托管在中央图书馆服务器或跨机构服务器上,这样就可以在那里进行归档,而无需单独传输。然后,人们就会停留在法律依据明确包含的框架内,同时避免复制语料库(《版权法》第 16 条)。
Post Reply