们可以依赖大型出版商提供的许可证

Bappy11 · Post by **Bappy11** » Thu Feb 06, 2025 11:13 am

在数字人文学科 (DH)中，一个公开的秘密是，就现有的文本藏品而言，计算文学研究(CLS) 有一个机会窗口，这个机会窗口在 1800 年左右打开，在 1920 年左右再次关闭。它开始于 1800 年左右，因为对于这个时期之前的材料来说，光学字符识别 (OCR) 和正字法差异规范化方面的技术挑战仍然很大，因此可用的文本集的数量和质量明显低于 1800 年以后的文本集。它结束于 1920 年左右，因为对于后来出版的文本，在很多情况下（取决于作者的去世日期），版权仍然适用，这使得创建和与第三方共享文本集变得更加困难。不幸的是，这种情况意味着研究优先事项的设定往往不是主要由研究本身的认知兴趣和目标决定的，而主要是由技术和法律因素，即研究之外的因素决定的。因此，基于较新的文本集合的最新方法的研究仅在有限的范围内可行，在某些情况下根本无法进行。尽管 CLS 研究采用了当前的方法（通常改编自计算机科学、计算语言学和统计学），但在大多数情况下，它们无法应用于构成我们当代文学文化的文本主体。[1]

[ 2 ]然而，近年来情况已有显著改善，令人感到乐观：一方面，目前对新 OCR 流程的投资正在增加，其中文本识别基于神经网络，甚至对于 1800 年之前的材料直至早期的印刷品和手稿都取得了显着的改进。[2]另一方面，近年来法律框架发生了显著变化，特别是德国颁布了《关于版权法与知识社会现行要求相一致的法案》（UrhWissG）[3]，该法案于 2018 年 3 月生效，对《版权及相关权利法》（UrhG）进行了修改。例如，目前适用的国家法律《版权法》第 60d 条对版权和相关权利进行了限制[4]，以利于文本和数据挖掘。[5]这一限制现在允许为研究中的文本和数据挖掘（TDM）而进行复制，但仅允许在严格条件下长期存储和分发为此目的创建的语料库给第三方。例如，语料库的长期存储（和偶尔的分发）可能只有图书馆和档案馆等机构才能进行。虽然可以将语料库传递给个人第三方以进行科学质量保证（同行评审），但不允许进行同样重要的后续研究。在欧洲层面， 2019 年欧洲数字单一市场版权指令 2019/790（DSM 指令）再次开启了 TDM 的可能性，这也将被纳入德国法律；然而，即使是这些规定也无法满足TDM的所有需求。

[ 3 ]本文针对当前在 DH 尤其是 CLS 中使用 TDM [6]方法的法律状况提出了务实的建议。 [7]目的是为在版权文本汇编基础上创作、分析和后续研究此类文本汇编开辟视角和可能性。目的是实现派生文本格式的开放发布和免费重用——使得第三方即使在正式质量保证流程之外也能理解分析结果，并且不受法律限制地进行后续研究。现行法律和即将出台的新法律均未单独处理这一领域，这意味着寻求法律建议的研究人员很大程度上依赖于版权法的一般规则和原则。

[ 4 ]基本上，可以采用四种方法来解决所述问题：

通过 API 访问授权内容
分析平台的使用
密室研究
并使用派生文本格式例如，这些许可证允许通过接口（即所谓的应用程序编程接口(API)）下载选定的大量文本/数据，然后使用 TDM 方法自己进行分析。这样做的缺点是，人们会受到出版商藏书的限制，而且一般不允许传承以这种方式创建的语料库。其次，可以依赖数据提供商的平台提供一定的文本资源和分析方法，从而实现从浏览器进行研究。这种模式的缺点是研究人员无法自己查看、下载、修改或添加数据，也无法组合来自不同来源的数据集。此外，研究人员无法本身实现或从根本上修改分析方法。第三，可以使用封闭房间模型，研究人员可以在特定机构内技术上隔离的房间中访问该机构的文本收藏。然后，他们可以使用单独开发的分析程序在现场的工作站计算机上对此进行检查。这里的缺点主要在于研究活动基于位置的性质，这需要相应的实际努力，并且在数字化时代似乎不太具有时代性；此外，该模型的扩展性不强，来自多个机构的数据集无法合并并与第三方共享。

[ 6 ]这里提出的观点主要与第四种方法，即派生文本格式有关。派生文本格式是委内瑞拉电报数据基于源文本系统地生成的文本表示，允许应用某些文本和数据挖掘方法，尽管源文本的受版权保护的部分不再以派生格式表示。[8]这创造了新的机遇，也带来了新的挑战：研究人员可以使用更大、更重要的是更新的文本集合来研究他们的研究问题，从而也开启新的研究问题；然而，所使用的程序可能需要适应派生的文本格式。同样，衍生文本格式的免费提供首先使得研究的透明度和可重复性以及在受版权保护的原始材料的情况下研究数据的不受限制的流通和可重复使用成为可能；然而，所有研究人员都高度依赖衍生文本格式创建过程的透明度、合理性和正确性。

[ 7 ]然而，首先也是更根本的问题是，哪种派生文本格式实际上适合这种方法。为了对这一问题给出初步答案并激发 DH 社区的讨论，下面总结了当前的法律状况。随后讨论了派生文本格式的原理以及各种相关TDM方法对派生文本格式的要求。接下来对几种具体的派生格式进行了描述和批判性评估，包括它们的创建、出版和应用，以及它们的版权分类。最后，从展望下一步必要措施的角度提出了一些进一步的观点：这些观点特别强调了图书馆和档案馆作为数据提供者的新角色，同时也概述了计算机科学、计算语言学和 DH 的议程。本文的目的在于激发不仅在 DH 内部，而且在图书馆和档案馆以及法律科学之间的讨论。此类讨论的最终结果可能是就合适的衍生文本格式清单达成共识，并为其开发和提供创建和提供的标准化解决方案。这也将成为进一步讨论的基础。 B.与权利人（包括出版商）的代表。