Withdvc pull允许下载同事创建的数据工件,而无需花费时间和资源在本地重新创建它们。
最新的更改dvc push可以上传到远程或本地存储。
第2步:数据管道定义
此示例通过在 dvc.yaml 文件中定义三个阶段来创建 DVC 管道:
预处理阶段准备原始数据以供进一步处理。
训练阶段使用预处理的数据训练任何模型。
评估阶段根据模型的输出评估性能。
这些阶段要么在“dvc.yaml”文件中手动定义,要么直接从命令行创建:dvc add stage
必须遵守以下规则:
n舞台名称
d该级别的依赖关系
o结果的输出
p使用文件中的特定参数parameters.yaml
下面创建一个名为 dvc.yaml 的配置文件,它定义了以下几点:
cmd:阶段执行的命令行
deps:依赖项列表
params:从 params.yaml 文件获取的任何参数或超参数。
outs:输出文件或输出文件夹的列表。
步骤 3:数据管道复制
要使用 DVC 重现管道,我使用以下命令:dvc repro
该命令根据dvc.yaml中定义的步骤以正确的顺序重现整个管道。
但是,如果没有发现任何变化,则将跳过此步骤。如果您想运行各个阶段,请添加阶段名称,如下所示:dvc repro <stage-name>。这将创建一个名为 dvc.lock 的状态文件来记录再现结果。
运行后dvc repro,我使用 dvc Push 将更改推送到远程存储库。当 加拿大 whatsapp 数据 我想从 DVC 存储库下载数据时(类似于 git pull),我使用以下命令:dvc pull
良好实践:建议dvc.lock立即提交以保存当前状态和结果:git add dvc.lock && git commit -m “Save current reproduction state”
通过将 DVC 链接到 GitHub Actions 等工作流程自动化工具,我们可以确保对数据的更改保持一致且可重现。版本控制过程的每一步都可以自动化和监控,以最大限度地减少错误并确保可追溯性。
前景
DVC 可用于跟踪数据和模型,类似于 Git - 它基本上是数据的 Git。 DVC 帮助我们构建一个易于理解的机器学习管道。我们可以在模型上运行实验并可视化模型之间的差异,从而提高可追溯性。
您想了解更多关于 adesso 世界中令人兴奋的话题吗?那么请看一下我们之前发布的博客文章。
同样有趣的是:
可追溯性在人工智能中的重要性
图像 Azza Baatout
作者 阿扎·巴图特
Azza Baatout 目前是慕尼黑 adesso 数据科学和人工智能领域的在职学生。在此职位上,她支持业务线数据和分析,特别是在机器学习运营领域。凭借对机器学习和深度学习的深入了解,她为她的团队带来了宝贵的专业知识。