原始数据提炼是每个人在进入分析阶段之前都应该采取的重要步骤。跳过这一步意味着您的数据团队将陷入未分类、分散且通常不相关的信息池中。当然,您不应该过度这样做,以免丢掉有价值的信息。
然而,并非每家企业都拥有自行完善数据所需的资源。在这种情况下,获取已完善的数据集可能是最佳选择,可带来高价值且维护成本低。
什么是精炼数据?
顾名思义,精炼数据(由于数据科学界缺乏统一的术语,也称为干净数据或 亚美尼亚语 whatsapp 过滤数据)是原始数据的处理版本。它不再包含异常值、风格代码标签、低值记录或其他不需要的元素。精炼过程还涉及删除重复项并标准化所有值。
从广义上讲,精炼数据与原始数据相反,原始数据是由“加工”而来的。为了更好地说明差异,让我们将两者并排比较一下。
特征 原始数据 精炼数据
过滤 所有记录 完整、去重复的记录
标准化 不 是的
文本字段清理 不 无代码标签、特殊字符或尾随字符、双倍空格
数据点 未改变 由于过滤导致数据点减少
从上表可以看出,数据细化量决定了新数据库的清洁度和精简度。从业务角度来看,处理时想要保存的数据越多,处理这些数据所需的资源就越多。另一方面,切碎而不是切片可能会带来误导性的结果。
数据细化过程
数据提炼是一个漫长而繁琐的过程,涉及多个步骤,其中一些步骤可能需要重复才能获得收益。其核心目标是将原始数据转换为数据分析师可以使用的可理解和相关的信息。
各个行业中步骤的数量和名称各不相同,但以下步骤几乎在每个来源中都有出现,并且是完成数据细化过程所必需的。
1.删除不相关和重复的数据
第一步需要你决定你真正需要什么数据。假设你的产品面向大型企业,那么你首先要忽略所有员工人数少于 250 人的企业。这使得包括分析在内的所有后续步骤都变得更加轻松和快捷。
然后,您可能需要删除 HTML 标签、特殊字符、双空格、重复项和不完整的记录。然而,这也是您可能会丢失重要信息的步骤,因此如果您不想在分析阶段没有结果后从头开始,请仔细检查。
2. 修复数据结构
此步骤由计算机完成,计算机需要标准化字段输入才能进行正确计算。虽然人类显然知道 1934 年 11 月 12 日和 1934 年 11 月 12 日是同一个日期,但算法会将它们视为两种不同的类型。在人工智能完全接管数据优化过程之前,此步骤可能仍是最繁琐的。
其他数据点也是如此,例如时间、地址、电话号码或 URL。即使格式统一,您也需要检查拼写错误、大写错误和类似形式的下背部疼痛。
在进入第 3 步之前,我们必须再次提醒您。在此阶段,您可能会发现奇怪的、超出范围的数字,这些数字不适合其余的记录。虽然很可能这些数字无关紧要,但删除前检查是规则。
3. 管理缺失数据
不可避免地,您会遇到一些空的数据字段。根据您的目标,您可能需要删除记录。如果您有数百万个数据片段,这种方法是可行的,丢失一些数据不会影响结果。
如果缺失的数据对于分析至关重要,您可能需要在该空白字段中输入一个平均数。例如,如果员工资料中缺少工资,您可以取 2023 年第三季度美国的平均工资——59,384 美元。
最后,如果您需要该单元格保持空白,则应寻找一种可以处理缺失值的算法。如果您的直觉告诉您删除该记录不是一个好主意,请这样做。
精炼数据是一种高价值、低维护的选择
-
- Posts: 213
- Joined: Mon Dec 23, 2024 3:34 am