中遇到两个以上不同类别的变量例如:

Advancing Forum Analytics at China Data
Post Reply
arzina221
Posts: 525
Joined: Wed Dec 18, 2024 8:22 am

中遇到两个以上不同类别的变量例如:

Post by arzina221 »

算法
拼写检查或语音算法可用于修复部分数据。尽管如此,它们也可能通过给出错误的建议来破坏数据,因此可能需要进行一些手动工作。

手动
说起来,大多数数据通常都是手工清理的。即使借助工具、直方图和算法,仍然需要人工干预来理解和修复数据。

数据清理步骤
并非所有数据清理技术和做法都是平等的。数据工作者有时会使用拼写检查器和直方图来查找数据中可能存在错误的异常值。各种软件供应商都提供完整的数据清理工具,可以轻松检查记录的准确性并清除重复项。然而,即使使用这些自动化工具,通常也需要一定程度的手动干预才能进行健全性检查。

以下是我们建议在执行数据清理时采取的步骤:

1. 删除不相关的数据
识别并删除数据库或数据仓库中的不相关数据。这些数据是指其处理或分析对您没有业务价值的数据。此类数据可能会扭曲您的业务分析结果。

一个很好的例子是为特定汽车品牌构建预测性维护模型。在这种情况下,您不需要所有车型的数据来训练您的 ML 算法。因此,您可以删除包含不相关车辆条目的行。

如果你正在研究人口的总体健康状况,你也会做类似的事情。在这种情况下,你的表格不需要“电话号码”列。

但是,请确保您要删除的功能对于您正在分析的数据集来说不是必需的。请咨询其他利益相关者,以确保您不会丢失将来可能需要的数据。

2. 删除重复数据
重复数据会占用服务器或处理资源,而不会增加价值。此外,重复记录可能会扭曲您对客户的了解。因此,从仓库中删除重复数据是数据清理过程的关键部分。

记录重复可能由各种情况导致。一个例子是当您从多个来源提取数据时。例如,电子表格文件可能具有与CRM 记录相同的客户信息。两次抓取同一个网页也会导致此问题。

假设有一位客户通过两个不同的表单提交了两个不同的电子邮件地址。很有可能会将此信息视为属于两个不同的客户。数据清理有助于发现任何此类重复。然后,您可以合并记录或删除其中一条。

数据库表或文件中任何两个具有相同唯一 ID 的记录都是重复的。数据清理会合并此类记录以消除冗余。合并规则可能因组织而异。

3. 结构错误/差异
结构性错误有多种类型,从拼写错误到大小写不一致。这些错误在分类数据或分组数据集中可能是一个问题,因此需要清理。

拼写错误可能源于人们输入字符串的不同方式。以“性别”作为分类变量为例。在这种情况下,通常应该有两个类别:男性和女性。但您可能会在数据集


男性
女性。

数据清理有助于识别此类错误标记或不一致的大写类别。“性别”示例中的结果将是分组数据集(即男性和女性)的更清晰的分类。

考虑使用条形图来发现数据集中的结构或大写错误。这些图表沿一个轴显示数据类别,在另一个轴上显示其对应的值或特征。只需观察,您可能会发现某些字符串的含义相同,尽管它们的拼写或大小写不同。例如,“沥青”和“Asphalt”可能在条形图上单独显示,尽管它们是同一种类型的屋顶材料。

修复拼写错误的一种方法是手动将每个给定值映射到预期的类选项。在“性别”示例中,您可以将每个字符串映射到“男性”或“女性”。

您还可以对怀疑有拼写错误的字符串运 玻利维亚电话数据 行模糊匹配算法。该工具会计算预期字符串与特定数据集中每个值之间的“编辑距离”。编辑距离是将源字符串转换为预期字符串所需的更改次数,例如插入、替换或删除。它可作为任何两个字符串之间相似度的度量。例如,需要进行三次转换(即在“m”后写入“a”、“l”和“e”)才能将“m”更改为“male”。

以源字符串“landan”和目标字符串“London”为例。如果两个字符串之间的相似度得分(编辑距离)高于预设阈值,则模糊匹配程序会将“landan”匹配为“London”。您会将所有满足相似度指标的字符串更正为“London”。

4. 注意异常值
任何与其余数据有显著差异的值都可能是异常值。但是,并非所有异常值都对业务分析不利。因此,在删除任何异常值之前,请评估它们对分析的潜在影响。

以分析美国各州为例。在这种情况下,加利福尼亚州将是一个异常值,因为它的人口和经济规模明显更大。尽管如此,排除该州将极大地影响您的分析结果。话虽如此,异常值对某些分析模型(例如线性回归)的影响要大于其他模型。
Post Reply