前置知识 – 数据挖掘
数据: 指的是我们如何存储数据对象及其属性。
- 属性 是对象的某个性质或特征。例如,一个人的发色、空气湿度等。
- 一个对象 由一组属性定义。对象也被称为实例或实体记录。
不同的属性类型或数据类型:
在数据挖掘中,理解不同的属性类型或数据类型至关重要,因为这有助于我们确定使用何种合适的数据分析技术。以下是不同的数据类型:
1] 定类数据:
这种类型的数据也被称为分类数据。定类数据代表的是定性数据,无法用数字进行测量或比较。在定类数据中,数值代表的是类别,且没有内在的顺序或层级。定类数据的例子包括性别、种族、宗教和职业。定类数据在数据挖掘中用于分类和聚类任务。
2] 定序数据:
这种类型的数据也是分类的,但具有内在的顺序或层级。定序数据代表的是可以按特定顺序排列的定性数据。例如,受教育程度可以从小学到大学进行排列,社会地位可以从低到高排列。在定序数据中,数值之间的距离是不均匀的。这意味着我们不能说社会地位“高”和“中”之间的差异与“中”和“低”之间的差异是相同的。定序数据在数据挖掘中用于排序和分类任务。
3] 二元数据:
这种类型的数据只有两个可能的值,通常表示为 0 或 1。二元数据常用于分类任务,其中目标变量只有两种可能的结果。二元数据的例子包括是/否、真/假、通过/失败。二元数据在数据挖掘中用于分类和关联规则挖掘任务。
4] 定距数据:
这种类型的数据表示连续数值之间具有相等间隔的定量数据。定距数据没有绝对的零点,因此无法计算比率。定距数据的例子包括温度(摄氏度或华氏度)、智商分数和时间。定距数据在数据挖掘中用于聚类和预测任务。
5] 定比数据:
这种类型的数据类似于定距数据,但拥有绝对的零点。在定比数据中,可以计算两个数值的比率,这使得我们可以进行有意义的比较。定比数据的例子包括身高、体重和收入。定比数据在数据挖掘中用于预测和关联规则挖掘任务。
6] 文本数据:
这种类型的数据表示以文本形式存在的非结构化数据。文本数据可以在社交媒体帖子、客户评论和新闻报道中找到。文本数据在数据挖掘中用于情感分析、文本分类和主题建模等任务。
数据质量:我们为什么要对数据进行预处理?
数据预处理是数据挖掘和机器学习中的一个关键步骤,因为它有助于确保用于分析的数据质量。我们进行数据质量评估时需要考虑以下几个因素:
1. 不完整性:
这指的是数据集中缺失的数据或信息。缺失的数据可能源于多种因素,例如数据输入过程中的错误或数据传输过程中的丢失。我们可以使用诸如插补等预处理技术来填补缺失值,以确保数据集的完整性。
2. 不一致性:
这指的是数据集中存在冲突或相互矛盾的数据。不一致的数据可能源于数据输入、数据集成或数据存储过程中的错误。我们可以使用数据清洗和数据集成等预处理技术来检测并解决数据集中的不一致问题。
3. 噪声:
这指的是数据集中的随机或无关数据。噪声可能源于数据收集或数据输入过程中的错误。我们可以使用数据平滑和异常值检测等预处理技术来去除数据集中的噪声。
4. 异常值:
异常值是数据集中与其他数据点显著不同的数据点。异常值可能源于数据收集、数据输入或数据传输过程中的错误。我们可以使用异常值检测和剔除等预处理技术来识别并移除数据集中的异常值。
5. 冗余:
冗余指的是数据集中存在重复或重叠的数据。冗余数据可能源于数据集成或数据存储。我们可以使用数据去重等预处理技术来移除数据集中的冗余数据。
6. 数据格式:
这指的是数据集中数据的结构和格式。数据可能具有不同的格式,例如文本、数值或分类数据。针对不同的数据预处理技术…