在机器学习中,监督学习和无监督学习是两种核心范式,主要区别在于数据标签的使用方式:
1. 监督学习(Supervised Learning)
- 核心思想:通过已标记数据(输入与对应标签)训练模型,学习输入到输出的映射关系。
- 常见任务:
- 分类(如垃圾邮件识别、图像分类)。
- 回归(如房价预测、销量预测)。
- 典型算法:
- 线性回归、决策树、随机森林。
- 支持向量机(SVM)、神经网络(如CNN、RNN)。
- 应用场景:
- 预测用户是否购买商品(二分类)。
- 根据传感器数据预测设备故障(回归)。
2. 无监督学习(Unsupervised Learning)
- 核心思想:利用未标记数据探索数据内在结构或模式,无需预先定义目标。
- 常见任务:
- 聚类(如客户分群、图像分割)。
- 降维(如PCA、t-SNE)。
- 异常检测(如信用卡欺诈识别)。
- 典型算法:
- K-Means、DBSCAN(聚类)。
- 主成分分析(PCA)、自编码器(降维)。
- 孤立森林(异常检测)。
- 应用场景:
- 发现电商用户行为模式(聚类)。
- 压缩高维数据(如图像降维)。
核心区别
| 特性 | 监督学习 | 无监督学习 |
|---|---|---|
| 数据标签 | 需要标记数据(输入+标签) | 无需标签(仅输入数据) |
| 目标 | 预测明确目标(如分类标签) | 探索数据内在结构(如聚类) |
| 适用场景 | 标签充足的任务 | 数据未标记或结构未知的任务 |
扩展对比
- 半监督学习:结合少量标记数据和大量未标记数据(如图像分类中部分标注)。
- 强化学习:通过与环境交互学习最优策略(如AlphaGo下棋)。
选择依据:若数据有清晰标签且目标明确(如预测房价),用监督学习;若需探索未知模式(如用户分群),用无监督学习。