大数据分析 - 问题定义 - Gingerdoc 姜知笔记

笔记首页 >> big_data_analytics >> 大数据分析 – 问题定义

大数据分析 – 问题定义

通过本教程，我们将开发一个项目。本教程的每个后续章节都在小项目部分中处理较大项目的一部分。这被认为是一个应用教程部分，将提供对现实世界问题的了解。在这种情况下，我们将从项目的问题定义开始。

项目介绍

该项目的目标是开发一种机器学习模型，以使用简历 (CV) 文本作为输入来预测人们的时薪。

使用上面定义的框架，定义问题很简单。我们可以定义X = {x₁， X₂， …， X_n}作为用户的简历，其中每个功能都可以以最简单的方式表示该词出现的次数。然后响应是真实值，我们试图以美元为单位预测个人的时薪。

这两个考虑足以得出结论，所提出的问题可以用监督回归算法解决。

问题定义

问题定义可能是大数据分析管道中最复杂和最容易被忽视的阶段之一。为了定义数据产品将解决的问题，经验是必不可少的。大多数有抱负的数据科学家在这个阶段几乎没有经验。

大多数大数据问题可以按以下方式分类 –

监督分类
监督回归
无监督学习
学习排名

现在让我们更多地了解这四个概念。

监督分类

给定一个特征矩阵X = {x₁， X₂， …， X_n}我们开发了一个模型M预测定义为不同的类Y = {C₁， C₂， …， C_n} . 例如：给定保险公司客户的交易数据，可以开发一个模型来预测客户是否会流失。后者是一个二元分类问题，其中有两个类或目标变量：churn 和 not churn。

其他问题涉及预测多个类别，我们可能会对数字识别感兴趣，因此响应向量将定义为：y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}，最先进的模型将是卷积神经网络，特征矩阵将被定义为图像的像素。

监督回归

在这种情况下，问题定义与前面的示例非常相似；差异取决于响应。在回归问题中，响应 y ∈ ℜ，这意味着响应是实值的。例如，我们可以开发一个模型，根据个人简历的语料库预测个人的时薪。

无监督学习

管理层通常渴望获得新的见解。细分模型可以提供这种洞察力，以便营销部门为不同的细分市场开发产品。开发分割模型的一个好方法是选择与所需分割相关的特征，而不是考虑算法。

例如，在一家电信公司，根据手机使用情况对客户进行细分很有趣。这将涉及忽略与分割目标无关的特征，而只包括那些有关系的特征。在这种情况下，这将选择功能，如一个月使用的 SMS 数量、入站和出站分钟数等。

学习排名

这个问题可以被认为是一个回归问题，但它有特殊的特点，值得单独处理。问题涉及给定一组文档，我们试图找到给定查询最相关的排序。为了开发监督学习算法，需要标记给定查询的排序的相关性。

需要注意的是，为了开发监督学习算法，需要对训练数据进行标记。这意味着为了训练一个模型，例如识别图像中的数字，我们需要手动标记大量示例。有一些网络服务可以加速这个过程，并且通常用于这个任务，比如 amazon Mechanical turk。事实证明，当提供更多数据时，学习算法会提高其性能，因此在监督学习中标记相当数量的示例实际上是强制性的。