用于数据分析的机器学习

笔记首页 >> big_data_analytics >> 用于数据分析的机器学习

机器学习是计算机科学的一个子领域，处理模式识别、计算机视觉、语音识别、文本分析等任务，并与统计学和数学优化有着密切的联系。应用包括开发搜索引擎、垃圾邮件过滤、光学字符识别 (OCR) 等。数据挖掘、模式识别和统计学习领域的界限并不明确，基本上都是指类似的问题。

机器学习可以分为两种类型的任务 –

监督学习

监督学习是指一种问题，其中输入数据定义为矩阵X，我们对预测响应y感兴趣。其中X = {x₁， X₂， …， X_n}有n 个预测变量并有两个值y = {c₁， C₂} .

一个示例应用程序是使用人口统计特征作为预测变量来预测网络用户点击广告的概率。这通常被称为预测点击率 (CTR)。然后y = {click, doesn’t – click}并且预测变量可以是使用的 IP 地址、他进入站点的日期、用户的城市、国家以及其他可用的功能。

无监督学习解决了在没有类可供学习的情况下找到彼此相似的组的问题。有几种方法可以用于学习从预测变量到查找在每个组中共享相似实例且彼此不同的组的映射。

无监督学习的一个示例应用是客户细分。例如，在电信行业中，一项常见任务是根据用户对电话的使用情况对用户进行细分。这将允许营销部门针对每个群体使用不同的产品。