coursera-斯坦福-机器学习-吴恩达-第9周笔记(上)-异常检测

1异常检测

异常检测(Anomaly detection)问题 是机器学习算法 的一个常见应用, 这种算法的一个有趣之处在于 :它虽然主要用于 非监督学习问题 ,但从某些角度看 它又类似于一些监督学习问题 。

1.1引入

那么 什么是异常检测呢?

为了解释这个概念 ,让我举一个例子吧: 假想你是一个 飞机引擎制造商, 当你生产的飞机引擎 从生产线上流出时 你需要进行 QA (质量控制测试), 而作为这个测试的一部分 你测量了飞机引擎的一些特征变量 ,比如 你可能测量了 引擎运转时产生的热量, 或者引擎的振动等等 。采集这些特征变量 这样一来 你就有了一个数据集 ,从x(1)到x(m), 如果你生产了m个引擎的话 也许你会将这些数据绘制成图表。

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第8周笔记-无监督学习

对于无监督学习我们主要学习两种算法:聚类(K-means)和维度约简(PCA法)。

1聚类算法clutering

1.1聚类算法简介

无监督学习:我们面对的是一组无标记的训练数据, 数据之间, 不具任何相关联的标记。如图:

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第7周笔记-支持向量机SVM

1大间距分类器 large margin classifier

1.1通过逻辑回归引入SVM

先回顾一下逻辑回归的相关概念
$h_\theta(x) = \frac{1}{1+e^{-\theta^T x}}$

image

  • IF y=1, we want hθ(x)≈1, θTx≫0
  • IF y=0, we want hθ(x)≈0, θTx≪0

其CostFunction为:

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第6周笔记-算法改进and机器学习系统设计

1算法改进

1.1评价算法

1.1.1模型诊断

对于正则化线性回归,其代价函数为:
$min\theta\ \dfrac{1}{2m}\ \sum{i=1}^m (h\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum{j=1}^n \theta_j^2$

当面对测试集,你的算法效果不佳时,你一般会怎么做?

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第5周笔记-反向传播

1代价函数and反向传播

1.1代价函数

首先定义一些我们需要使用的变量:

  • L =网络中的总层数
  • $s_l$ =第l层中的单位数量(不包括偏差单位)
  • K =输出单元/类的数量

首先,回想一下“逻辑回归”正则化的成本函数是:

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第4周笔记-神经网络

1 提出神经网络的动机

前面我们学习了,线性回归、逻辑回归,他们可以很好的解决一些预测问题。但是面对一些多特征的问题,比如以下的情况,他们并不能很好的画出分类边界线。

这种时候需要用到多项式回归(非线性的),这种函数画出的曲线可以有任意角度。但是这种函数会因为特征量的增多导致二次项数的剧增。 比如在图像识别中,一个50×50像素的图片,拥有的特征量为2500,那么它的二次项数为2500×2500/2,大约为3百万个。

在这种情况下,神经网络在1970左右被提出。

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第3周笔记-逻辑回归

1.分类 和 模型表示

这一周对应PPT lecture6 逻辑回归

1.1分类的概念 Classification

先来谈谈二分类问题。课程中先给出了几个例子。

  • 邮件是垃圾邮件还是非垃圾邮件;
  • 网上交易是的欺骗性(Y or N);
  • 肿瘤是恶性的还是良性的。

对于这些问题,我们可以通过输出值y ϵ {0, 1} 来表示。

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第2周笔记

1 多元线性回归

1.1 方程

多元线性回归指的就是有多个X的情况。比如与房价y有关的变量有:房屋面积x1;位置x2

此时,我们就要把我们的方程
$h_\theta(x) = \theta_0 + \theta_1*x$
修改为:

$h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n$
其实本质并没有变,就是变量x多了,所以参数θ也跟着多了。但是思想还是没有变:通过误差函数,经过梯度下降求参数。

查看更多

分享到 评论

coursera-斯坦福-机器学习-吴恩达-第1周笔记

0 前言

第一,这门课是最好的机器学习、深度学习入门教程之一,老师很有名气,是深度学习三驾马车之一的吴恩达,而且课程讲的很通俗易懂。

每堂课后面还有编程作业,一定要做。课程推荐使用Octave编程语言,只需要填写核心代码,很适合自学。这门语言很多人没有学过,有些排斥。但是学计算机的同志就是要保持对新事物新工具的热爱,更何况这门语言并不难。

第二,我发现网络上关于这门课的笔记有很多,但是质量参差不齐。有的虎头蛇尾甚至半途而废;有的几乎就是复制英文讲义,没有自己的理解。这也是我写笔记的目的,顺便强化自己的理解。

查看更多

分享到 评论

深度学习 自然语言处理 怎么获得数据集 中文语料集?

现如今构件人工智能、机器学习甚至深度学习系统,变得越来越容易。

但是让这些模型或者系统真正有价值的却是“数据”。那么如果刚刚上手机器学习或者深度学习,怎么寻找合适的数据集呢?

下面就介绍一些获取数据的方法:

查看更多

分享到 评论