NTU ML14 notes

一個最常見的 hyphothesis set 就是 perceptron， perception 就是把資料 $x$ 進行線性組合，接著判斷是否大於某值決定結果，例如：

$f(x) = sign(w^Tx+b)$

每個 $w, b$ 會對應到一個 $f$ ，我們要做的就是從所有 $w, b$ （也就是我們的 hypothesis set）中找到最接近未知的 $f$ 的那個，把這個東西視覺化大約是這樣：

視覺化 2D Perceptron

為了表示方便我們把的 $x$ 假裝後面偷藏一個 $1$ ，並且把 $b$ 塞到 $w$ 的後面。

這種把資料分成「是」或「不是」是 machine learning 重要的課題。

$\tilde x = [x^T ~ 1]^T, \tilde w = [w^T ~ b]^T ~\rightarrow~ f(\tilde x) = \tilde w^T \tilde x$

之後的表示中不寫波浪線了，另外，我們假裝不會發生剛好為零的資料。

舉一個實際 perceptron 例子，例如銀行有客戶的兩個資料「欠款數」跟「年收入」，那麼可能來決定要不要借錢的的計算公式是：

下面我們考慮一個最簡單的情形，假設有一筆資料是線性可分，「線性可分的資料」的定義就是存在一個分割，兩邊的資料都正確歸類。比較數學的說法就是 $sign(w^Tx_i) = y_i,~\forall i$ 。例如上面的資料就是線性可分，因為右圖的線把資料正確切兩半了。

對於這種資料，下面描述的演算法 perceptron learning algorithm (PLA) 可以找到這樣的線。

就這樣，為了計算量這裡對「找錯誤的資料」作更詳細的說明。

這種循環檢查的方式讓 PLA 這個演算法的運算量很低。下面證明這個很簡單演算法一定會停止（假設 $w_f$ 是正確的分割）：

首先因為 $w_f$ 是正確的分割， $y_iw_f^Tx_i>0, ~\forall i$ ，令 $\min_{x \in \mathcal{D}} y_iw_f^Tx_i = C_0 > 0$ 。

第一步我們觀察 $w_f$ 跟 $w_n$ 的內積關係：

$w_f^Tw_{n+1} = w_f^Tw_n + w_f^Ty_ix_i \ge w_f^Tw_n + C_0$

速度大於線性漸增。

接著觀察 $w_n$ 的長度

$|w_{n+1}|^2 = |w_n|^2 + 2y_iw_n^Tx_i + |x_i|^2 \le |w_n|^2 + |x_i|^2 \le |w_n|^2 + \max_{x \in \mathcal{D}}|x|^2$

速度小於線性漸增，注意到會有這個現象是因為演算法總是選擇 $y_iw_n^Tx_i < 0$ 的，也就是目前錯誤的點。

兩個合併起來就變成： $w_n$ 跟 $w_f$ 的夾角 $\theta$

$\cos\theta = \frac{w_n^Tw_f}{|w_n||w_f|} \ge C\sqrt{n}$