ππ’πππππ‘ ππππ‘ππ πππβππππ
ππππ‘ β 1
1π·, 2π·, 3π· , ππ
1π· π π πππππ πππππ‘ : π₯ = 10
2π· π πΏπππ πππ’ππ‘πππ: π₯ = 10, π¦ = 20
3π· π πππππ πππ’ππ‘πππ: π₯ = 10, π¦ = 20, π§ = 30
ππ· π»π¦πππ πππππ πππ’ππ‘πππ: π₯, π¦, π§, π‘β¦
πΏπππ πππ’ππ‘πππ: π¦ = π€π + π€1* π₯1
πππππ πππ’ππ‘πππ: π¦ = π€π + π€1* π₯1 + π€2 * π₯2
3π· π»π¦πππ πππππ πππ’ππ‘πππ: π¦ = π€π + π€1* π₯1 + π€2 * π₯2 + β¦ + π€π * π₯π π π·
πΌπ ππππ π‘πππ π€π βππ£π βπ¦πππ πππππ πππππ
πππ ππππ πππ ππ ππππππ‘ππ¦ π‘βππ βπ¦ππππππππ πππ’ππ‘πππ
πΊππππππππ¦ ππ’π ππππ πππ ππ πππππ‘πππ¦ π‘βπ πππππππππππ‘π ππ π€πππβπ‘π
ππΏπ , πΊπ·
ππ’ππππ‘πππ ππππππ‘
π¦ = π€π + π€1* π₯1 + π€2* π₯2 + β¦ + π€π* π₯
π = π€π + π =1
πβ π€π π₯, π
ππππ‘ππ ππππππ πππ‘ππ‘ππ
π¦ = π€π + π€1* π₯1 + π€2 * π₯2 + β¦ + π€π * π₯
π = π€π + π * π
πππ‘πππ₯ ππππππ πππ‘ππ‘ππ
π¦ = π€π + π€1 * π₯1 + π€2 * π₯2 + β¦ + π€π * π₯
π = π€π + π€ππ₯
π¦ = π€π +π
=1
π,β π€(π, π₯, j(π π’ππππ‘πππ)
π¦ = π€π + π. π ( ππππ‘πππ )
π¦ = π€π + πππ (πππ‘πππ₯)
ππππ‘ β 2: π€π πππππππ¦ ππππ€ π‘βππ‘ πππ π‘ππππ πππ‘π€πππ π₯1, π¦1( ) π₯2, π¦2( )
π€βππ‘ ππ π‘βπ ππππππππππ’πππ πππ π‘ππππ πππ‘π€πππ π₯
1, π¦
1( ) π‘π ππ₯ + ππ¦ + π = 0
π =π π₯1+π π¦1| +π| π2+π2
ππππππππ πππ’ππ‘πππ
= π€π + π€1* π₯1 + π€2* π₯2 πππππ‘
= (π₯1, π₯2)
π =π€ 1π₯ 1+ π€2π₯2+π€π| |π€1 2+π€22
= π€1π₯1+π€2π₯2+π€π| |||π||
=π€π+πππ ||π||
ππππ‘ β 3:
ππ π€π ππππ€ ππππ π‘βπ ππππππ’π πππππ‘ πππ πππ₯πππ’π πππππ‘ ππ ππ πππ’ππ‘πππ
πππ ππ₯πππππ ππππ π‘βπ ππππππ’π πππππ‘ ππ π¦ = π₯
2
π€π ππππ€ βππ€ π‘π ππ
ππ’π‘ ππ π¦ππ’ π€πππ‘ ππππ ππππππ’π πππππ‘ ππ πππ₯πππ’π ππ πππ¦ πππ’ππ‘πππ πππ ππ ππ ππππ‘βππ πππ’ππ‘πππ
π(π₯, π¦) = π₯2+ π¦2
π(π₯, π¦) = π₯ + π¦ β 1 = 0
π€π π€πππ‘ π‘π ππππ πππ₯πππ’π π£πππ’π ππ π(π₯, π¦) πππ ππ ππ ππππ π‘ππππ π(π₯, π¦)
πΏππππππππ ππ’ππ‘πππππππ‘πππ π‘βπππππ
πΏ(π₯, π¦, Ξ») = π(π₯, π¦) β Ξ» * π(π₯, π¦)Ξ» = πππππππππ ππ’ππ‘ππππππ ππ πππππ π‘π ππππ π₯, π¦ π£πππ’ππ
βπΏβπ₯ = 0,
βπΏβπ¦ = 0,
βπΏβΞ» = 0
πΏ(π₯, π¦, Ξ») = π₯2+ π¦2 β Ξ» * [π₯ + π¦ β 1]
πΏ(π₯, π¦, Ξ») = π₯2+ π¦2 β Ξ»π₯ β Ξ»π¦ + Ξ»
βπΏβπ₯ =β(π₯2+π¦2βΞ»π₯βΞ»π¦+Ξ»)
βπ₯ = 2π₯ β Ξ»βπΏ
βπ¦ =β(π₯2+π¦2βΞ»π₯βΞ»π¦+Ξ»)
βπ¦ = 2π¦ β Ξ»
βπΏβΞ» =β(π₯2+π¦2βΞ»π₯βΞ»π¦+Ξ»)
βΞ» =β π₯ β π¦ + 1
πππ ππππ ππππ ππ ππππ π‘βπ βπ¦πππ πππππ πππ’ππ‘πππ πππ ππ ππ πππππππππ‘ πππππ‘π ππππ πππππππππ‘ ππππ π ππ
πππ ππ₯πππππ π‘βπππ π‘π€π ππππ π ππ π¦ππ πππ ππ
π€π π€πππ‘ π‘π π ππππππ‘π π‘βππ π π‘π€π ππππ π ππ πππππππ‘ππ¦
1) π»πππ π€π ππππ π‘π ππππ π‘βπ π»π¦πππ πππππ πππ’ππ‘πππ π€βππβ ππππ π πππ¦ πππππππ‘ππ¦ π‘π€π ππππ π ππ
2) πβππ‘ βπ¦ππππππππ π βππ’ππ πππππ‘πππ π πππ₯πππ’π πππ π‘ππππ ππππ ππππππ πππππ‘
3) πβππ π ππππππ πππππ‘π πππ ππππππ ππ ππ’πππππ‘ π£πππ‘πππ
ππ’π ππππ πππ’ππ‘πππ ππ π¦: π€π + π€
ππ₯π€π + π€π
π₯ = 0 π»π¦πππ πππππ πππ’ππ‘πππ
πβππ βπ¦πππ πππππ πππ£ππππ πππ‘πππ π ππππ πππ‘π π‘π€π ππππ‘π : ππππ π β 1 πππ ππππ π β 2
πππ ππ₯πππππ π₯1 ππ πππ πππππ‘ , ππ π¦ππ’ π€πππ‘ π‘π ππππ π‘βππ πππππ‘ ππ π
1: π€π + π€ππ₯1 > 0
πππ ππ₯πππππ π₯1 ππ πππ πππππ‘ , ππ π¦ππ’ π€πππ‘ π‘π ππππ π‘βππ πππππ‘ ππ π2: π€π + π€
ππ₯1 < 0 πππ ππ₯πππππ π₯1 ππ πππ πππππ‘ , ππ π¦ππ’ π€πππ‘ π‘π ππππ π‘βππ πππππ‘ ππ π1: π€π + π€ππ₯1 > 0
πππ ππ₯πππππ π₯1 ππ πππ πππππ‘ , ππ π¦ππ’ π€πππ‘ π‘π ππππ π‘βππ πππππ‘ ππ π2: π€π + π€ππ₯1 < 0 πππ ππ₯πππππ π₯1 ππ πππ πππππ‘ , ππ π¦ππ’ π€πππ‘ π‘π ππππ π‘βππ πππππ‘ ππ π1: π€π + π€ππ₯1 = 1 πππ ππ₯πππππ π₯1 ππ πππ πππππ‘ , ππ π¦ππ’ π€πππ‘ π‘π ππππ π‘βππ πππππ‘ ππ π2: π€π + π€ππ₯1 =β 1 π€π + π€ππ₯1 = 0 ( π‘βππ π€π π€πππ‘) π€π + π€ππ₯1 = 1π€π + π€π π₯1 =β 1π¦ * π€π + π€ππ₯ ( 1) > 1π¦ = π¦ππ (+ 1) π¦ = ππ (β 1)π¦ = 1 ====== > π€π + π€ππ₯ ( 1) > 1 (ππππ π β 1)π¦ =β 1 ====== > π€π + π€ππ₯ ( 1) < 1 :
(ππππ π β 2)
π¦ * π€π + π€ππ₯ ( 1)β₯1
ππππ βπππ ππ ππππ ππ’π‘ π‘βπ πππ‘π πππππ‘π , π€βππβ πππ π ππ‘πππ ππππ π€π + π€ππ₯1 = 1π€π + π€ππ₯1 =β 1
Objective of SVM: SVM aims to find the hyperplane that maximizes the margin, making the classifier
as robust as possible.
ππππ : ππππ π‘βπ πππ π‘ππππ πππ‘π€πππ πππ‘π πππππ‘ π‘π π‘βπ βπ¦ππππππππ πππ’ππ‘πππ
ππππ π π’ππ π‘βπ πππ π‘ππππ π βππ’ππ ππ πππ₯πππ’π
Support Vectors:
β Definition: Support vectors are the data points that lie closest to the decision boundary
(hyperplane). These points are the most challenging to classify correctly and are the key
points that define the position and orientation of the hyperplane.
Importance:
β The support vectors are critical because they are the points that “support” the optimal
hyperplane. In fact, the SVM model is entirely defined by these support vectors. The position
of all other data points is irrelevant as long as they are correctly classified by the hyperplane.
β If you remove a support vector from the dataset, the hyperplane could shift, potentially
changing the classification of some other points. However, removing a non-support vector
point will not affect the hyperplane.
- Margin Maximization:
β Definition: The margin is the distance between the hyperplane and the nearest data points
from any class (i.e., the support vectors). In a binary classification problem, there will be a
margin on either side of the hyperplane.
β Objective of SVM: SVM aims to find the hyperplane that maximizes this margin, making the
classifier as robust as possible.
β Why Maximize the Margin?:
o Generalization: A larger margin implies that the model has more confidence in its
classification decisions. It reduces the risk of overfitting because the model is less
sensitive to slight variations in the data points.
o Robustness: A wider margin means the model is better at generalizing to unseen
data. If new data points are added, they are more likely to be classified correctly if
the margin is large. - Mathematical Perspective
π·ππ π‘ππππ πππ‘π€πππ π π’πππππ‘ π£πππ‘ππ πππ‘ππππππ‘π π‘π βπ¦πππ πππππ ππ πππ£ππ ππ¦
π =
π€1π₯1+π€ 2π¦1+π€π | | π€12+π€22
=π€1π₯1+π€2π¦1+π€π | |
||π|| =π€π+π€ππ₯| ||π|| ππππππ π€π+π€ππ₯| ||π||
ππ = ||π|| πππππ’π ππππ π‘ππππ π‘π π¦ * π€π + π€π
( π₯)β₯1
πππ‘ππππ§ππ‘πππ: πππππππ§π π‘βπ = ||π|| πππ πππ‘β π ππππππππ‘π¦ ππ π‘ππ₯π‘ πππππ πππ‘π’ππ ππ =12 π€2
πππππππ§π π‘βπ 12 π€2
π π’πππππ‘ π‘π π‘βπ ππππ π‘ππππ π¦ * π€π + π€π( π₯)
πΏ(π₯, π¦, Ξ») = π(π₯, π¦) β Ξ» * π(π₯, π¦)
πΏ π€π
( , π€, Ξ») = ||π|| β Ξ» * [π¦ * π€π + π€π( π₯) β 1]πΏ ππ
( , π€, Ξ») = ||π|| β Ξ» * [π¦ * ππ + π€π( π₯) β 1] πΏ ππ
( , π, Ξ») = ||π|| β Ξ» * [π¦ * ππ + ππ( π₯) β 1]
πΉππ ππππ¦ πππ‘ππππππ‘π πΏ π€π( , π€, Ξ») = ||π|| βπ=1πβ Ξ»π* [π¦π* π€π + π€ * π₯π( ) β 1]πΏ π€π
( , π€, Ξ») =12 π€2 βπ=1πβ Ξ»π* [π¦π* π€π + π€ * π₯π( ) β 1]
π€βπππ Ξ»π ππ π‘βπ πΏπππππππ ππ’ππ‘πππππππ ππ π πππππ‘ππ π€ππ‘β πππβ ππππ π‘πππππ‘
πΆππ π β 1: ππΏππ€ = 0
ππΏππ€ = π€ βπ=1πβ Ξ»π* π¦π* π₯
π = 0π€ =π=1πβ Ξ»
π,π¦π,π₯π
πβππ π βππ€π π‘βππ‘ π‘βπ π€πππβπ‘ π£πππ‘ππ π€ ππ π ππππππ ππππππππ‘πππ ππ π‘βπ π‘πππππππ ππ₯ππππππ ,
π€βπππ π‘βπ πππππππππππ‘π πππ πππ£ππ ππ¦ π‘βπ πΏπππππππ ππ’ππ‘πππππππ Ξ»π.
πΆππ π β 2:
ππΏππ€π= 0πΏ π€π
( , π€, Ξ») =12 π€2 βπ=1πβ Ξ»π* [π¦π* π€π + π€ * π₯π( ) β 1]
ππΏππ€π=βπ=1
πβ Ξ»π* π¦π = 0
π=1
πβ Ξ»π* π¦π = 0
πππ€ π π’ππ π‘ππ’π‘π π€ =π=1
πβ Ξ»π,π¦π,π₯π ππ πΏππππππππ πππ’ππ‘πππ πΏ π€π
( , π€, Ξ») =12 π€2 βπ=1
πβ Ξ»π* [π¦π* π€π + π€ * π₯π( ) β 1]
πππ₯ππππ§π
π=1 πβ Ξ»π β12 π=1
πβπ=1πβ Ξ»πΞ»ππ¦ππ¦π(π₯π* π₯π) π π’πππππ‘ π‘π
π=1 πβ Ξ»π* π¦π = 0
β π₯π,π₯π πππ‘π πππππ‘π π¦π,π¦π ππππ π ππ πππ‘β πππ ππ£πππππππ ππ π πππ‘π
βͺ ππ¦ πππππ¦πππ πππ ππ’π πππ‘π πππππ‘π π€π πππ πππ‘ Ξ»π
βͺ πππ πππβ πππ‘π πππππ‘ π€π π€πππ πππ‘ Ξ»
πβπ ππππ ππ πππ€ π‘π ππππ π‘βπ πππ‘ππππ Ξ»
πβπ Ξ»π π£πππ’ππ πππ‘ππππππ π€βππβ πππ‘π πππππ‘π πππ π π’πππππ‘ π£πππ‘πππ π. π Ξ» π> 0 π=1 π β π=1 πβ Ξ» ( π , π¦ , j) (π₯π* π₯ π) π€12 +π€22 = ||π€|| = (π * π)12 =12 π€ * π€πΏ(π₯, π¦, Ξ») =12 π€ * π€ β Ξ» * π¦ * π€π + π€π( π₯)
ππ‘ππ β 1: ππππ π‘βπ ππππ π ππ πππ’ππ‘πππ π¦ π€π + π€π( * π₯) > 1π¦ = 1
ππππ π 1 πππ’ππ‘πππ π€π + π€π* π₯ > 1π¦ =β 1
ππππ π 2 πππ’ππ‘πππ π€π + π€π* π₯ < 1 ππ‘ππ β 2: πΌππππππ π π‘βπ ππππππ πππ π‘ππππ ππ π‘βπ πππ‘π πππππ‘ π‘π π‘βπ βπ¦ππππππππ π =π€1 π₯1+π€ 2π¦1+π€π | | π€ 12+π€ 22 =π€1π₯ 1+π€ 2π¦1+π€π | | ||π|| =π€π+π€ππ₯ ||π|| ππ‘ππ β 3: π·ππππππ π π‘βπ ||π€|| ππ‘ππ β 4: π·ππππππ π π‘βπ ||π€|| πππ ππ ππ ππππ π‘ππππ π¦ π€π + π€π( * π₯) > 1 πππππ¦ πππππππππ
π₯, π¦, π=(2, 2) 1(4, 4) 1(4, 0) -1(0, 0) 1
π₯, π, Ξ»=(2, 2) 0.25 (4, 4) 0 (4, 0) 0.25 (0, 0) 0
π π π π’πππππ‘ π£πππ‘πππ πππ (2, 2) πππ (4, 0)
π€ =π=1
πβ Ξ»=π , π¦ , π
π₯π = 0. 25 * 1 * (2, 2) + 0. 25 * (β 1) * (4, 0) = (0. 5, 0. 5) β (1, 0) = (0. 5 β 1, 0. 5 β 0) = (β 0. 5
π€π + π€π
π₯ = 1π€π + π€1* π₯
1 + π€2* π₯
2 = 1 π€π β 0. 5 * 2 + 0. 5 * 2
= 1 π€π β 1 + 1
= 1 π€π
= 1β 0. 5 * π₯1 + 0. 5 * π₯2 + 1