🔎 Esas Problem

Aşağıda verilen veri seti için:

[(x1,y1),(x2,y2),....,(xm,ym)][(x^{1},y^{1}), (x^{2},y^{2}), ...., (x^{m},y^{m})]

Bizim amacımız:

y^(i)y(i)\hat{y}^{(i)} \approx y^{(i)}

📚 Temel Kavramlar ve Notasyonlar

Kavram

Açıklama

m

Veri setindeki örnek sayısı

x(i)x^{(i)}

Veri setindeki i'inci örnek

ŷ

Tahmin edilen çıktı

Kayıp Fonksiyonu Loss Function 𝓛(ŷ, y)

Tek bir örnek için hata hesaplama fonksiyonu

Cost Function Maliyet Fonksiyonu 𝙹(w, b)

Tüm eğitim setinin kayıp fonksiyonlarının ortalaması

Konveks Fonksiyon

Tek bir yerel değere sahip bir fonksiyon

Konveks Olmayan Fonksiyon

Çok sayıda farklı yerel değere sahip bir fonksiyon

Gradyan İnişi Gradient Descent

Maliyet Fonksiyonunun global değerini bulmak için kullanılan iteratif bir optimizasyon yöntemidir

Başka bir deyişle: Maliyet Fonksiyonu w ve b veri seti için ne kadar iyi olduklarını ölçer. Ona dayanarak, en iyi w ve b değerleri, 𝙹(w, b)'ı mümkün olduğunca küçülten değerlerdir

📉 Gradyan İnişi

Genel Formül:

w:=wαdJ(w,b)dww:=w-\alpha\frac{dJ(w,b)}{dw}

b:=bαdJ(w,b)dwb:=b-\alpha\frac{dJ(w,b)}{dw}

α (alpha) Öğrenme Hızı'dir (Learning Rate)

🥽 Öğrenme Hızı (Learning Rate)

Model ağırlıkları her güncellendiğinde karşılık gelen tahmini hata nedeniyle her Gradyan İnişi tekrarının adımının boyutunu belirleyen pozitif bir skalardır, bu nedenle bir sinir ağı modelinin ne kadar hızlı veya yavaş bir problemi öğrendiğini kontrol eder.

🎀 İyi Öğrenme Hızı

💢 Kötü Öğrenme Hızı

🌞 Yazının Aslı

🧐 Referanslar