🔎Esas Problem

Aşağıda verilen veri seti için:

[(x1,y1),(x2,y2),....,(xm,ym)][(x^{1},y^{1}), (x^{2},y^{2}), ...., (x^{m},y^{m})]

Bizim amacımız:

y^(i)y(i)\hat{y}^{(i)} \approx y^{(i)}

📚 Temel Kavramlar ve Notasyonlar

Kavram

Açıklama

m

Veri setindeki örnek sayısı

x(i)x^{(i)}

Veri setindeki i'nci örnek

ŷ

Tahmin edilen çıktı

Kayıp Fonksiyonu Loss Function 𝓛(ŷ, y)

Tek bir örnek için hata hesaplama fonksiyonu

Cost Function Maliyet Fonksiyonu 𝙹(w, b)

Tüm eğitim setinin kayıp fonksiyonlarının ortalaması

Konveks Fonksiyon

Tek bir yerel değere sahip fonksiyon

Konveks Olmayan Fonksiyon

Çok sayıda farklı yerel değere sahip fonksiyon

Gradyan İnişi Gradient Descent

Maliyet Fonksiyonunun global değerini bulmak için kullanılan iteratif bir optimizasyon yöntemidir

Başka bir deyişle: Maliyet Fonksiyonu w ve b veri seti için ne kadar iyi olduklarını ölçer. Ona dayanarak, en iyi w ve b değerleri, 𝙹(w, b)'ı mümkün olduğunca küçülten değerlerdir

📉 Gradyan İnişi

Gradyan inişi, türevlenebilir bir fonksiyonun yerel minimumunu bulmak için birinci dereceden yinelemeli bir optimizasyon algoritmasıdır. Buradaki ana fikir, mevcut noktada fonksiyonun gradyanının (veya yaklaşık gradyanının) zıt yönünde tekrarlanan adımlar atmaktır, çünkü bu en dik iniş yönüdür. Diğer taraftan, gradyan yönünde adım atmak, bu fonksiyonun yerel bir maksimumuna yol açacaktır; bu prosedür de gradyan yükselişi olarak bilinir.

Genel Formül:

w:=wαdJ(w,b)dww:=w-\alpha\frac{dJ(w,b)}{dw}

b:=bαdJ(w,b)dwb:=b-\alpha\frac{dJ(w,b)}{dw}

α (alpha) Öğrenme Hızı'dir (Learning Rate)

🥽 Öğrenme Hızı (Learning Rate)

Model ağırlıkları her güncellendiğinde karşılık gelen tahmini hata nedeniyle her Gradyan İnişi tekrarının adımının boyutunu belirleyen pozitif bir skalardır, bu nedenle bir sinir ağı modelinin bir problemi ne kadar hızlı veya yavaş öğrendiğini kontrol eder.

🎀 İyi Öğrenme Hızı

💢 Kötü Öğrenme Hızı

🌞 Yazının Aslı

🧐 Referanslar

Last updated