💥 Yapay Sinir Ağlarında Aktivasyon Fonksiyonları

Aktivasyon Fonksiyonlarının temel amacı, bir A-NN'deki bir düğümün giriş sinyalini bir dönüşüm uygulayarak bir çıkış sinyaline dönüştürmektir. Bu çıkış sinyali şimdi yığındaki bir sonraki katmana girdi olarak kullanılır.

📃 Aktivasyon Fonksiyonlarının Türleri

Fonksiyon

Açıklama

Lineer Aktivasyon Fonksiyonu

Verimsiz, regresyonda kullanılır

Sigmoid Fonksiyonu

İkili sınıflandırma problemlerinde çıktı katmanı için iyi

Tanh Fonksiyonu

Sigmoid fonksiyonundan daha iyidir

Relu Fonksiyonu ✨

Gizli katmanlar için varsayılan seçim

Leaky Relu Fonksiyonu

Relu'dan birazcık daha iyi, Relu daha popüler

📈 Lineer Aktivasyon Fonksiyonu (Birim Fonksiyonu)

Formül:

linear(x)=xlinear(x)=x

Grafik:

Regresyon problemlerindeki çıktı katmanında kullanılabilir.

🎩 Sigmoid Fonksiyonu

Formül:

sigmoid(x)=11+exp(x)sigmoid(x)=\frac{1}{1+exp(-x)}

Grafik:

🎩 Tangent Fonksiyonu

Neredeyse her zaman sigmoid fonksiyonundan üstündür

Formül:

tanh(x)=21+e2x1tanh(x)=\frac{2}{1+e^{-2x}}-1

Sigmoid fonksiyonunun kaydırılmış versiyonu 🤔

Grafik:

Aktivasyon fonksiyonları farklı katmanlar için farklı olabilir, örneğin, gizli katman için tanh fonksiyonunu, çıkış katmanı için sigmoid fonksiyonunu kullanabiliriz

🙄 Tanh ve Sigmoid Dezavantajları

Eğer z çok büyükse veya çok küçükse, bu fonksiyonun türevi (veya eğimi) çok küçük olur (0'a yakın olur) ve bu, gradient descent'i yavaşlatabilir. 🐢

🎩 Doğrultulmuş Doğrusal Aktivasyon Ünitesi (Relu ✨)

Başka ve çok popüler bir seçenek

Formül:

relu(x)={0,ifx<0x,ifx0relu(x)=\left\{\begin{matrix} 0, if x<0 \\ x,if x\geq0 \end{matrix}\right.

Grafik:

Yani türev, z pozitif olduğunda 1 ve z negatif olduğunda 0'dır.

Dezavantaj: z negatif iken türev=0'dır 😐

🎩 Sızdıran Relu

Formül:

leaky_relu(x)={0.01x,ifx<0x,ifx0leaky\_relu(x)=\left\{\begin{matrix} 0.01x, if x<0 \\ x,if x\geq0 \end{matrix}\right.

Grafik:

Veya: 😛

🎀 Relu'nun Avantajları

  • Z uzayının çoğu, aktivasyon fonksiyonunun türevi, 0'dan çok farklıdır.

  • NN tanh veya sigmoid kullanmaya göre çok daha hızlı öğrenecektir.

🤔 NN'lerin neden doğrusal olmayan aktivasyon fonksiyonlara ihtiyacı var?

Peki, eğer lineer işlevi kullanırsak, NN sadece girişin lineer bir fonksiyonunu çıkarır, yani NN'nin kaç katmanı olursa olsun 🙄, yaptığı tek şey sadece lineer bir fonksiyonu hesaplamaktır 😕

❗ İki doğrusal fonksiyonun kompozisyonunun kendisinin doğrusal bir fonksiyon olduğunu unutma

👩‍🏫 Aktivasyon Fonksiyonu Seçmek İçin Kurallar

  • Eğer çıkış 0 veya 1 ise (ikili sınıflandırma) ➡ sigmoid çıkış katmanı için uygundur

  • Diğer bütün birimler için ➡ Relu

Aktivasyon fonksiyonu için Relu'nun varsayılan seçenek olduğunu söyleyebiliriz

Not:

Bu fonksiyonlardan hangisinin en iyi sonucu verdiğinden emin değil isen 😵, hepsini dene 🤕 ve farklı doğrulama setleri üzerinden değerlendir ve hangisinin daha iyi çalıştığını gör ve kullan 🤓😇

🌞 Yazının Aslı

🧐 Daha Fazla Oku