Links

👩‍🔧 Makine Öğrenimi Projelerinin Yapılandırılması Üzerine Notlar

✨ Değerlendirme metrikleri nasıl etkili bir şekilde ayarlanır?

  • Precesion'a P ve recall'a R bakarken (örneğin) en iyi modeli doğru şekilde seçemeyebiliriz
    • Bu yüzden P ve R arasında bir ilişki kurabilecek yeni bir değerlendirme ölçütü oluşturmalıyız.
    • Şimdi yeni ölçümümüz sayesinde en iyi modeli seçebiliriz 🐣
    • Örneğin: (popüler bir değerlendirme ölçütü olarak) F1 Score:
      • F1=21P+1RF1 = \frac{2}{\frac{1}{P}+\frac{1}{R}}
Özetle: En iyi seçimi yapabilmek için modellerimiz ve değerlerimiz sayesinde kendi değerlendirme ölçümlerimizi oluşturabiliriz 👩‍🏫

📚 Değerlendirme Ölçütleri Türleri

Daha iyi bir değerlendirme için, ölçümlerimizi şu şekilde sınıflandırmamız gerekir:
Değerlendirme Ölçütü Türü
Açıklama
✨ Optimizing Metric
En iyi değerde olması gereken bir ölçüm
🤗 Satisficing Metric (tatmin edici)
Sadece yeterince iyi olması gereken bir ölçüm
Teknik olarak, Eğer N ölçümümüz varsa, 1 ölçüyü optimize etmeye çalışırız ve N-1 ölçüyü yeterince iyi hale getirmeliyiz 🙄
🙌 Açıklama: belirlediğimiz bir eşik değerine göre tatmin edici ölçütlerini ayarlıyoruz

🚀 Verimliliği en üst düzeye çıkarmak için veri kümeleri nasıl ayarlanır?

  • Dev ve test setlerini aynı dağıtımdan distribution seçmemiz gerekiyor, bu yüzden verileri önce rastgele karıştırmamız sonra bölmemiz gerekir.
  • Sonuç olarak, hem test hem de dev setlerinin tüm kategorilerden veriler içerir ✨

👩‍🏫 Öneri

Gelecekte almayı umduğumuz verileri yansıtmak için -aynı dağıtımdan(distribution)- bir dev ve test seti seçmeliyiz

🤔 Kümelerin boyutu nasıl seçilir?

  • Eğer küçük bir veri setimiz varsa (m < 10,000)
    • 60% training, 20% dev, 20% test iyi olacaktır
  • Eğer kocaman veri setimiz varsa (örneğin 1M)
    • 99% trainig, %1 dev, 1% test makul olabilir
Ve böylece, bu iki durumu göz önünde bulundurarak doğru oranı seçebiliriz 👮

🙄 Dev/test setleri ve değerlendirme ölçütleri ne zaman değiştirilmeli?

Öneri: Eğer dev/test setleri değerlendirme ölçütüyle iyi çalışıyorsa ve gerçek hayat uygulamasında iyi çalışmıyorsa dev/test setlerini ve/veya değerlendirme ölçütü değiştirilmelidir 🏳

🌞 Yazının Aslı