👩🔧 Makine Öğrenimi Projelerinin Yapılandırılması Üzerine Notlar
- Precesion'a P ve recall'a R bakarken (örneğin) en iyi modeli doğru şekilde seçemeyebiliriz
- Bu yüzden P ve R arasında bir ilişki kurabilecek yeni bir değerlendirme ölçütü oluşturmalıyız.
- Şimdi yeni ölçümümüz sayesinde en iyi modeli seçebiliriz 🐣
- Örneğin: (popüler bir değerlendirme ölçütü olarak) F1 Score:
-
Özetle: En iyi seçimi yapabilmek için modellerimiz ve değerlerimiz sayesinde kendi değerlendirme ölçümlerimizi oluşturabiliriz 👩🏫
Daha iyi bir değerlendirme için, ölçümlerimizi şu şekilde sınıflandırmamız gerekir:
Değerlendirme Ölçütü Türü | Açıklama |
✨ Optimizing Metric | En iyi değerde olması gereken bir ölçüm |
🤗 Satisficing Metric (tatmin edici) | Sadece yeterince iyi olması gereken bir ölçüm |
Teknik olarak, Eğer
N
ölçümümüz varsa, 1
ölçüyü optimize etmeye çalışırız ve N-1
ölçüyü yeterince iyi hale getirmeliyiz 🙄🙌 Açıklama: belirlediğimiz bir eşik değerine göre tatmin edici ölçütlerini ayarlıyoruz
- Dev ve test setlerini aynı dağıtımdan distribution seçmemiz gerekiyor, bu yüzden verileri önce rastgele karıştırmamız sonra bölmemiz gerekir.
- Sonuç olarak, hem test hem de dev setlerinin tüm kategorilerden veriler içerir ✨
Gelecekte almayı umduğumuz verileri yansıtmak için -aynı dağıtımdan(distribution)- bir dev ve test seti seçmeliyiz
- Eğer küçük bir veri setimiz varsa (m < 10,000)
- 60% training, 20% dev, 20% test iyi olacaktır
- Eğer kocaman veri setimiz varsa (örneğin 1M)
- 99% trainig, %1 dev, 1% test makul olabilir
Ve böylece, bu iki durumu göz önünde bulundurarak doğru oranı seçebiliriz 👮
Öneri: Eğer dev/test setleri değerlendirme ölçütüyle iyi çalışıyorsa ve gerçek hayat uygulamasında iyi çalışmıyorsa dev/test setlerini ve/veya değerlendirme ölçütü değiştirilmelidir 🏳
Last modified 3yr ago