👩🔧 Makine Öğrenimi Projelerinin Yapılandırılması Üzerine Notlar
Last updated
Last updated
Precesion'a P ve recall'a R bakarken (örneğin) en iyi modeli doğru şekilde seçemeyebiliriz
Bu yüzden P ve R arasında bir ilişki kurabilecek yeni bir değerlendirme ölçütü oluşturmalıyız.
Şimdi yeni ölçümümüz sayesinde en iyi modeli seçebiliriz 🐣
Örneğin: (popüler bir değerlendirme ölçütü olarak) F1 Score:
Özetle: En iyi seçimi yapabilmek için modellerimiz ve değerlerimiz sayesinde kendi değerlendirme ölçümlerimizi oluşturabiliriz 👩🏫
Daha iyi bir değerlendirme için, ölçümlerimizi şu şekilde sınıflandırmamız gerekir:
Teknik olarak, Eğer N
ölçümümüz varsa, 1
ölçüyü optimize etmeye çalışırız ve N-1
ölçüyü yeterince iyi hale getirmeliyiz 🙄
🙌 Açıklama: belirlediğimiz bir eşik değerine göre tatmin edici ölçütlerini ayarlıyoruz
Dev ve test setlerini aynı dağıtımdan distribution seçmemiz gerekiyor, bu yüzden verileri önce rastgele karıştırmamız sonra bölmemiz gerekir.
Sonuç olarak, hem test hem de dev setlerinin tüm kategorilerden veriler içerir ✨
Gelecekte almayı umduğumuz verileri yansıtmak için -aynı dağıtımdan(distribution)- bir dev ve test seti seçmeliyiz
Eğer küçük bir veri setimiz varsa (m < 10,000)
60% training, 20% dev, 20% test iyi olacaktır
Eğer kocaman veri setimiz varsa (örneğin 1M)
99% trainig, %1 dev, 1% test makul olabilir
Ve böylece, bu iki durumu göz önünde bulundurarak doğru oranı seçebiliriz 👮
Öneri: Eğer dev/test setleri değerlendirme ölçütüyle iyi çalışıyorsa ve gerçek hayat uygulamasında iyi çalışmıyorsa dev/test setlerini ve/veya değerlendirme ölçütü değiştirilmelidir 🏳
Değerlendirme Ölçütü Türü
Açıklama
✨ Optimizing Metric
En iyi değerde olması gereken bir ölçüm
🤗 Satisficing Metric (tatmin edici)
Sadece yeterince iyi olması gereken bir ölçüm