YYÜ GCRIS Basic veritabanının içerik oluşturulması ve kurulumu Research Ecosystems (https://www.researchecosystems.com) tarafından devam etmektedir. Bu süreçte gördüğünüz verilerde eksikler olabilir.
 

Investigation of Different Decision Trees and K-Nearest Neighbor Methods in Data Mining: an Application on Gynecology and Birth Data

dc.contributor.advisor Keskin, Sıddık
dc.contributor.author Elasan, Sadi
dc.date.accessioned 2025-05-10T20:10:20Z
dc.date.available 2025-05-10T20:10:20Z
dc.date.issued 2019
dc.department Sağlık Bilimleri Enstitüsü / Biyoistatistik Ana Bilim Dalı
dc.description.abstract Veri madenciliğinde, sınıflandırma amacıyla kullanılan algoritmalar genel olarak; 'denetimsiz (unsupervised)' ve 'denetimli (supervised)' olmak üzere iki başlık altında incelenebilir. Denetimli veri madenciliğinde 'karar ağaçları (decision trees)' ve 'k-en yakın komşu (k-nearest neighbor | KNN)' algoritmaları; parametrik olmayan yöntemler arasında olup, tahmin edici özelliğe sahiptir. Sınıflandırma amacıyla uygulanan bu algoritmalarla, çalışmadaki cevap değişkeni (bebeklerin doğum ağırlığı) üzerine etkili olan açıklayıcı değişkenler belirlenmiştir. Karar ağaçlarından; 'CART, CHAID, Ayrıntılı CHAID, QUEST, Rastgele Orman ve C4.5' algoritmaları kullanılmıştır. K-en yakın komşu algoritmasında; 'Öklid' ve 'Manhattan (City block)' uzaklık ölçüleri kullanılarak uygulama yapılmıştır. Sınıflandırma performansları göz önüne alınarak, en iyi tahmin değerini veren algoritmalar belirlenmeye çalışılmıştır. Bu sonuçlara göre; Duyarlık (Sensitivity) ölçütü bakımından en yüksek tahmin oranı %88.4 ile 'CART' algoritmasında gözlenmiştir. Özgüllük (Specificity) ölçütü bakımından en yüksek tahmin oranı %98.2 ile 'Rasgele Orman' algoritmasında görülmüştür. Genel doğruluk ölçütü bakımından ise en yüksek tahmin oranı %94.5 ile 'C4.5' algoritmasında gözlenmiştir. Risk (hata) tahmin ölçütü bakımından en düşük algoritma, %5.6 ile 'C4.5' algoritması olmuştur. Genel olarak sonuçlar incelendiğinde; tüm algoritmaların 'iyi sınıflandırma, yüksek tahmin ve düşük hata oranı' ile çalıştığı söylenebilir. Ayrıca bu çalışma, yeni doğacak bebeklerin doğum ağırlığının, düşük doğum ağırlığında olup olmayacağına erken karar verme ve böylece koruyucu tedbirlerin alınması açısından araştırmacılara katkı sağlayabilir. Anahtar kelimeler: Çapraz Geçerlik, Denetimli Yöntemler, Öklid Uzaklığı, Risk Tahmini, Sınıflama
dc.description.abstract In data mining, the algorithms used for classification can generally be examined under two headings as 'unsupervised' and 'supervised'. 'Decision trees' and 'k-nearest neighbor (KNN)' algorithms in supervised data mining; nonparametric methods and has predictive feature. With these algorithms applied for classification purposes, explanatory variables which are most effective on the answer variable in the study (birth weight of babies) have been determined. From decision trees; 'CART, CHAID, exhaustive CHAID, QUEST, Random Forest and C4.5' algorithms have been used. In k-nearest neighbor algorithm; 'Euclidean' and 'Manhattan (City block)' distance measurements have been applied. Considering the classification performances, it has been tried to determine optimal estimation algorithms. According to these results; the highest estimation rate in terms of sensitivity has been observed in the 'CART' algorithm with 88.4%. The highest estimation rate in terms of specificity criterion has been seen 98.2% in the 'Random Forest' algorithm. The highest estimation rate in terms of accuracy criterion has been seen 94.5% in the 'C4.5' algorithm. The lowest rate in terms of the risk estimate has been observed in the 'C4.5' of 5.6%. When the results are examined in general; it can be said that all algorithms work with 'good classification, high estimation and low error rate'. In addition, this study may contribute to early investigations of the birth weight of newborn babies, whether it is low birth weight or not, and thus taking preventive measures. Keywords: Cross Validation, Supervised Methods, Euclidean Distance, Risk Estimation, Classification en_US
dc.identifier.endpage 97
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=T1mWGp9MngYYkCSgiJvtVoFCuByQ6PdrsjNoUWUdqCg2agVA6XRz93riED5vz7cp
dc.identifier.uri https://hdl.handle.net/20.500.14720/22089
dc.identifier.yoktezid 549742
dc.language.iso tr
dc.subject Biyoistatistik
dc.subject Biyoistatistik
dc.subject Biyoistatistik
dc.subject Karar ağacı
dc.subject Risk tahmini
dc.subject Sınıflandırma
dc.subject Veri madenciliği
dc.subject Çapraz geçerlik
dc.subject İstatistiksel yöntemler
dc.subject Biostatistics en_US
dc.subject Bioistatistics en_US
dc.subject Bioistatistics en_US
dc.subject Decision tree en_US
dc.subject Risk forecasting en_US
dc.subject Classification en_US
dc.subject Data mining en_US
dc.subject Cross validity en_US
dc.subject Statistical methods en_US
dc.title Investigation of Different Decision Trees and K-Nearest Neighbor Methods in Data Mining: an Application on Gynecology and Birth Data en_US
dc.title.alternative Veri Madenciliğinde Farklı Karar Ağaçları ve K-en Yakın Komşuluk Yöntemlerinin İncelenmesi: Kadın Hastalıkları ve Doğum Verisinde Bir Uygulama en_US
dc.type Doctoral Thesis en_US

Files

Collections