Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti

Koca, MuratKarabulut, Kübra2026-04-022026-04-022026https://hdl.handle.net/123456789/30077https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4h6DTskhZP7NXaMwyufhVRZm4idmlmQ6kBkgGcjNlO6NiThe detection of malicious software is a critical problem in information security, and static analysis–based approaches are widely preferred due to their low cost and rapid applicability. In this thesis, the problem of malware detection within the scope of supervised learning is addressed using features based on API call frequencies obtained through static analysis of executable Windows PE (Portable Executable) files. In this study, a large-scale API Import dataset provided by the IEEE DataPort platform is used, and a comprehensive data preparation process including data splitting, feature extraction, preprocessing, and scaling is applied. During the modeling phase, within the framework of supervised learning, gradient boosting–based machine learning algorithms, namely XGBoost, LightGBM, and CatBoost, as well as a deep learning–based Multilayer Perceptron (MLP) model are developed. All models are trained using 5-fold stratified cross-validation and evaluated on an independent test dataset that was not seen during training. Experimental results demonstrate that all models achieve high discriminative performance, with ROC-AUC values exceeding 0.98. Among the machine learning–based models, XGBoost and LightGBM exhibit balanced and stable performance, while the deep learning–based MLP model achieves the highest accuracy, F1-score, and ROC-AUC values on both cross-validation and test datasets. Furthermore, SHAP-based explainability analyses are conducted to examine the decision mechanisms of the models, revealing that the MLP model makes predictions based on a more holistic feature representation. When compared with previous studies conducted on the same dataset, the obtained results indicate that high detection performance can be achieved without applying any feature selection methods. Consequently, this study demonstrates that static analysis–based features extracted from executable files, when combined with supervised learning approaches, are effective and reliable for malware detection.Zararlı yazılımların tespiti, bilgi güvenliği açısından kritik bir problem olup, özellikle statik analiz tabanlı yaklaşımlar düşük maliyetleri ve hızlı uygulanabilirlikleri nedeniyle yaygın olarak tercih edilmektedir. Bu tez çalışmasında, Windows işletim sistemine ait yürütülebilir PE (Portable Executable) dosyaları üzerinde gerçekleştirilen statik analiz sonucunda elde edilen API çağrı frekanslarına dayalı öznitelikler kullanılarak denetimli öğrenme kapsamında zararlı yazılım tespiti problemi ele alınmıştır. Çalışmada, IEEE DataPort platformunda yer alan büyük ölçekli API Import veri seti kullanılmış; veri bölme, öznitelik çıkarımı, ön işleme ve ölçekleme adımlarını içeren kapsamlı bir veri hazırlama süreci uygulanmıştır. Modelleme aşamasında, denetimli öğrenme yaklaşımı çerçevesinde gradyan artırma tabanlı makine öğrenmesi algoritmaları olan XGBoost, LightGBM ve CatBoost ile derin öğrenme tabanlı çok katmanlı algılayıcı (MLP) modeli geliştirilmiştir. Tüm modeller, 5 katlı k-fold çapraz doğrulama yöntemiyle eğitilmiş ve daha önce görülmemiş bağımsız test kümesi üzerinde değerlendirilmiştir. Deneysel sonuçlar, tüm modellerin yüksek ayırt edicilik kapasitesine sahip olduğunu ve ROC-AUC değerlerinin 0,98'in üzerinde seyrettiğini göstermiştir. Makine öğrenmesi tabanlı modeller arasında XGBoost ve LightGBM dengeli ve kararlı performanslar sergilerken, derin öğrenme tabanlı MLP modeli hem çapraz doğrulama hem de test kümesi üzerinde en yüksek doğruluk, F1-skoru ve ROC-AUC değerlerine ulaşmıştır. Ayrıca, SHAP tabanlı açıklanabilirlik analizleri ile modellerin karar mekanizmaları incelenmiş ve MLP modelinin daha bütüncül bir öznitelik temsili üzerinden karar verdiği gözlemlenmiştir. Elde edilen bulgular, aynı veri setini kullanan önceki çalışmalarla karşılaştırıldığında, herhangi bir öznitelik seçimi uygulanmaksızın yüksek tespit başarımı elde edilebildiğini göstermektedir. Sonuç olarak bu çalışma, yürütülebilir dosyalar üzerinden gerçekleştirilen statik analiz tabanlı özniteliklerin, denetimli öğrenme yaklaşımlarıyla birlikte kullanıldığında zararlı yazılım tespitinde etkili ve güvenilir sonuçlar üretebildiğini ortaya koymaktadır.trBilim ve TeknolojiComputer Engineering and Computer Science and ControlScience and TechnologyBilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDenetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım TespitiMalware Detection on Executable Files with Superwised Learning TechniquesMaster Thesis