Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti

dc.contributor.advisor Koca, Murat
dc.contributor.author Karabulut, Kübra
dc.date.accessioned 2026-04-02T10:49:38Z
dc.date.available 2026-04-02T10:49:38Z
dc.date.issued 2026
dc.description.abstract The detection of malicious software is a critical problem in information security, and static analysis–based approaches are widely preferred due to their low cost and rapid applicability. In this thesis, the problem of malware detection within the scope of supervised learning is addressed using features based on API call frequencies obtained through static analysis of executable Windows PE (Portable Executable) files. In this study, a large-scale API Import dataset provided by the IEEE DataPort platform is used, and a comprehensive data preparation process including data splitting, feature extraction, preprocessing, and scaling is applied. During the modeling phase, within the framework of supervised learning, gradient boosting–based machine learning algorithms, namely XGBoost, LightGBM, and CatBoost, as well as a deep learning–based Multilayer Perceptron (MLP) model are developed. All models are trained using 5-fold stratified cross-validation and evaluated on an independent test dataset that was not seen during training. Experimental results demonstrate that all models achieve high discriminative performance, with ROC-AUC values exceeding 0.98. Among the machine learning–based models, XGBoost and LightGBM exhibit balanced and stable performance, while the deep learning–based MLP model achieves the highest accuracy, F1-score, and ROC-AUC values on both cross-validation and test datasets. Furthermore, SHAP-based explainability analyses are conducted to examine the decision mechanisms of the models, revealing that the MLP model makes predictions based on a more holistic feature representation. When compared with previous studies conducted on the same dataset, the obtained results indicate that high detection performance can be achieved without applying any feature selection methods. Consequently, this study demonstrates that static analysis–based features extracted from executable files, when combined with supervised learning approaches, are effective and reliable for malware detection. en_US
dc.description.abstract Zararlı yazılımların tespiti, bilgi güvenliği açısından kritik bir problem olup, özellikle statik analiz tabanlı yaklaşımlar düşük maliyetleri ve hızlı uygulanabilirlikleri nedeniyle yaygın olarak tercih edilmektedir. Bu tez çalışmasında, Windows işletim sistemine ait yürütülebilir PE (Portable Executable) dosyaları üzerinde gerçekleştirilen statik analiz sonucunda elde edilen API çağrı frekanslarına dayalı öznitelikler kullanılarak denetimli öğrenme kapsamında zararlı yazılım tespiti problemi ele alınmıştır. Çalışmada, IEEE DataPort platformunda yer alan büyük ölçekli API Import veri seti kullanılmış; veri bölme, öznitelik çıkarımı, ön işleme ve ölçekleme adımlarını içeren kapsamlı bir veri hazırlama süreci uygulanmıştır. Modelleme aşamasında, denetimli öğrenme yaklaşımı çerçevesinde gradyan artırma tabanlı makine öğrenmesi algoritmaları olan XGBoost, LightGBM ve CatBoost ile derin öğrenme tabanlı çok katmanlı algılayıcı (MLP) modeli geliştirilmiştir. Tüm modeller, 5 katlı k-fold çapraz doğrulama yöntemiyle eğitilmiş ve daha önce görülmemiş bağımsız test kümesi üzerinde değerlendirilmiştir. Deneysel sonuçlar, tüm modellerin yüksek ayırt edicilik kapasitesine sahip olduğunu ve ROC-AUC değerlerinin 0,98'in üzerinde seyrettiğini göstermiştir. Makine öğrenmesi tabanlı modeller arasında XGBoost ve LightGBM dengeli ve kararlı performanslar sergilerken, derin öğrenme tabanlı MLP modeli hem çapraz doğrulama hem de test kümesi üzerinde en yüksek doğruluk, F1-skoru ve ROC-AUC değerlerine ulaşmıştır. Ayrıca, SHAP tabanlı açıklanabilirlik analizleri ile modellerin karar mekanizmaları incelenmiş ve MLP modelinin daha bütüncül bir öznitelik temsili üzerinden karar verdiği gözlemlenmiştir. Elde edilen bulgular, aynı veri setini kullanan önceki çalışmalarla karşılaştırıldığında, herhangi bir öznitelik seçimi uygulanmaksızın yüksek tespit başarımı elde edilebildiğini göstermektedir. Sonuç olarak bu çalışma, yürütülebilir dosyalar üzerinden gerçekleştirilen statik analiz tabanlı özniteliklerin, denetimli öğrenme yaklaşımlarıyla birlikte kullanıldığında zararlı yazılım tespitinde etkili ve güvenilir sonuçlar üretebildiğini ortaya koymaktadır. tr
dc.identifier.uri https://hdl.handle.net/123456789/30077
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4h6DTskhZP7NXaMwyufhVRZm4idmlmQ6kBkgGcjNlO6Ni
dc.language.iso tr
dc.subject Bilim ve Teknoloji tr
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Science and Technology en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol tr
dc.title Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti tr
dc.title Malware Detection on Executable Files with Superwised Learning Techniques en_US
dc.type Master Thesis
dspace.entity.type Publication
gdc.coar.type text::thesis::master thesis
gdc.description.department FEN BİLİMLERİ ENSTİTÜSÜ / Yapay Zeka ve Robotik Ana Bilim Dalı
gdc.description.department T.C. Van Yüzüncü Yıl Üniversitesi
gdc.description.endpage 105
gdc.identifier.yoktezid 995613

Files