Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti

Karabulut, Kübra

Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti

dc.contributor.advisor	Koca, Murat
dc.contributor.author	Karabulut, Kübra
dc.date.accessioned	2026-04-02T10:49:38Z
dc.date.available	2026-04-02T10:49:38Z
dc.date.issued	2026
dc.description.abstract	The detection of malicious software is a critical problem in information security, and static analysis–based approaches are widely preferred due to their low cost and rapid applicability. In this thesis, the problem of malware detection within the scope of supervised learning is addressed using features based on API call frequencies obtained through static analysis of executable Windows PE (Portable Executable) files. In this study, a large-scale API Import dataset provided by the IEEE DataPort platform is used, and a comprehensive data preparation process including data splitting, feature extraction, preprocessing, and scaling is applied. During the modeling phase, within the framework of supervised learning, gradient boosting–based machine learning algorithms, namely XGBoost, LightGBM, and CatBoost, as well as a deep learning–based Multilayer Perceptron (MLP) model are developed. All models are trained using 5-fold stratified cross-validation and evaluated on an independent test dataset that was not seen during training. Experimental results demonstrate that all models achieve high discriminative performance, with ROC-AUC values exceeding 0.98. Among the machine learning–based models, XGBoost and LightGBM exhibit balanced and stable performance, while the deep learning–based MLP model achieves the highest accuracy, F1-score, and ROC-AUC values on both cross-validation and test datasets. Furthermore, SHAP-based explainability analyses are conducted to examine the decision mechanisms of the models, revealing that the MLP model makes predictions based on a more holistic feature representation. When compared with previous studies conducted on the same dataset, the obtained results indicate that high detection performance can be achieved without applying any feature selection methods. Consequently, this study demonstrates that static analysis–based features extracted from executable files, when combined with supervised learning approaches, are effective and reliable for malware detection.	en_US
dc.description.abstract	Zararlı yazılımların tespiti, bilgi güvenliği açısından kritik bir problem olup, özellikle statik analiz tabanlı yaklaşımlar düşük maliyetleri ve hızlı uygulanabilirlikleri nedeniyle yaygın olarak tercih edilmektedir. Bu tez çalışmasında, Windows işletim sistemine ait yürütülebilir PE (Portable Executable) dosyaları üzerinde gerçekleştirilen statik analiz sonucunda elde edilen API çağrı frekanslarına dayalı öznitelikler kullanılarak denetimli öğrenme kapsamında zararlı yazılım tespiti problemi ele alınmıştır. Çalışmada, IEEE DataPort platformunda yer alan büyük ölçekli API Import veri seti kullanılmış; veri bölme, öznitelik çıkarımı, ön işleme ve ölçekleme adımlarını içeren kapsamlı bir veri hazırlama süreci uygulanmıştır. Modelleme aşamasında, denetimli öğrenme yaklaşımı çerçevesinde gradyan artırma tabanlı makine öğrenmesi algoritmaları olan XGBoost, LightGBM ve CatBoost ile derin öğrenme tabanlı çok katmanlı algılayıcı (MLP) modeli geliştirilmiştir. Tüm modeller, 5 katlı k-fold çapraz doğrulama yöntemiyle eğitilmiş ve daha önce görülmemiş bağımsız test kümesi üzerinde değerlendirilmiştir. Deneysel sonuçlar, tüm modellerin yüksek ayırt edicilik kapasitesine sahip olduğunu ve ROC-AUC değerlerinin 0,98'in üzerinde seyrettiğini göstermiştir. Makine öğrenmesi tabanlı modeller arasında XGBoost ve LightGBM dengeli ve kararlı performanslar sergilerken, derin öğrenme tabanlı MLP modeli hem çapraz doğrulama hem de test kümesi üzerinde en yüksek doğruluk, F1-skoru ve ROC-AUC değerlerine ulaşmıştır. Ayrıca, SHAP tabanlı açıklanabilirlik analizleri ile modellerin karar mekanizmaları incelenmiş ve MLP modelinin daha bütüncül bir öznitelik temsili üzerinden karar verdiği gözlemlenmiştir. Elde edilen bulgular, aynı veri setini kullanan önceki çalışmalarla karşılaştırıldığında, herhangi bir öznitelik seçimi uygulanmaksızın yüksek tespit başarımı elde edilebildiğini göstermektedir. Sonuç olarak bu çalışma, yürütülebilir dosyalar üzerinden gerçekleştirilen statik analiz tabanlı özniteliklerin, denetimli öğrenme yaklaşımlarıyla birlikte kullanıldığında zararlı yazılım tespitinde etkili ve güvenilir sonuçlar üretebildiğini ortaya koymaktadır.	tr
dc.identifier.uri	https://hdl.handle.net/123456789/30077
dc.identifier.uri	https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4h6DTskhZP7NXaMwyufhVRZm4idmlmQ6kBkgGcjNlO6Ni
dc.language.iso	tr
dc.subject	Bilim ve Teknoloji	tr
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.subject	Science and Technology	en_US
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr
dc.title	Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti	tr
dc.title	Malware Detection on Executable Files with Superwised Learning Techniques	en_US
dc.type	Master Thesis
dspace.entity.type	Publication
gdc.coar.type	text::thesis::master thesis
gdc.description.department	FEN BİLİMLERİ ENSTİTÜSÜ / Yapay Zeka ve Robotik Ana Bilim Dalı
gdc.description.department	T.C. Van Yüzüncü Yıl Üniversitesi
gdc.description.endpage	105
gdc.identifier.yoktezid	995613

Collections

Yüksek Lisans Tezleri

Denetimli Öğrenme ile Yürütülebilir Dosyalar Üzerinde Kötü Amaçlı Yazılım Tespiti

Files

Collections