Menyaring Email Berbahaya Menggunakan Model CBOW

Written by Nur Rachmi Latifa | 23 Des 2025

Email menjadi sarana komunikasi utama bagi individu maupun organisasi. Namun, di balik kemudahannya, email juga menjadi pintu masuk berbagai ancaman seperti spam, phishing, dan serangan siber lainnya. Banyak pengguna tanpa sadar membuka pesan berbahaya yang menyamar sebagai informasi resmi atau promosi menarik, sehingga menimbulkan risiko kebocoran data dan kerugian finansial. Untuk menghadapi ancaman ini, para peneliti mengembangkan pendekatan baru berbasis kecerdasan buatan. Salah satu yang terbukti efektif adalah Model CBOW (Continuous Bag-of-Words) yang mampu memahami konteks bahasa dalam teks email dan, bila dipadukan dengan algoritma Random Forest, menghasilkan sistem cerdas untuk menyaring email berbahaya secara cepat, akurat, dan efisien.

Ancaman Nyata dari Email Berbahaya

Email merupakan salah satu media komunikasi paling vital di era digital, namun juga menjadi sasaran empuk bagi berbagai serangan siber. Bentuk ancamannya beragam — mulai dari spam, phishing, hingga malware tersembunyi yang menyusup melalui lampiran atau tautan palsu. Dalam penelitian berjudul “Deteksi Email Spam dengan Continuous Bag-of-Words dan Random Forest” oleh Rustam et al. (2024), dijelaskan bahwa Indonesia menghadapi sekitar 6.510 serangan spam hanya dalam satu bulan (Juni 2023), menandakan betapa masifnya ancaman ini terhadap pengguna individu maupun organisasi. Email-email berbahaya ini sering kali tampil menyerupai pesan resmi, seperti undangan rapat, konfirmasi pembayaran, atau hadiah promosi, yang membuat banyak korban lengah dan akhirnya tertipu.

Ketika pengguna tanpa sadar mengklik tautan atau membuka lampiran dari email berbahaya, risiko yang muncul tidak hanya kehilangan data pribadi, tetapi juga potensi kebocoran sistem internal dan kompromi akun perusahaan. Rustam et al. (2024) menegaskan bahwa pendekatan tradisional seperti filter berbasis kata kunci tidak lagi cukup karena taktik penyerang terus berkembang. Oleh sebab itu, dibutuhkan model kecerdasan buatan yang mampu memahami konteks bahasa dan pola semantik dalam isi email, bukan sekadar mengenali kata yang sering muncul.

Beberapa studi lain turut memperkuat urgensi ini. Misalnya, penelitian oleh Rayan et al. (2021) dalam jurnal “NLP-RF: Integrating Natural Language Processing with Random Forest for Spam Detection” menemukan bahwa kombinasi analisis linguistik dan algoritma pembelajaran mesin secara signifikan meningkatkan kemampuan deteksi spam tanpa mengorbankan privasi pengguna. Sementara itu, Husin et al. (2023) dalam “BERT Algorithm for Spam Classification: A Comparative Study” menunjukkan bahwa pendekatan berbasis pemahaman konteks seperti CBOW dan BERT dapat mengidentifikasi pola bahasa berbahaya dengan akurasi yang jauh lebih tinggi dibanding metode konvensional. Semua temuan ini menegaskan satu hal penting: dalam menghadapi gelombang ancaman siber melalui email, teknologi pemrosesan bahasa alami adalah kunci untuk mendeteksi dan menyaring pesan berbahaya secara lebih cerdas dan adaptif.

Mengapa Email Berbahaya Sulit Dideteksi?

Dalam penelitian Rustam et al. (2024), dijelaskan bahwa masih banyak sistem filter email tradisional yang mengandalkan pendekatan rule-based, seperti daftar kata terlarang atau pola domain mencurigakan. Sayangnya, teknik ini mudah dikalahkan oleh taktik baru para penyerang yang semakin canggih. Mereka mampu memodifikasi struktur kalimat, memanfaatkan domain palsu, bahkan menyisipkan karakter acak agar lolos dari filter otomatis.

Dalam konteks ini, deteksi berbasis aturan menjadi tidak cukup fleksibel untuk menghadapi dinamika bahasa dan variasi strategi phishing yang terus berevolusi. Selain itu, sistem konvensional sering kali tidak mempertimbangkan konteks semantik dalam teks, padahal makna kata dapat berubah tergantung posisi dan kombinasi kalimat. Beberapa tantangan utama dalam mendeteksi email berbahaya antara lain:

Taktik penyerang yang dinamis: penipu terus mengubah struktur kalimat dan gaya bahasa agar lolos dari filter.
Dataset tidak seimbang: email “ham” (sah) jauh lebih banyak dibanding spam, membuat model cenderung bias terhadap data normal.
Bahasa alami yang kompleks: filter tradisional sulit memahami konteks kata seperti “hadiah”, “promo”, atau “klik di sini.”

Akibatnya, banyak sistem keamanan gagal menjaga keseimbangan antara akurasi tinggi dan efisiensi deteksi. Pendekatan berbasis pembelajaran mesin seperti Model CBOW mampu memahami hubungan semantik antar kata, sehingga dapat mengenali pola bahasa berbahaya secara lebih adaptif dibanding metode berbasis aturan.

Mengenal Model CBOW (Continuous Bag-of-Words)

Model CBOW (Continuous Bag-of-Words) merupakan salah satu pendekatan paling penting dalam bidang Natural Language Processing (NLP) untuk memahami makna kata dalam konteks kalimat. Dalam penelitian “Deteksi Email Spam dengan Continuous Bag-of-Words dan Random Forest” oleh Rustam et al. (2024), CBOW digunakan untuk mengekstraksi fitur semantik dari isi email sebelum diklasifikasikan menggunakan algoritma Random Forest. Model ini bekerja dengan memprediksi kata berdasarkan konteks di sekitarnya, sehingga mampu menangkap hubungan antar kata dan maknanya. Misalnya, kata “hadiah” yang muncul bersama kata “klik tautan” akan memiliki makna berbeda dibanding kata “hadiah” yang digunakan dalam konteks “terima kasih atas pembelian Anda”.

Pendekatan CBOW menjadi efektif karena mampu mentransformasikan teks menjadi vektor numerik (word embedding) yang mencerminkan kesamaan semantik antar kata. Dengan representasi ini, sistem dapat memahami perbedaan halus antara kalimat yang aman dan kalimat berpotensi berbahaya. Dalam jurnal yang sama, Rustam et al. menjelaskan bahwa integrasi CBOW dengan Random Forest memungkinkan model mendeteksi pesan phishing atau spam dengan akurasi mencapai 98,21%, berkat kemampuan CBOW dalam menggali konteks mendalam dari isi email.

Beberapa penelitian lain turut memperkuat pentingnya pendekatan semantik ini. Rayan et al. (2021) dalam jurnal “NLP-RF: Integrating Natural Language Processing with Random Forest for Spam Detection” menunjukkan bahwa kombinasi NLP dan Random Forest meningkatkan efisiensi deteksi spam sekaligus menjaga privasi pengguna. Sementara itu, Husin et al. (2023) melalui studi “BERT Algorithm for Spam Classification: A Comparative Study” membuktikan bahwa model berbasis konteks seperti CBOW dan BERT unggul dalam mengenali pola bahasa alami yang kompleks. Secara umum, keunggulan CBOW dapat dirangkum sebagai berikut:

Menangkap kesamaan semantik (semantic similarity) antar kata dengan efisien.
Cepat dan skalabel, cocok untuk dataset besar seperti email.
Fleksibel dan mudah diintegrasikan dengan algoritma pembelajaran mesin lain seperti Random Forest.

Melalui kombinasi tersebut, CBOW bukan hanya membantu sistem mengenali spam berdasarkan kata, tetapi juga memahami maksud di balik bahasa yang digunakan — menjadikannya fondasi penting dalam teknologi penyaringan email berbahaya di era modern.

Sinergi CBOW dan Random Forest: Formula Cerdas Menyaring Email

Bagian ini menjelaskan bagaimana CBOW dan Random Forest bekerja secara sinergis untuk membentuk sistem penyaringan email berbahaya yang kuat dan adaptif. Berdasarkan penelitian Rustam et al. (2024), kombinasi kedua metode ini menghasilkan akurasi deteksi hingga 98,21% dan mampu mengatasi tantangan umum seperti data tidak seimbang serta variasi bahasa dalam email. Berikut penjelasan tiap tahap kerja sistemnya:

Preprocessing Data
Langkah awal dimulai dengan membersihkan dataset SpamAssassin yang berisi ribuan email. Proses ini meliputi penghapusan data duplikat, koreksi nilai kosong, serta normalisasi teks untuk memastikan konsistensi dan kualitas data sebelum dianalisis. Tahap ini penting agar model tidak terpengaruh oleh noise atau data yang tidak relevan.
Ekstraksi Fitur Menggunakan CBOW
Setelah data dibersihkan, model CBOW (Continuous Bag-of-Words) digunakan untuk mengubah setiap kata menjadi representasi vektor semantik. Representasi ini memungkinkan sistem memahami hubungan antar kata dalam konteks email — misalnya, membedakan antara kalimat promosi sah dan pesan phishing yang berisi tautan mencurigakan.
Pelatihan Model Random Forest
Vektor hasil CBOW kemudian digunakan oleh algoritma Random Forest yang terdiri dari ratusan pohon keputusan. Setiap pohon memberikan hasil klasifikasi, dan sistem mengambil keputusan akhir berdasarkan mayoritas voting. Pendekatan ini membuat model lebih stabil dan tahan terhadap kesalahan prediksi tunggal.
Evaluasi Model
Setelah pelatihan, performa sistem diukur menggunakan Confusion Matrix dan metrik seperti accuracy, precision, recall, dan F1-score. Evaluasi ini memastikan model tidak hanya akurat, tetapi juga mampu membedakan email berbahaya tanpa banyak kesalahan positif.
Prediksi Email Baru
Pada tahap akhir, sistem diuji dengan email baru untuk menguji kemampuannya dalam mengenali pola linguistik berbahaya. Model mampu memberikan label otomatis — Spam atau Ham secara real-time, menjadikannya solusi efisien untuk penyaringan email sehari-hari.

Kombinasi antara NLP (CBOW) dan Machine Learning (Random Forest) menciptakan pendekatan hibrida yang kuat, efisien, dan adaptif. Sinergi keduanya membuktikan bahwa pemahaman konteks bahasa dan kekuatan klasifikasi statistik dapat digabungkan untuk menghadirkan sistem deteksi email berbahaya yang akurat sekaligus mudah diimplementasikan dalam lingkungan nyata.

Hasil Penelitian: Akurasi Mencapai 98,21%

Hasil penelitian yang dilakukan oleh Rustam et al. (2024) dalam jurnal “Deteksi Email Spam dengan Continuous Bag-of-Words dan Random Forest” menunjukkan bahwa kombinasi kedua metode ini mampu mencapai hasil yang sangat signifikan dalam mendeteksi email berbahaya. Dengan menggunakan dataset SpamAssassin yang berisi ribuan email, sistem berhasil mengklasifikasikan pesan ke dalam dua kategori utama yaitu Spam dan Ham (email sah).

Pendekatan berbasis word embedding dari CBOW memberikan pemahaman semantik yang kuat terhadap isi pesan, sementara Random Forest memperkuat proses pengambilan keputusan melalui analisis ratusan pohon klasifikasi. Hasilnya, model tidak hanya efisien dalam memproses data teks dalam jumlah besar, tetapi juga akurat dalam mengenali pola bahasa berbahaya yang sering digunakan dalam serangan phishing. Beberapa temuan penting dari hasil pengujian adalah sebagai berikut:

Akurasi Model: Random Forest mencapai 98,21%, jauh lebih unggul dibanding model pembanding seperti Naive Bayes yang hanya memperoleh 88,62%.
Keseimbangan Data: Model mampu mengklasifikasikan 3.627 email Ham dan 1.686 email Spam dengan tingkat kesalahan yang sangat rendah.
Evaluasi Metrik: Pengujian menggunakan Confusion Matrix menunjukkan nilai precision dan recall yang tinggi, menandakan kemampuan model dalam mengenali spam tanpa mengorbankan email sah.
Kinerja Adaptif: Sistem dapat terus disesuaikan dengan dataset baru tanpa menurunkan akurasi, menjadikannya ideal untuk implementasi dunia nyata.

Secara keseluruhan, penelitian ini menegaskan bahwa integrasi CBOW dan Random Forest merupakan pendekatan efektif untuk menyaring email berbahaya, memberikan kombinasi antara pemahaman bahasa alami yang mendalam dan kemampuan klasifikasi statistik yang tangguh.

Keunggulan Model CBOW dalam Deteksi Email Berbahaya

Model CBOW (Continuous Bag-of-Words) memiliki sejumlah keunggulan yang menjadikannya salah satu pendekatan paling efektif dalam mendeteksi dan menyaring email berbahaya. Dibandingkan metode tradisional yang bergantung pada pencocokan kata kunci atau aturan tetap, CBOW bekerja dengan memahami konteks linguistik dan hubungan semantik antar kata. Pendekatan ini memungkinkan sistem untuk mengenali maksud sebenarnya di balik isi email, bukan sekadar menghitung kemunculan kata. Berikut adalah beberapa keunggulan utama CBOW dalam konteks deteksi email berbahaya dalam penelitian Rustam et al. (2024):

Memahami Konteks Bahasa
Tidak seperti model konvensional yang hanya melihat frekuensi kata, CBOW mampu memahami makna di balik kata melalui analisis konteks. Misalnya, kata “bonus”, “hadiah”, dan “klaim” sering kali muncul dalam pesan spam, meskipun struktur kalimatnya berbeda. Kemampuan ini membuat CBOW lebih sensitif terhadap pola bahasa yang mencurigakan dan mampu membedakan email sah dari pesan berbahaya dengan akurasi tinggi.
Mengurangi False Positive
Pendekatan berbasis semantik pada CBOW membantu sistem menghindari kesalahan dalam mengklasifikasikan email promosi resmi sebagai spam. Dengan memahami konteks pesan, model dapat menjaga agar komunikasi bisnis tetap lancar dan tidak terganggu oleh penyaringan yang terlalu agresif, tanpa mengorbankan aspek keamanan.
Skalabilitas dan Efisiensi
CBOW memiliki efisiensi komputasi yang tinggi dan dapat dijalankan di platform seperti Google Colab tanpa memerlukan sumber daya besar. Hal ini menjadikannya solusi ideal bagi organisasi kecil hingga menengah yang ingin meningkatkan keamanan email tanpa investasi perangkat keras yang mahal.
Dapat Dikombinasikan dengan Algoritma Lain
Salah satu keunggulan utama CBOW adalah fleksibilitasnya untuk dikombinasikan dengan berbagai algoritma pembelajaran mesin, seperti Random Forest, Support Vector Machine (SVM), atau Neural Network. Kombinasi ini terbukti meningkatkan performa klasifikasi dan akurasi deteksi spam.

Secara keseluruhan, keunggulan-keunggulan tersebut menjadikan Model CBOW sebagai fondasi penting dalam sistem modern untuk menyaring email berbahaya. Kemampuannya memahami konteks, efisiensi komputasi, serta fleksibilitas integrasi membuatnya menjadi solusi yang tidak hanya akurat, tetapi juga relevan untuk menghadapi ancaman siber yang terus berkembang.

Implikasi Praktis dan Penerapan Nyata

Implementasi Model CBOW (Continuous Bag-of-Words) dalam penyaringan email berbahaya memiliki dampak yang luas dan nyata di berbagai sektor. Dengan kemampuannya memahami konteks bahasa dan mendeteksi pola semantik yang mencurigakan, CBOW dapat menjadi fondasi penting dalam membangun sistem keamanan email modern. Model ini tidak hanya relevan untuk industri teknologi, tetapi juga untuk sektor-sektor yang sangat bergantung pada komunikasi digital dan perlindungan data. Beberapa contoh penerapan praktisnya meliputi:

Perusahaan dan institusi keuangan: digunakan untuk mendeteksi phishing dan email palsu yang meniru identitas lembaga resmi, seperti bank atau penyedia layanan pembayaran digital.
Provider email dan ISP: membantu meningkatkan kemampuan filter spam agar lebih adaptif terhadap variasi bahasa lokal dan pola komunikasi pengguna di wilayah tertentu.
Aplikasi keamanan siber: diterapkan sebagai bagian dari sistem pertahanan berlapis (multi-layered defense), memperkuat perlindungan dari ancaman yang menembus filter awal.
Sistem AI Security Awareness: dimanfaatkan untuk membantu karyawan mengenali tanda-tanda linguistik yang umum digunakan dalam email phishing, sehingga meningkatkan kesadaran dan ketahanan manusia terhadap serangan siber.

Dengan akurasi hingga 98,21% sebagaimana ditunjukkan dalam penelitian “Deteksi Email Spam dengan Continuous Bag-of-Words dan Random Forest” oleh Rustam et al. (2024), penerapan CBOW terbukti mampu mengurangi risiko kebocoran data dan menekan jumlah insiden keamanan akibat spam. Selain meningkatkan keandalan sistem deteksi otomatis, metode ini juga berkontribusi terhadap efisiensi kerja dengan meminimalkan gangguan dari email tidak relevan, menjadikan pengalaman pengguna lebih aman dan produktif dalam lingkungan digital yang semakin kompleks.

Keterbatasan dan Arah Penelitian Selanjutnya

Meskipun hasil penelitian “Deteksi Email Spam dengan Continuous Bag-of-Words dan Random Forest” oleh Rustam et al. (2024) menunjukkan performa yang sangat menjanjikan, terdapat beberapa keterbatasan yang perlu diperhatikan sebelum model ini diimplementasikan secara luas. Seperti kebanyakan model berbasis pembelajaran mesin, kualitas hasil CBOW sangat bergantung pada kualitas dataset dan proses preprocessing. Jika data pelatihan tidak mencakup variasi bahasa atau gaya komunikasi yang cukup, akurasi deteksi dapat menurun.

Selain itu, model ini belum diuji secara menyeluruh untuk konteks multi-bahasa, terutama email yang menggunakan kombinasi bahasa Indonesia dan Inggris yang umum ditemukan di dunia kerja modern. Sensitivitas terhadap slang, singkatan, atau kata tidak baku juga masih menjadi tantangan, karena model kesulitan menangkap makna kontekstual dari istilah non-formal yang sering muncul dalam komunikasi digital sehari-hari. Untuk mengatasi keterbatasan tersebut, para peneliti menyarankan beberapa arah pengembangan lanjutan agar sistem penyaringan email berbahaya menjadi lebih adaptif dan cerdas, antara lain:

Eksperimen dengan Recurrent Neural Networks (RNN): model ini dapat mempelajari pola urutan kata dalam teks, sehingga mampu mengenali dinamika bahasa dalam email berbahaya dengan lebih baik.
Integrasi dengan Transformer model seperti BERT: pendekatan ini dapat memperluas kemampuan model dalam memahami konteks linguistik yang lebih kompleks dan mendalam.
Kombinasi dengan behavioral analysis: menggabungkan deteksi berbasis teks dengan analisis perilaku pengguna (misalnya pola klik atau respon terhadap email) untuk memberikan lapisan keamanan tambahan.

Melalui pengembangan tersebut, model CBOW diharapkan dapat berevolusi menjadi sistem deteksi yang lebih adaptif terhadap bahasa, konteks, dan perilaku pengguna dalam memperkuat pertahanan terhadap ancaman phishing dan spam di masa depan.

Kesimpulan

Model CBOW terbukti menjadi solusi yang efektif dan efisien untuk menyaring email berbahaya. Dengan memahami konteks bahasa dan bekerja bersama algoritma Random Forest, sistem ini mampu membedakan antara email sah dan email berbahaya dengan tingkat akurasi hampir sempurna. Selain itu, kombinasi CBOW dan Random Forest menjembatani kesenjangan antara pendekatan teoritis dan aplikasi praktis, membuka jalan menuju sistem keamanan email yang lebih cerdas dan adaptif. Ke depan, integrasi dengan teknologi berbasis deep learning seperti RNN atau Transformer dapat semakin memperkuat ketahanan sistem terhadap ancaman siber yang terus berkembang.

View full post