Yapay Zeka Anormallikleri Nasıl Tespit Eder?

Anormallik tespiti, veri işlemlerinin sessiz kahramanıdır; yangın çıkmadan önce fısıldayan duman alarmı gibidir.

Basitçe ifade etmek gerekirse: Yapay zeka "normale yakın"ın neye benzediğini öğrenir, yeni olaylara bir anormallik puanı verir ve ardından bir eşiğe bağlı olarak bir insanı çağırmaya (veya olayı otomatik olarak engellemeye) karar verir . Şeytan, verileriniz mevsimsel, karmaşık, değişken ve zaman zaman size yalan söylediğinde "normale yakın"ı nasıl tanımladığınızdadır. [1]

Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:

🔗 Yapay Zekanın Topluma Zararlı Olmasının Nedenleri:
Yapay zekanın yaygın kullanımının etik, ekonomik ve sosyal risklerini inceliyor.

🔗 Yapay zekâ sistemlerinin gerçekte ne kadar su kullandığını
açıklıyor: Veri merkezi soğutması, eğitim gereksinimleri ve çevresel su etkisini anlatıyor.

🔗 Yapay Zeka Veri Kümesi Nedir ve Neden Önemlidir?
Veri kümelerini, etiketlemeyi, kaynakları ve bunların model performansındaki rollerini tanımlar.

🔗 Yapay Zeka Karmaşık Verilerden Trendleri Nasıl Tahmin Ediyor?
Desen tanıma, makine öğrenimi modelleri ve gerçek dünya tahmin uygulamalarını kapsar.

Yapay Zeka Anormallikleri Nasıl Tespit Eder?

İyi bir cevap, algoritmaları listelemekten daha fazlasını yapmalıdır. Mekaniği ve bunların gerçek, kusurlu verilere uygulandığında nasıl göründüğünü açıklamalıdır . En iyi açıklamalar şunlardır:

Temel bileşenleri gösterin: özellikler, temel çizgiler, puanlarve eşikler. [1]
Pratik aileleri karşılaştırın: mesafe, yoğunluk, tek sınıf, izolasyon, olasılıksal, yeniden yapılandırma. [1]
Zaman serisi tuhaflıklarını ele alın: “normal”, günün saatine, haftanın gününe, yayınlara ve tatillere bağlıdır. [1]
Değerlendirmeyi gerçek bir kısıtlama gibi ele alın: yanlış alarmlar sadece can sıkıcı değil, aynı zamanda güveni de zedeliyor. [4]
Yorumlanabilirliği ve insan müdahalesini dahil edin, çünkü “garip” bir temel neden değildir. [5]

Temel Mekanikler: Başlangıç Değerleri, Puanlar, Eşik Değerler 🧠

Anormallik sistemlerinin çoğu - ister gösterişli olsun ister olmasın - üç temel unsurdan oluşur:

1) Gösterim (diğer adıyla: modelin gördüğü)

Ham sinyaller nadiren yeterlidir. Ya özellikler tasarlarsınız (kayan istatistikler, oranlar, gecikmeler, mevsimsel değişimler) ya da temsiller öğrenirsiniz (gömülü vektörler, alt uzaylar, yeniden yapılandırmalar). [1]

2) Puanlama (diğer adıyla: bu ne kadar "garip"?)

Yaygın puanlama yöntemleri şunlardır:

Mesafeye dayalı: komşulardan uzak = şüpheli. [1]
Yoğunluğa dayalı: düşük yerel yoğunluk = şüpheli (LOF bunun en iyi örneğidir). [1]
Tek sınıf sınırları: “normal” olanı öğrenin, bunun dışında kalanları işaretleyin. [1]
Olasılıksal: Uygun bir model altında düşük olasılık = şüpheli. [1]
Yeniden yapılandırma hatası: normal üzerinde eğitilmiş bir model onu yeniden oluşturamıyorsa, muhtemelen hatalıdır. [1]

3) Eşik belirleme (diğer adıyla: zili ne zaman çalmak gerektiği)

Eşikler sabit, kantil tabanlı, segment başına veya maliyete duyarlı olabilir - ancak bunlar , hislere göre değil, uyarı bütçelerine ve aşağı yönlü maliyetlere göre kalibre edilmelidir. [4]

Çok pratik bir ayrıntı: scikit-learn'ün aykırı/yenilik tespit edicileri ham puanları ortaya çıkarır ve ardından puanları içsel/aykırı kararlara dönüştürmek için bir eşik (genellikle kirlenme tarzı bir varsayım yoluyla kontrol edilir) uygular. [2]

Sonradan Yaşanacak Ağrıları Önleyen Hızlı Tanımlar 🧯

İnce ayrıntılardan kaynaklanan hatalardan sizi kurtaracak iki önemli nokta:

Aykırı değer tespiti: Eğitim verileriniz zaten aykırı değerler içerebilir; algoritma yine de "yoğun normal bölgeyi" modellemeye çalışır.
Yenilik tespiti : Eğitim verilerinin temiz olduğu varsayılır; yeni gözlemlerin öğrenilen normal kalıba uyup uymadığını değerlendiriyorsunuz . [2]

Ayrıca: yenilik tespiti genellikle tek sınıflı sınıflandırma olarak çerçevelenir - anormal örnekler az veya tanımlanmamış olduğu için normali modellemek. [1]

Gerçekten Kullanacağınız, Denetimsiz Güç Kaynakları 🧰

Etiketlerin az olduğu durumlarda (ki bu neredeyse her zaman böyledir), gerçek işlem hatlarında karşımıza çıkan araçlar şunlardır:

İzolasyon Ormanı: birçok tablo durumunda güçlü bir varsayılan, pratikte yaygın olarak kullanılan ve scikit-learn'de uygulanan. [2]
Tek Sınıflı SVM: etkili olabilir ancak ayarlamaya ve varsayımlara duyarlıdır; scikit-learn, dikkatli hiperparametre ayarlamasının gerekliliğini açıkça belirtir. [2]
Yerel Aykırı Değer Faktörü (LOF): Klasik yoğunluk tabanlı puanlama; "normal" düzgün bir küme olmadığında harika. [1]

Takımların her hafta yeniden keşfettiği pratik bir tuzak: LOF, eğitim kümesinde aykırı değer tespiti mi yoksa yeni verilerde yenilik tespiti mi yaptığınıza bağlı olarak farklı davranır - scikit-learn, görülmemiş puanları güvenli bir şekilde kaydetmek için bile novelty=True gerektirir. [2]

Veriler değişken olduğunda bile işe yarayan sağlam bir temel 🪓

Eğer "bizi tamamen unutkanlığa sürüklemeyecek bir şeye ihtiyacımız var" modundaysanız, sağlam istatistiklerin önemi hafife alınıyor.

Değiştirilmiş z-skoru, aşırı değerlere duyarlılığı azaltmak için medyanı ve MAD'ı (medyan mutlak sapma) kullanır . NIST'in EDA el kitabı, değiştirilmiş z-skoru formunu belgeliyor ve 3,5'in üzerindeki mutlak değerde yaygın olarak kullanılan bir "potansiyel aykırı değer" kuralına dikkat çekiyor . [3]

Bu, her anomali sorununu çözmeyecek - ancak özellikle gürültülü ölçümler ve erken aşama izleme için genellikle güçlü bir ilk savunma hattıdır. [3]

Zaman Serisi Gerçekliği: “Normal” Ne Zamana Bağlıdır ⏱️📈

Zaman serisi anormallikleri karmaşıktır çünkü asıl mesele bağlamdır: öğlen saatlerindeki bir artış beklenebilir; aynı artışın sabah 3'te olması bir şeyin yandığı anlamına gelebilir. Bu nedenle birçok pratik sistem, normalliği zamana duyarlı özellikler (gecikmeler, mevsimsel farklar, kayan pencereler) kullanarak modelliyor ve beklenen modele göre sapmaları puanlıyor. [1]

Eğer sadece tek bir kuralı hatırlayacaksanız: trafiğinizin yarısını “anormal” ilan etmeden önce temel verilerinizi (saat/gün/bölge/hizmet seviyesi) bölümlere ayırın . [1]

Değerlendirme: Nadir Olay Tuzağı 🧪

Anormallik tespiti çoğu zaman "samanlıkta iğne aramak" gibidir, bu da değerlendirmeyi garip hale getirir:

Pozitif sonuçların nadir olduğu durumlarda ROC eğrileri yanıltıcı derecede iyi görünebilir.
Hassasiyet-geri çağırma görünümleri, pozitif sınıf üzerindeki performansa odaklandıkları için dengesiz ortamlarda genellikle daha bilgilendiricidir. [4]
Operasyonel olarak, bir uyarı bütçesine de ihtiyacınız var : İnsanlar öfkelenip işi bırakmadan saatte kaç uyarıyı önceliklendirebilir? [4]

Kaydırma pencereleri üzerinden geriye dönük test yapmak, klasik hata modunu yakalamanıza yardımcı olur: “geçen ayki dağıtımda mükemmel çalışıyor…” [1]

Yorumlanabilirlik ve Temel Neden: Çözümünüzü Gösterin 🪄

Açıklama yapılmadan uyarı almak, gizemli bir kartpostal almak gibidir. Bir bakıma faydalı, ama sinir bozucu.

Yorumlanabilirlik araçları , bir anomali puanına en çok hangi özelliklerin katkıda bulunduğunu işaret ederek veya "bunun normal görünmesi için neyin değişmesi gerekir?" tarzında açıklamalar vererek yardımcı olabilir . Yorumlanabilir Makine Öğrenimi kitabı, yaygın yöntemlere (SHAP tarzı atıflar dahil) ve bunların sınırlamalarına ilişkin sağlam ve eleştirel bir kılavuzdur. [5]

Amaç sadece paydaşların rahatlığını sağlamak değil, aynı zamanda daha hızlı olay tespiti ve daha az tekrarlanan olay meydana gelmesini sağlamaktır.

Dağıtım, Sapma ve Geri Besleme Döngüleri 🚀

Modeller slaytlarda değil, işlem hatlarında yaşar.

Sık karşılaşılan bir "üretimin ilk ayı" hikayesi: dedektör çoğunlukla dağıtımları, toplu işleri ve eksik verileri işaretliyor... ki bu yine de faydalı çünkü "veri kalitesi olaylarını" "iş anormalliklerinden" ayırmanızı sağlıyor.

Pratikte:

Davranış değiştikçe sapmayı izleyin ve yeniden eğitin/yeniden kalibre edin. [1]
Sayfalama işleminin nedenini yeniden oluşturabilmeniz için puan girdilerini ve model sürümünü kaydedin . [5]
Eşik değerlerini ve segmentleri zaman içinde ayarlamak için insan geri bildirimlerini (yararlı ve gürültülü uyarılar) yakalayın . [4]

Güvenlik Açısından: Saldırı Tespit Sistemleri ve Davranışsal Analiz 🛡️

Güvenlik ekipleri genellikle anormallik fikirlerini kural tabanlı tespit ile birleştirir: "normal ana bilgisayar davranışı" için temel çizgiler, ayrıca bilinen kötü kalıplar için imzalar ve politikalar. NIST'in SP 800-94 (Son) belgesi, saldırı tespit ve önleme sistemi hususları için yaygın olarak alıntılanan bir çerçeve olmaya devam etmektedir; ayrıca 2012 tarihli "Rev. 1" taslağının hiçbir zaman nihai hale gelmediğini ve daha sonra kullanımdan kaldırıldığını da belirtmektedir. [3]

Çeviri: Makine öğrenimini faydalı olduğu yerlerde kullanın, ancak sıkıcı kuralları bir kenara atmayın; sıkıcı olmalarının nedeni işe yaramalarıdır.

Karşılaştırma Tablosu: Popüler Yöntemlere Genel Bakış 📊

Araç / Yöntem	En İyisi İçin	Pratikte neden işe yarıyor?
Sağlam / değiştirilmiş z-skorları	Basit ölçümler, hızlı temel veriler	“Yeterince iyi” ve daha az yanlış alarm gerektiğinde güçlü ilk geçiş. [3]
İzole Orman	Tablo şeklinde, karma özellikler	Sağlam varsayılan uygulama ve pratikte yaygın olarak kullanılıyor. [2]
Tek Sınıflı SVM	Kompakt “normal” bölgeler	Sınır tabanlı yenilik tespiti; ayar çok önemlidir. [2]
Yerel Aykırı Değer Faktörü	Çoklu benzeri normaller	Komşulara göre yoğunluk kontrastı yerel gariplikleri yakalar. [1]
Yeniden yapılandırma hatası (örneğin, otoenkoder tarzı)	Yüksek boyutlu desenler	Normal şartlarda eğitim yapın; büyük yeniden yapılandırma hataları sapmaları işaret edebilir. [1]

Hile kodu: Sağlam temellerle ve sıkıcı, denetimsiz bir yöntemle başlayın, ardından karmaşıklığı yalnızca kâr getirdiği yerlerde ekleyin.

Mini Kılavuz: Sıfırdan Uyarılara 🧭

"Garip" kavramını operasyonel olarak tanımlayın (gecikme, dolandırıcılık riski, işlemci aşırı kullanımı, stok riski).
Bir temel değerle başlayın (sağlam istatistikler veya bölümlere ayrılmış eşikler). [3]
İlk deneme olarak denetimsiz bir model seçin (İzolasyon Ormanı / LOF / Tek Sınıflı SVM). [2]
Uyarı bütçesiyle eşikler belirleyinve olumlu sonuçlar nadir ise PR tarzı düşünceyle değerlendirin. [4]
Her uyarının tekrarlanabilir ve hata ayıklanabilir olması için açıklamalar ve günlük kaydı ekleyin . [5]
Geri test et, gönder, öğren, yeniden kalibre et - sapma normaldir. [1]

Bunu kesinlikle bir haftada yapabilirsiniz… tabii zaman damgalarınız bantla ve umutla bir arada tutulmuyorsa. 😅

Sonuç - Çok Uzun, Okumadım🧾

Yapay zeka, "normal"in pratik bir resmini öğrenerek, sapmaları puanlayarak ve bir eşiği aşanları işaretleyerek anormallikleri tespit eder. En iyi sistemler gösterişli olmakla değil, kalibre edilmiş: bölümlenmiş temel çizgiler, uyarı bütçeleri, yorumlanabilir çıktılar ve gürültülü alarmları güvenilir bir sinyale dönüştüren bir geri bildirim döngüsü. [1]

Referanslar

Pimentel ve ark. (2014) - Yenilik tespiti üzerine bir inceleme (PDF, Oxford Üniversitesi) daha fazla oku
scikit-learn Dokümantasyonu - Yenilik ve Aykırı Değer Tespiti (daha fazla bilgi için okuyun)
NIST/SEMATECH e-El Kitabı - Aykırı Değerlerin Tespiti hakkında daha fazla bilgi edinin ve NIST CSRC - SP 800-94 (Son): Saldırı Tespit ve Önleme Sistemleri (IDPS) Kılavuzu hakkında daha fazla bilgi edinin
Saito & Rehmsmeier (2015) - Dengesiz Veri Kümelerinde İkili Sınıflandırıcıları Değerlendirirken Hassasiyet-Geri Çağırma Grafiği ROC Grafiğinden Daha Bilgilendiricidir (PLOS ONE) daha fazla oku
Molnar - Yorumlanabilir Makine Öğrenimi (web kitabı) daha fazla bilgi edinin

En Yeni Yapay Zeka Ürünlerini Resmi Yapay Zeka Asistanı Mağazasında Bulun

Hakkımızda

Bloga geri dön

Yapay Zeka Anormallikleri Nasıl Tespit Eder?

Temel Mekanikler: Başlangıç ​​Değerleri, Puanlar, Eşik Değerler 🧠

1) Gösterim (diğer adıyla: modelin gördüğü)

2) Puanlama (diğer adıyla: bu ne kadar "garip"?)

3) Eşik belirleme (diğer adıyla: zili ne zaman çalmak gerektiği)

Sonradan Yaşanacak Ağrıları Önleyen Hızlı Tanımlar 🧯

Gerçekten Kullanacağınız, Denetimsiz Güç Kaynakları 🧰

Veriler değişken olduğunda bile işe yarayan sağlam bir temel 🪓

Zaman Serisi Gerçekliği: “Normal” Ne Zamana Bağlıdır ⏱️📈

Değerlendirme: Nadir Olay Tuzağı 🧪

Yorumlanabilirlik ve Temel Neden: Çözümünüzü Gösterin 🪄

Dağıtım, Sapma ve Geri Besleme Döngüleri 🚀

Güvenlik Açısından: Saldırı Tespit Sistemleri ve Davranışsal Analiz 🛡️

Karşılaştırma Tablosu: Popüler Yöntemlere Genel Bakış 📊

Mini Kılavuz: Sıfırdan Uyarılara 🧭

Sonuç - Çok Uzun, Okumadım🧾

Referanslar

En Yeni Yapay Zeka Ürünlerini Resmi Yapay Zeka Asistanı Mağazasında Bulun

Hakkımızda

Temel Mekanikler: Başlangıç Değerleri, Puanlar, Eşik Değerler 🧠