Yapay Zeka Ön İşleme Nedir?

Yapay Zeka Ön İşleme Nedir?

Kısa cevap: Yapay zeka ön işleme, ham, yüksek varyanslı verileri tutarlı model girdilerine dönüştüren, tekrarlanabilir bir dizi adımdır; temizleme, kodlama, ölçeklendirme, tokenleştirme ve görüntü dönüşümlerini içerir. Bu önemlidir çünkü eğitim girdileri ve üretim girdileri farklıysa, modeller sessizce başarısız olabilir. Bir adım parametreleri "öğreniyorsa", sızıntıyı önlemek için yalnızca eğitim verileri üzerinde uygulayın.

Yapay zeka ön işleme, bir modelin ondan gerçekten öğrenmesi için eğitim veya çıkarım öncesinde (ve bazen sırasında) ham verilere yaptığınız her şeydir. Sadece "temizleme" değil. Verileri temizleme, şekillendirme, ölçeklendirme, kodlama, artırma ve daha sonra modelinizi sessizce tökezletmeyecek tutarlı bir temsile paketleme. [1]

Önemli noktalar:

Tanım : Ön işleme, ham tabloları, metinleri, görüntüleri ve günlükleri modele hazır özelliklere dönüştürür.

Tutarlılık : Uyumsuzluk hatalarını önlemek için eğitim ve çıkarım sırasında aynı dönüşümleri uygulayın.

Sızıntı : Ölçekleyicileri, kodlayıcıları ve belirteçleyicileri yalnızca eğitim verileri üzerinde uygulayın.

Tekrarlanabilirlik : Rastgele oluşturulmuş not defteri hücre dizileri yerine, incelenebilir istatistiklere sahip işlem hatları oluşturun.

Üretim takibi : Girişlerin performansı kademeli olarak aşındırmasını önlemek için sapmaları ve kaymaları izleyin.

Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:

🔗 Yapay zekâ modellerinin gerçek dünya performansı nasıl test edilir?
Doğruluk, sağlamlık ve sapmayı hızlı bir şekilde değerlendirmek için pratik yöntemler.

🔗 Metinden sese dönüştürme yapay zeka mıdır ve nasıl çalışır?
Metinden sese dönüştürmenin temellerini, başlıca kullanım alanlarını ve günümüzdeki yaygın sınırlamalarını açıklar.

🔗 Yapay zeka bugün el yazısını doğru bir şekilde okuyabilir mi?
Tanıma zorluklarını, en iyi araçları ve doğruluk ipuçlarını kapsar.

🔗 Yapay zekâ, yaygın görevlerde ne kadar doğru performans gösteriyor?
Doğruluk faktörlerini, kıyaslama ölçütlerini ve gerçek dünya güvenilirliğini ayrıntılı olarak inceler.


Yapay zeka ön işleme süreci, sade bir dille (ve ne olmadığıyla) anlatılıyor 🤝

Yapay zeka ön işleme, ham girdilerin (tablolar, metinler, resimler, kayıtlar) modele hazır özelliklere dönüştürülmesidir. Ham veriler dağınık bir garaj ise, ön işleme, kutuları etiketlemek, kırık eşyaları atmak ve eşyaları rahatça içinden geçebileceğiniz şekilde istiflemektir.

Önemli olan modelin kendisi değil, modeli mümkün kılan unsurlardır:

  • kategorileri sayılara dönüştürmek (tek sıcak, sıralı, vb.) [1]

  • Büyük sayısal aralıkları makul aralıklara ölçeklendirme (standartlaştırma, minimum-maksimum, vb.) [1]

  • Metni girdi kimliklerine (ve genellikle bir dikkat maskesine) dönüştürme [3]

  • Görüntülerin yeniden boyutlandırılması/kırpılması ve uygun şekilde deterministik ve rastgele dönüşümlerin uygulanması [4]

  • Eğitim ve “gerçek hayat” girdilerinin ince şekillerde birbirinden ayrılmaması için tekrarlanabilir işlem hatları oluşturmak [2]

Küçük bir pratik not: "Ön işleme", modelin girdiyi görmesinden önce sürekli olarak gerçekleşen her şeyi . Bazı ekipler bunu "özellik mühendisliği" ve "veri temizleme" olarak ayırır, ancak gerçek hayatta bu çizgiler bulanıklaşır.

 

Yapay Zeka Ön İşleme

Yapay zekâ ön işlemesinin insanların sandığından daha önemli olmasının nedenleri 😬

Bir model, zihin okuyucu değil, kalıpları eşleştiren bir araçtır. Girdileriniz tutarsızsa, model tutarsız kurallar öğrenir. Bu felsefi bir yaklaşım değil, acı verici derecede somut bir gerçektir.

Ön işleme size şu konularda yardımcı olur:

  • Özellikleri, tahmincilerin güvenilir bir şekilde kullanabileceği temsiller içine yerleştirerek öğrenme istikrarını iyileştirin

  • Gerçekliğin karmaşık yapısını, modelin genelleme yapabileceği bir şeye dönüştürerek (garip unsurları ezberlemek yerine) gürültüyü azaltın

  • sessiz arıza modlarını önleyin (doğrulama aşamasında "muhteşem" görünen ancak üretimde fiyaskoyla sonuçlanan türden). [2]

  • Tekrarlanabilir dönüşümler, karmaşık kod yığınına her zaman üstün geldiği için yineleme hızını artırın

Ayrıca, "model performansının" büyük bir kısmı da aslında buradan geliyor. Şaşırtıcı derecede büyük bir kısmı. Bazen haksızlık gibi geliyor ama gerçek bu 🙃


İyi bir yapay zeka ön işleme hattını ne oluşturur? ✅

İyi bir ön işleme yöntemi genellikle şu özelliklere sahiptir:

  • Tekrarlanabilir : aynı girdi → aynı çıktı (kasıtlı bir artırma olmadığı sürece gizemli rastgelelik yok).

  • Eğitim-hizmet tutarlılığı : Eğitim sırasında yaptığınız her şey çıkarım sırasında da aynı şekilde uygulanır (aynı uyarlanmış parametreler, aynı kategori haritaları, aynı belirteçleyici yapılandırması, vb.). [2]

  • Sızıntıya karşı güvenli : değerlendirme/test aşamasındaki hiçbir şey herhangi bir uyum adımını etkilemez. (Bu tuzak hakkında birazdan daha fazla bilgi vereceğiz.) [2]

  • Gözlemlenebilir : Değişenleri (özellik istatistikleri, eksiklikler, kategori sayıları) inceleyebilirsiniz, bu nedenle hata ayıklama, sezgisel bir mühendislik değildir.

final_v7_really_final_ok adında bir yığın not defteri hücresi ise ... nasıl olduğunu biliyorsunuzdur. Çalışır, ta ki çalışmayı bırakana kadar 😬


Yapay zeka ön işlemenin temel yapı taşları 🧱

Ön işlemeyi, bir araya getirip bir işlem hattı oluşturduğunuz bir dizi yapı taşı olarak düşünün.

1) Temizlik ve doğrulama 🧼

Tipik görevler:

  • Yinelenenleri kaldır

  • Eksik değerleri ele alma (silme, eksik değerleri tamamlama veya eksikliği açıkça belirtme)

  • türleri, birimleri ve aralıkları zorunlu kıl

  • hatalı girdileri tespit et

  • Metin formatlarını standartlaştırmak (boşluk, büyük/küçük harf kuralları, Unicode'un incelikleri)

Bu kısım pek göz alıcı değil, ama son derece aptalca hataları önlüyor. Bunu sevgiyle söylüyorum.

2) Kategorik verilerin kodlanması 🔤

"red" veya "premium_user" gibi ham metin dizelerini doğrudan kullanamaz .

Yaygın yaklaşımlar:

  • Tekil kodlama (kategori → ikili sütunlar) [1]

  • Sıralı kodlama (kategori → tamsayı kimliği) [1]

Önemli olan hangi kodlayıcıyı seçtiğiniz değil, eşlemenin tutarlı kalması ve eğitim ile çıkarım arasında "şekil değiştirmemesi"dir. Bu şekilde çevrimdışı iyi görünen ve çevrimiçi olarak hayalet gibi davranan bir model elde edersiniz. [2]

3) Özellik ölçeklendirme ve normalleştirme 📏

Özellikler birbirinden çok farklı aralıklarda yer aldığında ölçeklendirme önem kazanır.

İki klasik:

  • Standardizasyon : ortalamayı kaldırın ve birim varyansa göre ölçeklendirin [1]

  • Min-max ölçeklendirme : her özelliği belirtilen bir aralığa ölçeklendirmek [1]

"Genellikle idare eden" modeller kullanıyor olsanız bile, ölçeklendirme genellikle işlem hatlarını anlamayı kolaylaştırır ve kazara bozulmasını zorlaştırır.

4) Özellik mühendisliği (diğer adıyla kullanışlı hile) 🧪

Modelin işini kolaylaştırmak için daha iyi sinyaller oluşturmanız gereken yer burasıdır:

  • Oranlar (tıklamalar / gösterimler)

  • kayan pencereler (son N gün)

  • sayımlar (kullanıcı başına olay sayısı)

  • Ağır kuyruklu dağılımlar için logaritma dönüşümleri

Burada bir sanat var. Bazen bir özellik yaratırsınız, gurur duyarsınız... ama hiçbir işe yaramaz. Ya da daha kötüsü, canınızı yakar. Bu normal. Özelliklere duygusal olarak bağlanmayın - onlar size karşılık vermezler 😅

5) Verileri doğru şekilde bölmek ✂️

Bu, çok açık bir şey gibi görünse de aslında öyle değil:

  • bağımsız ve özdeş dağılımlı veriler için rastgele bölmeler

  • zaman serileri için zamana dayalı bölmeler

  • Varlıklar tekrarlandığında gruplandırılmış bölmeler (kullanıcılar, cihazlar, hastalar)

Ve en önemlisi: Verilerden öğrenen ön işlemeyi uygulamadan önce bölme işlemi yapın . Ön işleme adımınız parametreleri (ortalamalar, sözlükler, kategori haritaları gibi) "öğreniyorsa", bunları yalnızca eğitimden öğrenmelidir. [2]


Veri türüne göre yapay zeka ön işleme: tablo, metin, resimler 🎛️

Ön işleme, modele verdiğiniz verilere bağlı olarak şekil değiştirir.

Tablo halindeki veriler (elektronik tablolar, kayıtlar, veritabanları) 📊

Ortak adımlar:

  • eksik değer stratejisi

  • kategorik kodlama [1]

  • sayısal sütunların ölçeklendirilmesi [1]

  • Aykırı değerlerin ele alınması (alan kuralları çoğu zaman "rastgele kırpma" yönteminden daha iyidir)

  • türetilmiş özellikler (toplamalar, gecikmeler, kayan istatistikler)

Pratik tavsiye: Sütun gruplarını açıkça tanımlayın (sayısal, kategorik veya tanımlayıcılar). Gelecekteki haliniz size teşekkür edecek.

Metin verileri (NLP) 📝

Metin ön işleme genellikle şunları içerir:

  • belirteçlere/alt kelimelere ayırma

  • giriş kimliklerine dönüştürme

  • dolgu/kısaltma

  • dikkat maskeleri oluşturma [3]

Küçük bir kural, sıkıntıdan kurtarır: Transformer tabanlı kurulumlar için, modelin beklenen tokenleştirici ayarlarını takip edin ve bir nedeniniz yoksa serbest stil kullanmayın. Serbest stil kullanmak, "eğitim çalışıyor ama garip" sonuçlarına yol açar

Görüntüler (bilgisayar görüşü) 🖼️

Tipik ön işleme:

  • Tutarlı şekiller elde etmek için yeniden boyutlandırın / kırpın

  • değerlendirme için deterministik dönüşümler

  • Eğitim artırma için rastgele dönüşümler (örneğin, rastgele kırpma) [4]

İnsanların gözden kaçırdığı bir ayrıntı: “rastgele dönüşümler” sadece bir his değil; her çağrıldıklarında parametreleri kelimenin tam anlamıyla örnekliyorlar. Eğitim çeşitliliği için harika, rastgeleliği kapatmayı unutursanız değerlendirme için berbat. [4]


Herkesin düştüğü tuzak: veri sızıntısı 🕳️🐍

Veri sızıntısı, değerlendirme verilerinden gelen bilgilerin, genellikle ön işleme yoluyla, eğitim verilerine sızmasıdır. Bu durum, modelinizin doğrulama sırasında harika görünmesini sağlayabilir, ancak gerçek dünyada sizi hayal kırıklığına uğratabilir.

Sık rastlanan sızıntı modelleri:

  • (Sadece eğitim yerine) tam veri seti istatistiklerini kullanarak ölçeklendirme [2]

  • Eğitim ve testin birlikte kullanılmasıyla kategori haritalarının oluşturulması [2]

  • test setini “gören” herhangi bir fit() veya fit_transform()

Pratik kural (basit, acımasız, etkili):

  • Üzerinde " fit step" yazan her şey sadece antrenman sırasında kullanılmalıdır.

  • Ardından, uygun dönüştürücüyü kullanarak doğrulama/testi dönüştürürsünüz. [2 ]

Ve eğer "ne kadar kötü olabilir ki?" diye bir sezgi testi yapmak isterseniz: scikit-learn'ün kendi dokümanları, yanlış ön işleme sırasının rastgele hedeflerde 0,76 0,5'e . Sızıntının ne kadar ikna edici derecede yanlış görünebileceği işte böyle. [2]


Üretim öncesi işlemleri karmaşa yaratmadan devreye almak 🏗️

Üretimde birçok modelin başarısız olmasının nedeni modelin "kötü" olması değil, girdi gerçekliğinin değişmesi veya işlem hattınızın değişmesidir.

Üretim odaklı ön işleme genellikle şunları içerir:

  • Kaydedilen yapılar (kodlayıcı eşlemeleri, ölçekleyici parametreleri, belirteçleyici yapılandırması) çıkarımın tam olarak aynı öğrenilen dönüşümleri kullanmasını sağlar [2]

  • Kesin girdi sözleşmeleri (beklenen sütunlar/türler/aralıklar)

  • Üretim verilerinin göstereceği için çarpıklık ve kaymanın izlenmesi [5]

Somut tanımlar istiyorsanız: Google'ın Vertex AI Model İzleme özelliği, eğitim-hizmet çarpıklığını (üretim dağılımının eğitimden sapması) ve çıkarım kaymasını (üretim dağılımının zaman içinde değişmesi) birbirinden ayırır ve hem kategorik hem de sayısal özellikler için izlemeyi destekler. [5]

Çünkü sürprizler pahalıdır. Hem de eğlenceli olanlardan değil.


Karşılaştırma tablosu: yaygın ön işleme ve izleme araçları (ve kimler için oldukları) 🧰

Araç / kütüphane En iyisi Fiyat İşe yaramasının nedenleri (ve biraz da dürüstlük)
scikit-learn ön işleme Tablosal ML işlem hatları Özgür Katı kodlayıcılar + ölçekleyiciler (OneHotEncoder, StandardScaler, vb.) ve öngörülebilir davranış [1]
Sarılma Yüzü belirteçleyicileri NLP girdi hazırlığı Özgür Çalıştırmalar/modeller arasında tutarlı bir şekilde girdi kimlikleri + dikkat maskeleri üretir [3]
torchvision dönüşüm geçiriyor Vizyon dönüşümü + geliştirme Özgür Deterministik ve rastgele dönüşümleri tek bir işlem hattında karıştırmanın temiz yolu [4]
Vertex Yapay Zeka Model İzleme Üretim ortamında kayma/eğiklik tespiti Ücretli (bulut) Monitörler, eşiklerin aşılması durumunda sapma/kayma özelliğine sahiptir ve uyarı verir [5]

(Evet, masada hala fikirler var. Ama en azından dürüst fikirler bunlar 😅)


Gerçekten kullanabileceğiniz pratik bir ön işleme kontrol listesi 📌

Eğitimden önce

  • Giriş şemasını tanımlayın (türler, birimler, izin verilen aralıklar)

  • Eksik değerleri ve yinelenen kayıtları denetleyin

  • Verileri doğru şekilde ayırın (rastgele / zamana dayalı / gruplandırılmış)

  • Sadece eğitim üzerinde ön işlemeyi uygulayın ( fit / fit_transform train üzerinde kalır) [2]

  • Ön işleme yapıtlarını kaydedin, böylece çıkarım bunları yeniden kullanabilir [2]

Eğitim sırasında

  • Rastgele artırmayı yalnızca uygun yerlerde uygulayın (genellikle yalnızca eğitim bölümünde) [4]

  • Değerlendirme ön işlemesini belirleyici tutun [4]

  • Ön işleme değişikliklerini model değişiklikleri gibi takip edin (çünkü öyledirler)

Dağıtımdan önce

  • Çıkarımın aynı ön işleme yolunu ve yapıtları kullandığından emin olun [2]

  • Kayma/eğiklik izlemeyi kurun (temel özellik dağılımı kontrolleri bile çok işe yarar) [5]


Detaylı inceleme: Sık yapılan ön işleme hataları (ve bunlardan nasıl kaçınılır) 🧯

Hata 1: "Her şeyi hemen normale döndüreyim" 😵

Ölçekleme parametrelerini tüm veri kümesi üzerinde hesaplarsanız, değerlendirme bilgilerini sızdırırsınız. Eğitime göre uyum sağlayın, geri kalanını dönüştürün. [2]

Hata 2: Kategoriler kaosa sürükleniyor 🧩

Eğer kategori eşleştirmeleriniz eğitim ve çıkarım arasında değişirse, modeliniz dünyayı sessizce yanlış okuyabilir. Kaydedilen yapılar aracılığıyla eşleştirmeleri sabit tutun. [2]

Hata 3: Değerlendirmeye sızan rastgele veri artırma 🎲

Rastgele dönüşümler eğitimde harikadır, ancak performansı ölçmeye çalışırken "gizlice açık" olmamalıdırlar. (Rastgele demek rastgele demektir.) [4]


Son Sözler 🧠✨

Yapay zeka ön işleme, karmaşık gerçekliği tutarlı model girdilerine dönüştürmenin disiplinli sanatıdır. Temizleme, kodlama, ölçeklendirme, belirteçleme, görüntü dönüşümleri ve en önemlisi tekrarlanabilir işlem hatları ve çıktıları kapsar.

  • Ön işlemeyi rastgele değil, bilinçli olarak yapın. [2]

  • Önce bölün, sadece eğitimde dönüşümleri uygulayın, sızıntıyı önleyin. [2]

  • Modaliteye uygun ön işlemeyi kullanın (metin için belirteçleyiciler, görüntüler için dönüşümler). [3][4]

  • Modelinizin yavaş yavaş anlamsızlığa doğru kaymaması için üretim sapmasını/kaymasını izleyin. [5]

Ve eğer bir yerde takılıp kalırsanız, kendinize şunu sorun:
"Bu ön işleme adımı, yarın yepyeni veriler üzerinde çalıştırsam yine de mantıklı olur mu?"
Cevap "hımm... belki?" ise, işte ipucu bu 😬


SSS

Basitçe anlatmak gerekirse, yapay zeka ön işleme nedir?

Yapay zeka ön işleme, gürültülü ve yüksek varyanslı ham verileri, bir modelin öğrenebileceği tutarlı girdilere dönüştüren tekrarlanabilir bir dizi adımdır. Temizleme, doğrulama, kategori kodlama, sayısal değerleri ölçeklendirme, metin tokenizasyonu ve görüntü dönüşümleri uygulama gibi işlemleri içerebilir. Amaç, eğitim ve üretim çıkarımının "aynı türden" girdi görmesini sağlamak ve böylece modelin daha sonra öngörülemeyen davranışlara kaymasını önlemektir.

Üretimde yapay zeka ön işlemesi neden bu kadar önemli?

Ön işleme önemlidir çünkü modeller girdi gösterimine duyarlıdır. Eğitim verileri üretim verilerinden farklı şekilde ölçeklendirilmiş, kodlanmış, belirteçlere ayrılmış veya dönüştürülmüşse, çevrimdışı sorunsuz görünen ancak çevrimiçi olarak sessizce başarısız olan eğitim/sunucu uyumsuzluk hataları elde edebilirsiniz. Güçlü ön işleme süreçleri ayrıca gürültüyü azaltır, öğrenme istikrarını artırır ve karmaşık kod yığınını çözmekle uğraşmadığınız için yineleme hızını artırır.

Ön işleme sırasında veri sızıntısını nasıl önleyebilirim?

Basit bir kural işe yarar: uyum adımı içeren her şey yalnızca eğitim verileri üzerinde uyumlandırılmalıdır. Buna, ortalamalar, kategori haritaları veya sözlükler gibi parametreleri öğrenen ölçekleyiciler, kodlayıcılar ve belirteçleyiciler dahildir. Önce bölme işlemini yaparsınız, eğitim verisi üzerinde uyumlandırma işlemini gerçekleştirirsiniz, ardından uyumlandırılmış dönüştürücüyü kullanarak doğrulama/test verilerini dönüştürürsünüz. Sızıntı, doğrulamanın "sihirli bir şekilde" iyi görünmesini sağlayabilir ve ardından üretim kullanımında çökmesine neden olabilir.

Tablo halindeki veriler için en yaygın ön işleme adımları nelerdir?

Tablo halindeki veriler için, olağan işlem hattı temizleme ve doğrulama (türler, aralıklar, eksik değerler), kategorik kodlama (one-hot veya ordinal) ve sayısal ölçeklendirme (standardizasyon veya min-max) işlemlerini içerir. Birçok işlem hattı, oranlar, kayan pencereler veya sayımlar gibi alan odaklı özellik mühendisliği ekler. Pratik bir alışkanlık, dönüşümlerinizin tutarlı kalması için sütun gruplarını (sayısal, kategorik veya tanımlayıcılar) açıkça tanımlamaktır.

Metin modelleri için ön işleme nasıl çalışır?

Metin ön işleme genellikle belirteçlere/alt kelimelere ayırma, bunları girdi kimliklerine dönüştürme ve toplu işleme için dolgu/kırpma işlemlerini içerir. Birçok dönüştürücü iş akışı, kimliklerin yanı sıra bir dikkat maskesi de oluşturur. Yaygın bir yaklaşım, modelin beklenen belirteçleyici yapılandırmasını kullanmaktır, çünkü belirteçleyici ayarlarındaki küçük farklılıklar "eğitim gerçekleşiyor ancak tahmin edilemez şekilde davranıyor" sonuçlarına yol açabilir.

Makine öğrenimi için görüntülerin ön işlenmesinde farklı olan nedir?

Görüntü ön işleme genellikle tutarlı şekiller ve piksel işleme sağlar: yeniden boyutlandırma/kırpma, normalleştirme ve deterministik ve rastgele dönüşümler arasında net bir ayrım. Değerlendirme için, metriklerin karşılaştırılabilir olması için dönüşümler deterministik olmalıdır. Eğitim için, rastgele artırma (rastgele kırpma gibi) sağlamlığı artırabilir, ancak rastgelelik kasıtlı olarak eğitim bölümüne özgü olmalı, değerlendirme sırasında yanlışlıkla açık bırakılmamalıdır.

Bir ön işleme hattını kırılgan değil de "iyi" yapan nedir?

İyi bir yapay zeka ön işleme hattı tekrarlanabilir, sızıntıya karşı güvenli ve gözlemlenebilir olmalıdır. Tekrarlanabilir olması, rastgelelik kasıtlı bir artırma olmadığı sürece aynı girdinin aynı çıktıyı üretmesi anlamına gelir. Sızıntıya karşı güvenli olması, uyum adımlarının doğrulama/test aşamalarına asla dokunmaması anlamına gelir. Gözlemlenebilir olması, eksiklik, kategori sayıları ve özellik dağılımları gibi istatistikleri inceleyebilmeniz ve böylece hata ayıklamanın sezgisel değil, kanıtlara dayalı olması anlamına gelir. İşlem hatları, her zaman rastgele oluşturulmuş not defteri dizilerinden daha iyidir.

Eğitim ve çıkarım ön işleme süreçlerini nasıl tutarlı tutabilirim?

Önemli olan, çıkarım zamanında tam olarak aynı öğrenilmiş unsurları yeniden kullanmaktır: ölçekleyici parametreleri, kodlayıcı eşlemeleri ve belirteçleyici yapılandırmaları. Ayrıca, üretim verilerinin sessizce geçersiz şekillere kaymasını önlemek için bir girdi sözleşmesine (beklenen sütunlar, türler ve aralıklar) ihtiyacınız vardır. Tutarlılık sadece "aynı adımları yap" demek değildir; "aynı adımları aynı uyarlanmış parametreler ve eşlemelerle yap" demektir

Ön işleme sırasında oluşan kayma ve çarpıklık gibi sorunları zaman içinde nasıl izleyebilirim?

Sağlam bir veri işleme hattına sahip olsanız bile, üretim verileri değişir. Yaygın bir yaklaşım, özellik dağılımındaki değişiklikleri izlemek ve eğitim-hizmet sapması (üretimin eğitimden sapması) ve çıkarım kayması (üretimin zaman içinde değişmesi) konusunda uyarı vermektir. İzleme, hafif (temel dağılım kontrolleri) veya yönetilebilir (Vertex AI Model İzleme gibi) olabilir. Amaç, girdi kaymalarını erken yakalamaktır - model performansını yavaş yavaş aşındırmadan önce.

Referanslar

[1] scikit-learn API:
sklearn.preprocessing (kodlayıcılar, ölçekleyiciler, normalleştirme) [2] scikit-learn: Yaygın tuzaklar - Veri sızıntısı ve nasıl önlenir
[3] Hugging Face Transformers belgeleri: Tokenleştiriciler (giriş kimlikleri, dikkat maskeleri)
[4] PyTorch Torchvision belgeleri: Dönüşümler (Yeniden boyutlandırma/Normalleştirme + rastgele dönüşümler)
[5] Google Cloud Vertex AI belgeleri: Model İzleme genel bakışı (özellik çarpıklığı ve kayması)

En Yeni Yapay Zeka Ürünlerini Resmi Yapay Zeka Asistanı Mağazasında Bulun

Hakkımızda

Bloga geri dön