Bir dizüstü bilgisayarda göz kamaştıran ancak üretimde tökezleyen bir model geliştirdiyseniz, sırrı zaten biliyorsunuz: Yapay zeka performansını ölçmek tek bir sihirli ölçütle olmaz. Gerçek dünya hedeflerine bağlı bir kontrol sistemidir. Doğruluk güzeldir. Güvenilirlik, güvenlik ve iş etkisi daha da önemlidir.
Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:
🔗 Yapay zeka ile nasıl konuşulur
Yapay zeka ile etkili iletişim kurarak sürekli olarak daha iyi sonuçlar elde etme rehberi.
🔗 Yapay zeka neyi teşvik ediyor?
İstemlerin yapay zeka yanıtlarını ve çıktı kalitesini nasıl şekillendirdiğini açıklar.
🔗 Yapay zeka veri etiketleme nedir?
Eğitim modelleri için verilere doğru etiketler atamanın genel görünümü.
🔗 Yapay zeka etiği nedir?
Sorumlu yapay zeka geliştirme ve dağıtımına rehberlik eden etik ilkelere giriş.
İyi bir yapay zeka performansını ne sağlar? ✅
Kısaca: İyi yapay zeka performansı, sisteminizin karmaşık ve değişken koşullar altında kullanışlı, güvenilir ve tekrarlanabilir olduğu anlamına gelir. Somut olarak:
-
Görev kalitesi - Doğru nedenlerle doğru cevapları alır.
-
Kalibrasyon - güven puanlarınız gerçeklikle örtüşür, böylece akıllıca hareket edebilirsiniz.
-
Sağlamlık - Sürüklenme, uç durumlar ve düşmanca belirsizliklere karşı dayanıklıdır.
-
Güvenlik ve adalet - zararlı, önyargılı veya kurallara aykırı davranışlardan kaçınır.
-
Verimlilik - yeterince hızlı, yeterince ucuz ve büyük ölçekte çalışabilecek kadar istikrarlı.
-
İşletme etkisi - aslında önemsediğiniz KPI'yi harekete geçirir.
Metrikleri ve riskleri uyumlu hale getirmek için resmi bir referans noktası istiyorsanız, NIST AI Risk Yönetimi Çerçevesi güvenilir sistem değerlendirmesi için sağlam bir yol göstericidir. [1]

Yapay zeka performansının nasıl ölçüleceğine dair üst düzey tarif 🍳
Üç katman halinde düşünün :
-
Görev metrikleri - görev türüne göre doğruluk: sınıflandırma, regresyon, sıralama, oluşturma, kontrol, vb.
-
Sistem ölçümleri - gecikme, verimlilik, çağrı başına maliyet, arıza oranları, sapma alarmları, çalışma süresi SLA'ları.
-
Sonuç ölçümleri - gerçekten istediğiniz iş ve kullanıcı sonuçları: dönüşüm, elde tutma, güvenlik olayları, manuel inceleme yükü, bilet hacmi.
İyi bir ölçüm planı, bu üçünü bilerek birleştirir. Aksi takdirde, fırlatma rampasından asla ayrılmayan bir roket elde edersiniz.
Sorun türüne göre temel metrikler - ve hangisinin ne zaman kullanılacağı 🎯
1) Sınıflandırma
-
Kesinlik, Geri Çağırma, F1 - ilk gün üçlüsü. F1, kesinlik ve geri çağırmanın harmonik ortalamasıdır; sınıflar dengesiz olduğunda veya maliyetler asimetrik olduğunda faydalıdır. [2]
-
ROC-AUC - sınıflandırıcıların eşik değerden bağımsız sıralaması; pozitifler nadir olduğunda, PR-AUC'yi. [2]
-
Dengeli doğruluk - sınıflar arası geri çağırmanın ortalaması; çarpık etiketler için kullanışlıdır. [2]
Tuzak uyarısı: Tek başına doğruluk, dengesizlik nedeniyle son derece yanıltıcı olabilir. Kullanıcıların %99'u meşruysa, her zaman meşru olan aptal bir model %99 puan alır ve dolandırıcılık ekibinizi öğle yemeğinden önce başarısızlığa uğratır.
2) Regresyon
-
İnsan tarafından okunabilir hata için MAE ; büyük hataları cezalandırmak istediğinizde RMSE ; açıklanan varyans için R² . Ardından dağılımları ve artık grafiklerini sağlamlık kontrolünden geçirin. [2] (Paydaşların hatayı gerçekten hissedebilmesi için alan dostu birimler kullanın.)
3) Sıralama, geri çağırma, öneriler
-
nDCG - pozisyon ve derecelendirilmiş alaka düzeyine önem verir; arama kalitesi için standarttır.
-
MRR - ilk ilgili öğenin ne kadar hızlı göründüğüne odaklanır (“tek bir iyi cevap bul” görevleri için harika).
(Uygulama referansları ve çözümlü örnekler ana akım metrik kütüphanelerinde mevcuttur.) [2]
4) Metin oluşturma ve özetleme
-
BLEU ve ROUGE - klasik örtüşme metrikleri; temel değerler olarak kullanışlıdır.
-
Yerleştirmeye dayalı metrikler (örneğin, BERTScore) genellikle insan yargısıyla daha iyi korelasyon gösterir; stil, sadakat ve güvenlik açısından her zaman insan derecelendirmeleriyle eşleştirin. [4]
5) Soru cevaplama
-
Tam Eşleşme ve belirteç düzeyinde F1 yaygındır; eğer cevapların kaynak göstermesi gerekiyorsa, aynı zamanda temeli (cevap destek kontrolleri).
Kalibrasyon, güven ve Brier lens 🎚️
Güven puanları, birçok sistemin sessizce beklediği yerdir. Operasyonların eşik değerleri, insanlara yönlendirme veya risk fiyatlandırması belirleyebilmesi için gerçekliği yansıtan olasılıklara ihtiyacınız vardır.
-
Kalibrasyon eğrileri - tahmin edilen olasılığı deneysel frekansla karşılaştırarak görselleştirin.
-
Brier puanı - olasılıksal doğruluk için uygun bir puanlama kuralı; daha düşük daha iyidir. Özellikle sıralamadan ziyade olasılığın kalitesiyle ilgilendiğinizde kullanışlıdır . [3]
Alan notu: Biraz "daha kötü" bir F1 puanı ancak çok daha iyi bir kalibrasyon, büyük ölçüde iyileştirebilir; çünkü insanlar sonunda puanlara güvenebilirler.
Güvenlik, önyargı ve adalet - önemli olanı ölçün 🛡️⚖️
Bir sistem genel olarak doğru olabilir ve yine de belirli gruplara zarar verebilir. Gruplandırılmış metrikleri ve adalet kriterlerini takip edin:
-
Demografik eşitlik - gruplar arasında eşit pozitif oranlar.
-
Eşit olasılıklar / Eşit fırsat - gruplar arasında eşit hata oranları veya gerçek pozitif oranları; bunları tek seferlik geçme-kalma damgaları olarak değil, ödünleri tespit etmek ve yönetmek için kullanın. [5]
Pratik ipucu: Temel metrikleri temel özelliklerine göre ayıran panolarla başlayın, ardından politikalarınızın gerektirdiği şekilde belirli adalet metrikleri ekleyin. Kulağa karmaşık gelse de, bir olaydan daha ucuzdur.
LLM'ler ve RAG - gerçekten işe yarayan bir ölçüm kılavuzu 📚🔍
Üretken sistemleri ölçmek... tedirgin edici. Şunu yapın:
-
sonuçları tanımlayın : doğruluk, yararlılık, zararsızlık, üslup uyumu, markaya uygun ton, alıntı temeli, reddetme kalitesi.
-
Sağlam çerçevelerle (örneğin, yığınınızdaki değerlendirme araçları) temel değerlendirmeleri otomatikleştirin ve bunların sürümlerini veri kümelerinizle uyumlu tutun.
-
anlamsal metrikler (gömme tabanlı) ve örtüşme metrikleri (BLEU/ROUGE) ekleyin. [4]
-
RAG'da cihaz topraklaması : geri alma isabet oranı, bağlam hassasiyeti/hatırlama, cevap-destek örtüşmesi.
-
İnsan değerlendirmesi ve mutabakatı - değerlendirici tutarlılığını ölçün (örneğin, Cohen'in κ'sı veya Fleiss'in κ'sı), böylece etiketleriniz sadece hislere dayanmasın.
Bonus: Günlük gecikme yüzdeleri ve görev başına jeton veya işlem maliyeti. Kimse gelecek Salı günü gelecek şiirsel bir cevabı sevmez.
Karşılaştırma tablosu - Yapay zeka performansını ölçmenize yardımcı olan araçlar 🛠️📊
(Evet, bilerek biraz dağınık bıraktım - gerçek notalar dağınıktır.)
| Alet | En iyi izleyici kitlesi | Fiyat | Neden işe yarıyor - hızlı bakış |
|---|---|---|---|
| scikit-learn ölçümleri | Makine öğrenimi uygulayıcıları | Özgür | Sınıflandırma, regresyon, sıralama için kanonik uygulamalar; testlere kolayca entegre edilebilir. [2] |
| MLflow Değerlendirme / GenAI | Veri bilimcileri, MLOps | Ücretsiz + ücretli | Merkezileştirilmiş çalışmalar, otomatik ölçümler, LLM jürileri, özel puanlayıcılar; günlük kayıtlarını temiz bir şekilde tutar. |
| Açıkça görülüyor ki | Hızlı bir şekilde panolar isteyen ekipler | OSS + bulut | 100'den fazla metrik, kayma ve kalite raporları, izleme ipuçları - sıkışık zamanlarda güzel görseller. |
| Ağırlıklar ve Sapmalar | Deney ağırlıklı kuruluşlar | Ücretsiz seviye | Yan yana karşılaştırmalar, değerlendirme veri kümeleri, yargılar; tablolar ve izler düzenli sayılır. |
| LangSmith | LLM uygulama geliştiricileri | Paralı | Her adımı takip edin, insan incelemesini kural veya LLM değerlendiricileriyle birleştirin; RAG için harika. |
| TruLens | Açık kaynaklı LLM değerlendirme severler | Açık Kaynak Kodlu (OSS) | Geri bildirim fonksiyonları toksisiteyi, sağlamlığı, alakayı puanlamak için kullanılır; her yere entegre edilebilir. |
| Büyük Umutlar | Veri kalitesine öncelik veren kuruluşlar | Açık Kaynak Kodlu (OSS) | Verilere ilişkin beklentileri resmileştirin - çünkü kötü veri her türlü metriği bozar. |
| Derin kontroller | ML için Test ve CI/CD | OSS + bulut | Veri kayması, model sorunları ve izleme için piller dahil testler; iyi korumalar. |
Fiyatlar değişir - belgeleri kontrol edin. Evet, bunları alet polisi gelmeden karıştırabilirsiniz.
Eşikler, maliyetler ve karar eğrileri - gizli sos 🧪
Garip ama gerçek bir şey: Aynı ROC-AUC'ye sahip iki model, eşik ve maliyet oranlarınıza.
Hızlıca oluşturulacak sayfa:
-
Yanlış pozitif ve yanlış negatifin maliyetini para veya zaman olarak belirleyin.
-
Tarama eşiklerini belirleyin ve 1k karar başına beklenen maliyeti hesaplayın.
-
Beklenen minimum maliyet eşiğini seçin , ardından izlemeyle sabitleyin.
Pozitif sonuçlar nadir olduğunda PR eğrilerini, genel şekil için ROC eğrilerini ve kararlar olasılıklara dayandığında kalibrasyon eğrilerini kullanın. [2][3]
Mini örnek: Operasyon ekibi, katı bir eşik değerinden kademeli yönlendirmeye (örneğin, "otomatik çözümle", "insan incelemesi", "yükselt") geçtikten sonra, kalibre edilmiş puan aralıklarına bağlı olarak, mütevazı bir F1 puanına sahip ancak mükemmel kalibrasyonlu bir destek bileti önceliklendirme modeli, manuel yeniden yönlendirmeleri azalttı.
Çevrimiçi izleme, sürüklenme ve uyarı 🚨
Çevrimdışı değerlendirmeler son değil, başlangıçtır. Üretimde:
-
Parça başına giriş kayması , çıkış kayması ve performans düşüşü .
-
Koruma kontrollerini ayarlayın - maksimum halüsinasyon oranı, toksisite eşikleri, adalet deltaları.
-
P95 gecikmesi, zaman aşımları ve istek başına maliyet için Canary panoları ekleyin .
-
Bunu hızlandırmak için özel olarak oluşturulmuş kütüphaneleri kullanın; bunlar anında sürüklenme, kalite ve izleme ilkellikleri sunar.
Küçük, kusurlu bir benzetme: Modelinizi ekşi mayalı hamur mayası gibi düşünün; bir kere pişirip bırakmıyorsunuz; besliyorsunuz, izliyorsunuz, kokluyorsunuz ve bazen yeniden başlıyorsunuz.
Çökmeyen insan değerlendirmesi 🍪
İnsanlar çıktıları derecelendirirken, süreç düşündüğünüzden daha önemlidir.
-
Geçme, sınırda kalma ve başarısızlığa ilişkin örnekler içeren sıkı değerlendirme ölçütleri yazın .
-
Mümkün olduğunda rastgele ve kör örneklemler kullanın.
-
Değerlendiriciler arası uyumu ölçün (örneğin, iki değerlendirici için Cohen'in κ katsayısı, birçok değerlendirici için Fleiss'in κ katsayısı) ve uyum azalırsa değerlendirme kriterlerini güncelleyin.
Bu, insan etiketlerinizin ruh halinize veya kahve arzınıza göre değişmesini önler.
Detaylı inceleme: RAG'de LLM'ler için yapay zeka performansını nasıl ölçebiliriz ? 🧩
-
Geri alma kalitesi - recall@k, precision@k, nDCG; altın gerçeklerinin kapsamı. [2]
-
Cevap sadakati - alıntılama ve doğrulama kontrolleri, zemine uygunluk puanları, çekişmeli araştırmalar.
-
Kullanıcı memnuniyeti - beğeniler, görev tamamlama, önerilen taslaklardan düzenleme uzaklığı.
-
Güvenlik - toksisite, PII sızıntısı, politikaya uyum.
-
Maliyet ve gecikme süresi - belirteçler, önbellek isabetleri, p95 ve p99 gecikme süreleri.
Bunları ticari eylemlere bağlayın: Eğer temellilik bir çizginin altına düşerse, otomatik olarak sıkı moda veya insan incelemesine yönlendirin.
Bugün başlamak için basit bir oyun kitabı 🪄
-
İşi tanımlayın - bir cümle yazın: Yapay zeka neyi ve kimin için yapmalı.
-
2-3 görev ölçütü seçin - artı kalibrasyon ve en az bir adalet dilimi. [2][3][5]
-
Eşik değerlerini maliyete göre belirleyin , tahmin yürütmeyin.
-
Üretim karışımını yansıtan 100-500 etiketli örnekten oluşan küçük bir değerlendirme seti oluşturun
-
Değerlendirmelerinizi otomatikleştirin - değerlendirme/izlemeyi CI'a bağlayın, böylece her değişiklik aynı kontrolleri çalıştırır.
-
Üretimde izleme - kayma, gecikme, maliyet, olay işaretleri.
-
Aylık olarak gözden geçirin - kimsenin kullanmadığı metrikleri azaltın; gerçek soruları yanıtlayanları ekleyin.
-
Kararları belgeleyin - ekibinizin gerçekten okuduğu canlı bir puan kartı.
Evet, tam olarak bu. Ve işe yarıyor.
Yaygın tuzaklar ve bunlardan nasıl kaçınılır 🕳️🐇
-
Tek bir metriğe aşırı uyum - karar bağlamına uyan bir metrik sepeti kullanın . [1][2]
-
Kalibrasyonu göz ardı etmek - kalibrasyonsuz güven sadece böbürlenmektir. [3]
-
Segmentasyon yok - her zaman kullanıcı gruplarına, coğrafyaya, cihaza, dile göre dilimleyin. [5]
-
Tanımlanmamış maliyetler - hataları fiyatlandırmazsanız, yanlış eşik değerini seçersiniz.
-
İnsan değerlendirme sapması - ölçüt uyumu, değerlendirme ölçütlerinin yenilenmesi, değerlendiricilerin yeniden eğitilmesi.
-
Güvenlik enstrümantasyonu yok - adalet, toksisite ve politika kontrollerini şimdi ekleyin, daha sonra değil. [1][5]
Aradığınız cümle: Yapay zeka performansının nasıl ölçüleceği - Çok Uzun, Okumadım 🧾
-
Net sonuçlarla başlayın , ardından görev , sistem ve iş ölçümlerini üst üste koyun. [1]
-
İş için doğru metrikleri kullanın - sınıflandırma için F1 ve ROC-AUC; sıralama için nDCG/MRR; üretim için örtüşme + anlamsal metrikler (insanlarla eşleştirilir). [2][4]
-
Olasılıklarınızı kalibre edin ve eşikleri seçmek için hatalarınızı fiyatlandırın . [2][3]
-
Grup dilimleriyle adalet kontrolleri ekleyin ve uzlaşmaları açıkça yönetin. [5]
-
Değerlendirmeleri ve izlemeyi otomatikleştirin, böylece korkmadan yineleme yapabilirsiniz.
Biliyorsunuz ya, önemli olanı ölçün, yoksa önemsiz olanı iyileştirmek zorunda kalırsınız.
Referanslar
[1] NIST. Yapay Zeka Risk Yönetimi Çerçevesi (AI RMF). daha fazla bilgi
[2] scikit-learn. Model değerlendirmesi: tahminlerin kalitesinin ölçülmesi (Kullanıcı Kılavuzu). daha fazla bilgi
[3] scikit-learn. Olasılık kalibrasyonu (kalibrasyon eğrileri, Brier skoru). daha fazla bilgi
[4] Papineni vd. (2002). BLEU: Makine Çevirisinin Otomatik Değerlendirilmesi için Bir Yöntem. ACL. daha fazla bilgi
[5] Hardt, Price, Srebro (2016). Denetimli Öğrenmede Fırsat Eşitliği. NeurIPS. daha fazla bilgi