Daha önce dizüstü bilgisayarda göz kamaştıran ancak üretimde tökezleyen bir model gönderdiyseniz, sırrı zaten biliyorsunuzdur: Yapay zeka performansının nasıl ölçüleceği tek bir sihirli ölçüt değildir. Gerçek dünya hedeflerine bağlı bir kontrol sistemidir. Doğruluk iyidir. Güvenilirlik, emniyet ve iş etkisi daha iyidir.
Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:
🔗 Yapay zeka ile nasıl konuşulur
Yapay zeka ile etkili iletişim kurarak sürekli olarak daha iyi sonuçlar elde etme rehberi.
🔗 Yapay zeka neyi teşvik ediyor?
İstemlerin yapay zeka yanıtlarını ve çıktı kalitesini nasıl şekillendirdiğini açıklar.
🔗 Yapay zeka veri etiketleme nedir?
Eğitim modelleri için verilere doğru etiketler atamanın genel görünümü.
🔗 Yapay zeka etiği nedir?
Sorumlu yapay zeka geliştirme ve dağıtımına rehberlik eden etik ilkelere giriş.
İyi bir yapay zeka performansını ne sağlar? ✅
Kısaca: İyi yapay zeka performansı, sisteminizin karmaşık ve değişken koşullar altında kullanışlı, güvenilir ve tekrarlanabilir
-
Görev kalitesi - Doğru nedenlerle doğru cevapları alır.
-
Kalibrasyon - güven puanlarınız gerçeklikle örtüşür, böylece akıllıca hareket edebilirsiniz.
-
Sağlamlık - Sürüklenme, uç durumlar ve düşmanca belirsizliklere karşı dayanıklıdır.
-
Güvenlik ve adalet - Zararlı, önyargılı veya uyumsuz davranışlardan kaçınır.
-
Verimlilik - Ölçeklenebilir bir şekilde çalıştırılabilecek kadar hızlı, ucuz ve kararlıdır.
-
İşletme etkisi - aslında önemsediğiniz KPI'yi harekete geçirir.
Metrikleri ve riskleri uyumlu hale getirmek için resmi bir referans noktası istiyorsanız, NIST AI Risk Yönetimi Çerçevesi güvenilir sistem değerlendirmesi için sağlam bir yol göstericidir. [1]

Yapay zeka performansının nasıl ölçüleceğine dair üst düzey tarif 🍳
Üç katman halinde düşünün :
-
Görev metrikleri - görev türüne göre doğruluk: sınıflandırma, regresyon, sıralama, oluşturma, kontrol, vb.
-
Sistem ölçümleri - gecikme, verimlilik, çağrı başına maliyet, arıza oranları, sapma alarmları, çalışma süresi SLA'ları.
-
Sonuç ölçümleri - gerçekten istediğiniz iş ve kullanıcı sonuçları: dönüşüm, elde tutma, güvenlik olayları, manuel inceleme yükü, bilet hacmi.
İyi bir ölçüm planı, bu üçünü bilerek birleştirir. Aksi takdirde, fırlatma rampasından asla ayrılmayan bir roket elde edersiniz.
Sorun türüne göre temel metrikler - ve hangisinin ne zaman kullanılacağı 🎯
1) Sınıflandırma
-
Kesinlik, Geri Çağırma, F1 - ilk gün üçlüsü. F1, kesinlik ve geri çağırmanın harmonik ortalamasıdır; sınıflar dengesiz olduğunda veya maliyetler asimetrik olduğunda faydalıdır. [2]
-
ROC-AUC - sınıflandırıcıların eşik değerden bağımsız sıralaması; pozitifler nadir olduğunda, PR-AUC'yi . [2]
-
Dengeli doğruluk - sınıflar arası geri çağırmanın ortalaması; çarpık etiketler için kullanışlıdır. [2]
Tuzak uyarısı: Tek başına doğruluk, dengesizlik nedeniyle son derece yanıltıcı olabilir. Kullanıcıların %99'u meşruysa, her zaman meşru olan aptal bir model %99 puan alır ve dolandırıcılık ekibinizi öğle yemeğinden önce başarısızlığa uğratır.
2) Regresyon
-
İnsan tarafından okunabilir hata için MAE büyük hataları cezalandırmak istediğinizde RMSE R² . Ardından, sağduyulu dağılımlar ve artık grafikler kullanın. [2]
(Paydaşların hatayı gerçekten hissedebilmesi için alan dostu birimler kullanın.)
3) Sıralama, geri çağırma, öneriler
-
nDCG - pozisyon ve derecelendirilmiş alaka düzeyine önem verir; arama kalitesi için standarttır.
-
MRR - ilk ilgili öğenin ne kadar hızlı göründüğüne odaklanır ("iyi bir cevap bulma" görevleri için harikadır).
(Uygulama referansları ve çözümlü örnekler, ana akım metrik kütüphanelerinde mevcuttur.) [2]
4) Metin oluşturma ve özetleme
-
BLEU ve ROUGE - klasik örtüşme metrikleri; temel değerler olarak kullanışlıdır.
-
Yerleştirmeye dayalı metrikler (örneğin, BERTScore ) genellikle insan yargısıyla daha iyi korelasyon gösterir; stil, sadakat ve güvenlik açısından her zaman insan derecelendirmeleriyle eşleştirin. [4]
5) Soru cevaplama
-
Tam Eşleşme ve belirteç düzeyinde F1 yaygındır; eğer cevapların kaynak göstermesi gerekiyorsa, aynı zamanda temeli (cevap destek kontrolleri).
Kalibrasyon, güven ve Brier lens 🎚️
Güven puanları, birçok sistemin sessizce beklediği yerdir. Operasyonların eşik değerleri, insanlara yönlendirme veya risk fiyatlandırması belirleyebilmesi için gerçekliği yansıtan olasılıklara ihtiyacınız vardır.
-
Kalibrasyon eğrileri - tahmin edilen olasılığı deneysel frekansla karşılaştırarak görselleştirin.
-
Brier puanı sadece sıralamaya değil, olasılığın kalitesine de önem verdiğinizde faydalıdır
Saha notu: Biraz daha "kötü" bir F1 ama çok daha iyi bir kalibrasyon, büyük ölçüde iyileştirebilir; çünkü insanlar sonunda puanlara güvenebilir.
Güvenlik, önyargı ve adalet - önemli olanı ölçün 🛡️⚖️
Bir sistem genel olarak doğru olabilir ve yine de belirli gruplara zarar verebilir. Gruplandırılmış metrikleri ve adalet kriterlerini takip edin:
-
Demografik eşitlik - gruplar arasında eşit pozitif oranlar.
-
Eşitlenmiş olasılıklar / Eşit fırsat - gruplar arasında eşit hata oranları veya gerçek pozitif oranlar; bunları, tek seferlik geçme-kalma damgaları olarak değil, uzlaşmaları tespit etmek ve yönetmek için kullanın. [5]
Pratik ipucu: Temel metrikleri temel özelliklerine göre ayıran panolarla başlayın, ardından politikalarınızın gerektirdiği şekilde belirli adalet metrikleri ekleyin. Kulağa karmaşık gelse de, bir olaydan daha ucuzdur.
LLM'ler ve RAG - gerçekten işe yarayan bir ölçüm kılavuzu 📚🔍
Üretken sistemleri ölçmek... tedirgin edici. Şunu yapın:
-
sonuçları tanımlayın : doğruluk, yararlılık, zararsızlık, üslup uyumu, markaya uygun ton, alıntı temeli, reddetme kalitesi.
-
Sağlam çerçevelerle (örneğin, yığınınızdaki değerlendirme araçları) temel değerlendirmeleri otomatikleştirin
-
anlamsal metrikler (gömme tabanlı) ve örtüşme metrikleri (BLEU/ROUGE) ekleyin. [4]
-
RAG'da cihaz topraklaması
-
İnsan incelemesi ile mutabakat sağlayın - değerlendiricinin tutarlılığını ölçün (örneğin, Cohen'in κ veya Fleiss'in κ) böylece etiketleriniz titreşimli olmasın.
Bonus: Günlük gecikme yüzdeleri ve görev başına jeton veya işlem maliyeti. Kimse gelecek Salı günü gelecek şiirsel bir cevabı sevmez.
Karşılaştırma tablosu - Yapay zeka performansını ölçmenize yardımcı olan araçlar 🛠️📊
(Evet, bilerek biraz dağınık bıraktım - gerçek notalar dağınıktır.)
| Alet | En iyi izleyici kitlesi | Fiyat | Neden işe yarıyor - hızlı bakış |
|---|---|---|---|
| scikit-learn ölçümleri | Makine öğrenimi uygulayıcıları | Özgür | Sınıflandırma, regresyon, sıralama için kanonik uygulamalar; testlere kolayca entegre edilebilir. [2] |
| MLflow Değerlendirme / GenAI | Veri bilimcileri, MLOps | Ücretsiz + ücretli | Merkezileştirilmiş çalışmalar, otomatik ölçümler, LLM jürileri, özel puanlayıcılar; günlük kayıtlarını temiz bir şekilde tutar. |
| Açıkça görülüyor ki | Hızlı bir şekilde panolar isteyen ekipler | OSS + bulut | 100'den fazla metrik, kayma ve kalite raporları, izleme ipuçları - sıkışık zamanlarda güzel görseller. |
| Ağırlıklar ve Sapmalar | Deney ağırlıklı kuruluşlar | Ücretsiz seviye | Yan yana karşılaştırmalar, değerlendirme veri kümeleri, yargılar; tablolar ve izler düzenli sayılır. |
| LangSmith | LLM uygulama geliştiricileri | Paralı | Her adımı takip edin, insan incelemesini kural veya LLM değerlendiricileriyle birleştirin; RAG için harika. |
| TruLens | Açık kaynaklı LLM değerlendirme severler | Açık Kaynak Kodlu (OSS) | Geri bildirim fonksiyonları toksisiteyi, sağlamlığı, alakayı puanlamak için kullanılır; her yere entegre edilebilir. |
| Büyük Umutlar | Veri kalitesine öncelik veren kuruluşlar | Açık Kaynak Kodlu (OSS) | Verilere ilişkin beklentileri resmileştirin - çünkü kötü veri her türlü metriği bozar. |
| Derin kontroller | ML için Test ve CI/CD | OSS + bulut | Veri kayması, model sorunları ve izleme için piller dahil testler; iyi korumalar. |
Fiyatlar değişir - belgeleri kontrol edin. Evet, bunları alet polisi gelmeden karıştırabilirsiniz.
Eşikler, maliyetler ve karar eğrileri - gizli sos 🧪
Garip ama gerçek bir şey: Aynı ROC-AUC'ye sahip iki model, eşik ve maliyet oranlarınıza .
Hızlıca oluşturulacak sayfa:
-
Yanlış pozitif ve yanlış negatifin maliyetini para veya zaman olarak belirleyin.
-
Tarama eşiklerini belirleyin ve 1k karar başına beklenen maliyeti hesaplayın.
-
Beklenen minimum maliyet seçin , ardından izlemeyle sabitleyin.
Pozitif sonuçlar nadir olduğunda PR eğrilerini, genel şekil için ROC eğrilerini ve kararlar olasılıklara dayandığında kalibrasyon eğrilerini kullanın. [2][3]
Mini vaka: Operasyonların sert eşikten kademeli yönlendirmeye (örneğin, "otomatik çözüm", "insan incelemesi", "yükseltme") geçişinden sonra, kalibre edilmiş puan bantlarına bağlı, mütevazı F1 ancak mükemmel kalibrasyona sahip bir destek bileti triyaj modeli.
Çevrimiçi izleme, sürüklenme ve uyarı 🚨
Çevrimdışı değerlendirmeler son değil, başlangıçtır. Üretimde:
-
Parça başına giriş kayması , çıkış kayması ve performans düşüşü
-
Koruma kontrollerini ayarlayın - maksimum halüsinasyon oranı, toksisite eşikleri, adalet deltaları.
-
P95 gecikmesi, zaman aşımları ve istek başına maliyet için Canary panoları ekleyin
-
Bunu hızlandırmak için özel olarak oluşturulmuş kütüphaneleri kullanın; bunlar anında sürüklenme, kalite ve izleme ilkellikleri sunar.
Küçük kusurlu bir metafor: Modelinizi bir ekşi maya başlangıcı gibi düşünün; sadece bir kez pişirip bırakmıyorsunuz; besliyorsunuz, izliyorsunuz, kokluyorsunuz ve bazen yeniden başlıyorsunuz.
Çökmeyen insan değerlendirmesi 🍪
İnsanlar çıktıları derecelendirirken, süreç düşündüğünüzden daha önemlidir.
-
Geçme, sınırda kalma ve başarısızlığa ilişkin örnekler içeren sıkı değerlendirme ölçütleri yazın
-
Mümkün olduğunda rastgele ve kör örneklemler kullanın.
-
Değerlendiriciler arası uyumu ölçün (örneğin, iki değerlendirici için Cohen'in κ'si, çok sayıda değerlendirici için Fleiss'in κ'si) ve uyumsuzluk varsa değerlendirme ölçütlerini yenileyin.
Bu, insan etiketlerinizin ruh halinize veya kahve arzınıza göre değişmesini önler.
Derinlemesine inceleme: RAG'da LLM'ler için yapay zeka performansı nasıl ölçülür
-
Geri alma kalitesi - recall@k, precision@k, nDCG; altın gerçeklerinin kapsamı. [2]
-
Cevap sadakati - alıntılama ve doğrulama kontrolleri, zemine uygunluk puanları, çekişmeli araştırmalar.
-
Kullanıcı memnuniyeti - beğeniler, görev tamamlama, önerilen taslaklardan düzenleme uzaklığı.
-
Güvenlik - toksisite, PII sızıntısı, politikaya uyum.
-
Maliyet ve gecikme - belirteçler, önbellek isabetleri, p95 ve p99 gecikmeleri.
Bunları ticari eylemlere bağlayın: Eğer temellilik bir çizginin altına düşerse, otomatik olarak sıkı moda veya insan incelemesine yönlendirin.
Bugün başlamak için basit bir oyun kitabı 🪄
-
İşi tanımlayın - bir cümle yazın: Yapay zeka neyi ve kimin için yapmalı.
-
2–3 görev metriği seçin - artı kalibrasyon ve en az bir adalet dilimi. [2][3][5]
-
Eşikleri maliyeti kullanarak belirleyin ; tahminde bulunmayın.
-
Üretim karışımını yansıtan 100-500 etiketli örnekten oluşan küçük bir değerlendirme seti oluşturun
-
Değerlendirmelerinizi otomatikleştirin - değerlendirme/izlemeyi CI'a bağlayın, böylece her değişiklik aynı kontrolleri çalıştırır.
-
Üretimde izleme - kayma, gecikme, maliyet, olay işaretleri.
-
Aylık olarak gözden geçirin - kimsenin kullanmadığı metrikleri azaltın; gerçek soruları yanıtlayanları ekleyin.
-
Kararları belgeleyin - ekibinizin gerçekten okuduğu canlı bir puan kartı.
Evet, tam olarak bu. Ve işe yarıyor.
Yaygın tuzaklar ve bunlardan nasıl kaçınılır 🕳️🐇
-
Tek bir metriğe aşırı uyum karar bağlamına uyan metrik sepeti kullanın
-
Kalibrasyonu göz ardı etmek - kalibrasyonsuz güven sadece böbürlenmektir. [3]
-
Segmentasyon yok - her zaman kullanıcı gruplarına, coğrafyaya, cihaza, dile göre dilimleyin. [5]
-
Tanımsız maliyetler - hataları fiyatlandırmazsanız, yanlış eşiği seçersiniz.
-
İnsan değerlendirme sapması - ölçüt uyumu, değerlendirme ölçütlerinin yenilenmesi, değerlendiricilerin yeniden eğitilmesi.
-
Güvenlik enstrümantasyonu yok - adalet, toksisite ve politika kontrollerini şimdi ekleyin, daha sonra değil. [1][5]
Aradığınız cümle: Yapay zeka performansının nasıl ölçüleceği - Çok Uzun, Okumadım 🧾
-
Net sonuçlarla başlayın , ardından görev , sistem ve iş ölçümlerini üst üste koyun. [1]
-
İş için doğru metrikleri kullanın - sınıflandırma için F1 ve ROC-AUC; sıralama için nDCG/MRR; üretim için örtüşme + anlamsal metrikler (insanlarla eşleştirilir). [2][4]
-
Olasılıklarınızı kalibre edin hatalarınızı fiyatlandırın . [2][3]
-
adalet ekleyin ve uzlaşmaları açıkça yönetin. [5]
-
Değerlendirmeleri ve izlemeyi otomatikleştirin, böylece korkmadan yineleme yapabilirsiniz.
Biliyorsunuz ya, önemli olanı ölçün, yoksa önemsiz olanı iyileştirmek zorunda kalırsınız.
Referanslar
[1] NIST. Yapay Zeka Risk Yönetimi Çerçevesi (AI RMF). daha fazla bilgi edinin.
[2] scikit-learn. Model değerlendirmesi: tahminlerin kalitesinin ölçülmesi (Kullanıcı Kılavuzu). daha fazla bilgi edinin.
[3] scikit-learn. Olasılık kalibrasyonu (kalibrasyon eğrileri, Brier puanı). daha fazla bilgi edinin
. [4] Papineni ve ark. (2002). BLEU: Makine Çevirisinin Otomatik Değerlendirilmesi için Bir Yöntem. ACL. daha fazla bilgi edinin.
[5] Hardt, Price, Srebro (2016). Gözetimli Öğrenmede Fırsat Eşitliği. NeurIPS. daha fazla bilgi edinin.