Yapay Zekada Bilgisayar Görüşü Nedir?

Telefonunuzun kilidini yüzünüzle açtıysanız, bir fişi tarattıysanız veya bir self-checkout kamerasının avokadonuzu değerlendirip değerlendirmediğini merak ederek baktıysanız, bilgisayar görüşüyle bir şekilde karşılaşmışsınız demektir. Basitçe söylemek gerekirse, yapay zekada bilgisayar görüşü, makinelerin karar verebilecek kadar iyi görüntü ve video görmeyi ve anlamayı öğrenmesidir . Faydalı mı? Kesinlikle. Bazen şaşırtıcı mı? Evet. Ve dürüst olmak gerekirse, bazen biraz ürkütücü. En iyi haliyle, karmaşık pikselleri pratik eylemlere dönüştürür. En kötü haliyle ise tahmin yürütür ve bocalar. Gelin, konuyu daha detaylı inceleyelim.

Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:

🔗 Yapay zekâda önyargı nedir?
Yapay zekâ sistemlerinde önyargı nasıl oluşur ve bunu tespit edip azaltmanın yolları nelerdir?

🔗 Tahmine dayalı yapay zeka nedir?
Tahmine dayalı yapay zeka, trendleri ve sonuçları öngörmek için verileri nasıl kullanır?

🔗 Yapay Zeka Eğitmeni Nedir?
Yapay zeka eğitimi veren profesyonellerin sorumlulukları, becerileri ve kullandıkları araçlar.

🔗 Google Vertex AI Nedir?
Google'ın modeller oluşturmak ve dağıtmak için kullandığı birleşik yapay zeka platformuna genel bakış.

Yapay zekâda bilgisayarla görme tam olarak nedir? 📸

Yapay Zekada Bilgisayar Görüşü, bilgisayarlara görsel verileri yorumlamayı ve bunlar hakkında akıl yürütmeyi öğreten yapay zekanın bir dalıdır. Ham piksellerden yapılandırılmış anlama giden yoldur: "bu bir dur işareti", "bunlar yayalar", "kaynak kusurlu", "fatura toplamı burada". Sınıflandırma, tespit, segmentasyon, izleme, derinlik tahmini, OCR ve daha fazlasını kapsayan ve örüntü öğrenme modelleriyle bir araya getirilen görevleri içerir. Resmi alan, klasik geometriden modern derin öğrenmeye kadar uzanır ve kopyalayıp değiştirebileceğiniz pratik kılavuzlar içerir. [1]

Kısa bir anekdot: mütevazı bir 720p kameraya sahip bir paketleme hattını hayal edin. Hafif bir dedektör kapakları tespit eder ve basit bir takip cihazı, şişeyi onaylamadan önce beş ardışık karede hizalandıklarını doğrular. Şık değil ama ucuz, hızlı ve yeniden işleme ihtiyacını azaltıyor.

Yapay Zeka'da Bilgisayarlı Görüntü'yü faydalı kılan nedir? ✅

Sinyalden eyleme geçiş akışı: Görsel girdi, eyleme dönüştürülebilir bir çıktıya dönüşür. Daha az gösterge paneli, daha çok karar.
Genelleme: Doğru verilerle, tek bir model çok çeşitli görüntüleri işleyebilir. Mükemmel olmasa da, bazen şaşırtıcı derecede iyi.
Veri kullanımı: Kameralar ucuz ve her yerde. Vision, bu piksel okyanusunu bilgiye dönüştürüyor.
Hız: Modeller, göreve ve çözünürlüğe bağlı olarak, mütevazı donanımlarda kareleri gerçek zamanlı veya gerçek zamana yakın bir şekilde işleyebilir.
Birleştirilebilirlik: Basit adımları güvenilir sistemlere zincirleme: tespit → izleme → kalite kontrol.
Ekosistem: Araçlar, önceden eğitilmiş modeller, kıyaslama testleri ve topluluk desteği; geniş bir kod pazarı.

Dürüst olalım, başarının sırrı aslında sır değil: iyi veriler, disiplinli değerlendirme, dikkatli uygulama. Gerisi pratik... ve belki de kahve. ☕

Yapay zekada bilgisayarla görme işleminin nasıl çalıştığı, tek bir mantıklı işlem hattında 🧪

Görüntü yakalama:
Kameralar, tarayıcılar, dronlar, telefonlar. Sensör tipini, pozlamayı, lensi ve kare hızını dikkatlice seçin. Yanlış veri girişi vb.
Ön İşleme
Gerekiyorsa yeniden boyutlandırın, kırpın, normalleştirin, bulanıklığı giderin veya gürültüyü azaltın. Bazen küçük bir kontrast ayarı dağları yerinden oynatır. [4]
Etiketler ve veri kümeleri:
Sınır kutuları, çokgenler, kilit noktalar, metin aralıkları. Dengeli, temsili etiketler; aksi takdirde modeliniz dengesiz alışkanlıklar öğrenir.
Modelleme
- Sınıflandırma: “Hangi kategori?”
- Algılama: “Nesneler nerede?”
- Bölümleme: "Hangi pikseller hangi şeye ait?"
- Önemli noktalar ve poz: "Eklemler veya belirgin noktalar nerede?"
- OCR: "Görüntüdeki metin nedir?"
- Derinlik ve 3B: “Her şey ne kadar uzakta?”
  Mimariler çeşitlilik gösterir, ancak evrişimsel ağlar ve transformatör tarzı modeller baskındır. [1]
Eğitimde
verileri ayırın, hiperparametreleri ayarlayın, düzenleme yapın, veriyi artırın. Duvar kağıdını ezberlemeden önce erken durdurma.
Değerlendirme
OCR için mAP, IoU, F1, CER/WER gibi göreve uygun ölçütler kullanın. Seçici davranmayın. Adil bir şekilde karşılaştırın. [3]
dağıtım
optimizasyonu: bulut tabanlı toplu işler, cihaz içi çıkarım, uç sunucular. Sapmayı izleyin. Dünya değiştiğinde yeniden eğitin.

Büyük veri kümeleri ve hesaplama gücü kritik kütleye ulaştığında derin sinir ağları niteliksel bir sıçramayı hızlandırdı. ImageNet yarışması gibi kıyaslamalar bu ilerlemeyi görünür ve amansız hale getirdi. [2]

Gerçekte kullanacağınız temel görevler (ve ne zaman) 🧩

Görüntü sınıflandırması: Görüntü başına bir etiket. Hızlı filtreler, önceliklendirme veya kalite kontrolleri için kullanılır.
Nesne tespiti: Nesnelerin etrafına kutular çizme. Perakende kayıp önleme, araç tespiti, vahşi yaşam sayımı.
Örnek segmentasyonu: Nesne başına piksel hassasiyetinde silüetler. Üretim hataları, cerrahi aletler, tarım teknolojisi.
Semantik segmentasyon: Örnekleri ayırmadan piksel başına sınıf belirleme. Kentsel yol manzaraları, arazi örtüsü.
Kilit nokta tespiti ve poz belirleme: Eklemler, anatomik işaretler, yüz özellikleri. Spor analitiği, ergonomi, artırılmış gerçeklik.
Takip: Nesneleri zaman içinde izlemek. Lojistik, trafik, güvenlik.
OCR ve belge yapay zekası: Metin çıkarma ve düzen ayrıştırma. Faturalar, makbuzlar, formlar.
Derinlik ve 3B: Çoklu görüntülerden veya tek gözlü ipuçlarından yeniden yapılandırma. Robotik, artırılmış gerçeklik, haritalama.
Görsel altyazı: Sahneleri doğal dilde özetleyin. Erişilebilirlik, arama.
Görsel-dil modelleri: Çok modlu akıl yürütme, bilgi edinmeyi destekleyen görsel algılama, temellendirilmiş soru-cevap.

Küçük çaplı bir örnek: mağazalarda, bir dedektör eksik rafları işaretliyor; bir takip sistemi, personel stokları yenilerken çift sayımı önlüyor; basit bir kural, düşük güvenilirlikteki kareleri insan incelemesine yönlendiriyor. Çoğunlukla uyum içinde çalışan küçük bir orkestra gibi.

Karşılaştırma tablosu: Daha hızlı gönderim için araçlar 🧰

Bilerek biraz sıra dışı. Evet, aralıklar garip, biliyorum.

Araç / Çerçeve	En iyisi	Lisans/Fiyat	Pratikte neden işe yarıyor?
OpenCV	Ön işleme, klasik bilgisayar görüşü, hızlı prototipler	Ücretsiz - açık kaynak	Devasa araç kutusu, istikrarlı API'ler, denenmiş ve test edilmiş; bazen ihtiyacınız olan tek şey. [4]
PyTorch	Araştırmaya yönelik eğitim	Özgür	Dinamik grafikler, devasa ekosistem, çok sayıda eğitim videosu.
TensorFlow/Keras	Büyük ölçekli üretim	Özgür	Olgun kişilere yönelik sunum seçenekleri, mobil ve taşınabilir kullanım için de uygundur.
Ultralytics YOLO	Hızlı nesne algılama	Ücretsiz + ücretli eklentiler	Kolay antrenman parkuru, rekabetçi hız-doğruluk, iddialı ama rahat.
Detectron2 / MMDetedction	Güçlü temel çizgiler, segmentasyon	Özgür	Tekrarlanabilir sonuçlar veren referans kalitesinde modeller.
OpenVINO / ONNX Çalışma Zamanı	Çıkarım optimizasyonu	Özgür	Gecikmeyi azaltın, yeniden yazmaya gerek kalmadan geniş çapta dağıtın.
Tesseract	bütçeye uygun OCR	Özgür	Görüntüyü temizlerseniz fena sayılmaz... bazen gerçekten temizlemeniz gerekir.

Yapay Zekada Bilgisayar Görüşünde Kaliteyi Belirleyen Faktörler Nelerdir ? 🔧

Veri kapsamı: Aydınlatma değişiklikleri, açılar, arka planlar, uç durumlar. Olabilecek her şeyi dahil edin.
Etiket kalitesi: Tutarsız kutular veya özensiz çokgenler mAP'yi baltalar. Küçük bir kalite kontrolü bile çok işe yarar.
Akıllı artırmalar: Kırpma, döndürme, parlaklık titremesi, yapay gürültü ekleme. Gerçekçi olun, rastgele kaos değil.
Model seçimi uyumu: Algılamanın gerekli olduğu yerlerde algılama kullanın; bir sınıflandırıcıyı konumları tahmin etmeye zorlamayın.
Etkiyle eşleşen ölçütler: Yanlış negatifler daha çok zarar veriyorsa, geri çağırma oranını optimize edin. Yanlış pozitifler daha çok zarar veriyorsa, önce hassasiyeti optimize edin.
Sıkı geri bildirim döngüsü: Hataları kaydedin, yeniden etiketleyin, yeniden eğitin. Tekrarlayın. Biraz sıkıcı, ama son derece etkili.

Algılama/bölümleme için topluluk standardı, IoU eşiklerinde ortalama alınan Ortalama Hassasiyettir - diğer adıyla COCO tarzı mAP . IoU ve AP@{0.5:0.95}'in nasıl hesaplandığını bilmek, liderlik tablosu iddialarının sizi ondalık sayılarla şaşırtmasını engeller. [3]

Varsayımsal olmayan, gerçek dünya kullanım örnekleri 🌍

Perakende: Raf analizi, kayıp önleme, kuyruk takibi, planogram uyumluluğu.
Üretim: Yüzey kusurlarının tespiti, montaj doğrulaması, robot yönlendirmesi.
Sağlık Hizmetleri: Radyoloji triyajı, alet tespiti, hücre segmentasyonu.
Hareketlilik: ADAS, trafik kameraları, park doluluk oranı, mikromobilite takibi.
Tarım: Mahsul sayımı, hastalık tespiti, hasat hazırlığı.
Sigorta ve Finans: Hasar değerlendirmesi, KYC kontrolleri, dolandırıcılık uyarıları.
İnşaat ve Enerji: Güvenlik uyumluluğu, sızıntı tespiti, korozyon izleme.
İçerik ve Erişilebilirlik: Otomatik altyazılar, moderasyon, görsel arama.

Fark edeceğiniz model şu: manuel taramayı otomatik önceliklendirme ile değiştirin, güven azaldığında ise insan müdahalesine geçin. Göz alıcı değil, ama ölçeklenebilir.

Veriler, etiketler ve önemli ölçütler 📊

Sınıflandırma: Doğruluk, Dengesizlik için F1.
Algılama: IoU eşiklerinde mAP; sınıf başına AP ve boyut kovalarını inceleyin. [3]
Bölümleme: mIoU, Dice; örnek düzeyindeki hataları da kontrol edin.
Takip: MOTA, IDF1; yeniden tanımlama kalitesi sessiz kahramandır.
OCR: Karakter Hata Oranı (CER) ve Kelime Hata Oranı (WER); genellikle sayfa düzeni hataları baskındır.
Regresyon görevleri: Derinlik veya poz, mutlak/göreceli hataları (genellikle logaritmik ölçeklerde) kullanır.

Değerlendirme protokolünüzü belgeleyin ki başkaları da onu tekrarlayabilsin. Çok çekici görünmeyebilir ama dürüst kalmanızı sağlar.

İnşa etmek mi, satın almak mı ve nerede işletmek daha iyi? 🏗️

Bulut: Başlatması en kolay, toplu iş yükleri için harika. Çıkış maliyetlerine dikkat edin.
Uç cihazlar: Daha düşük gecikme süresi ve daha iyi gizlilik. Nicelleştirme, budama ve hızlandırıcılar sizin için önemli olacak.
Cihaz içi mobil: Uygun olduğunda harika. Modelleri optimize edin ve pil ömrünü takip edin.
Hibrit: Ön filtreleme uçta, ağır işler bulutta. Güzel bir uzlaşma.

Sıkıcı derecede güvenilir bir yığın: PyTorch ile prototip oluşturun, standart bir dedektör eğitin, ONNX'e aktarın, OpenVINO/ONNX Runtime ile hızlandırın ve ön işleme ve geometri (kalibrasyon, homografi, morfoloji) için OpenCV kullanın. [4]

Riskler, etik ve konuşması zor konular ⚖️

Görüntü sistemleri, veri kümesi önyargılarını veya operasyonel kör noktaları miras alabilir. Bağımsız değerlendirmeler (örneğin, NIST FRVT), algoritmalar ve koşullar arasında yüz tanıma hata oranlarında demografik farklılıklar ölçmüştür. Bu panik yapmak için bir neden değil, ancak nedendir . Kimlik veya güvenlik ile ilgili kullanım durumlarını uyguluyorsanız, insan incelemesi ve itiraz mekanizmalarını dahil edin. Gizlilik, onay ve şeffaflık isteğe bağlı ekstralar değildir. [5]

Gerçekten takip edebileceğiniz hızlı bir başlangıç yol haritası 🗺️

Sistemin bir görüntü gördükten sonra hangi eylemi gerçekleştirmesi gerektiğine dair kararı tanımlayın . Bu, gereksiz ölçütleri optimize etmenizi engeller
Basit bir veri seti oluşturun.
Gerçek ortamınızı yansıtan birkaç yüz görüntüyle başlayın. Dikkatlice etiketleyin - bu sadece siz ve üç yapışkan not olsa bile.
Bir temel model seçin.
Önceden eğitilmiş ağırlıklara sahip basit bir omurga seçin. Henüz egzotik mimarilerin peşine düşmeyin. [1]
Eğitim verin, kayıt tutun, değerlendirin.
İzleme ölçütlerini, karışıklık noktalarını ve arıza modlarını takip edin. "Garip durumlar"ı (kar, parlama, yansımalar, alışılmadık yazı tipleri) bir not defterine kaydedin.
Döngüyü sıkılaştırın.
Sert negatifler ekleyin, etiket kaymasını düzeltin, artırmaları ayarlayın ve eşikleri yeniden ayarlayın. Küçük ince ayarlar bir araya geldiğinde büyük fark yaratır. [3]
Daha sade bir sürümü dağıtın,
Quantize edin ve dışa aktarın. Gecikme/verimlilik sürelerini gerçek ortamda ölçün, oyuncak bir kıyaslama testinde değil.
İzleme ve yineleme:
Hataları toplayın, yeniden etiketleyin, yeniden eğitin. Modelinizin donup kalmaması için periyodik değerlendirmeler planlayın.

İpucu: En alaycı takım arkadaşınızın belirlediği küçük bir savunma hattını notlarla işaretleyin. Eğer o bile hata bulamazsa, muhtemelen hazırsınız demektir.

Sıkça karşılaşılan ve kaçınmak isteyeceğiniz tuzaklar 🧨

Stüdyoda çekilen temiz görüntüler üzerinde eğitim alıp, gerçek dünyada yağmur altında çekim yapmaya geçmek.
Tek bir kritik sınıfa gerçekten önem verdiğinizde genel mAP'yi optimize etmek. [3]
Sınıf dengesizliğini görmezden gelip, nadir olayların neden ortadan kaybolduğunu merak etmek.
Model yapay unsurları öğrenene kadar aşırı artırma işlemi.
Kamera kalibrasyonunu atlayıp perspektif hatalarıyla sonsuza dek mücadele etmek. [4]
Değerlendirme düzeninin birebir kopyalanmadan liderlik tablosundaki rakamlara inanmak. [2][3]

Kaydedilmesi gereken kaynaklar 🔗

Birincil kaynakları ve ders notlarını seviyorsanız, bunlar temel bilgiler, uygulama ve kıyaslama için altın değerindedir. Referanslar bölümüne bakın: CS231n notları, ImageNet yarışma makalesi, COCO veri seti/değerlendirme belgeleri, OpenCV belgeleri ve NIST FRVT raporları. [1][2][3][4][5]

Son sözler - veya Çok Uzun, Okumadım 🍃

Yapay zekâda bilgisayar görüşü, pikselleri kararlara dönüştürür. Doğru görevi doğru veriyle eşleştirdiğinizde, doğru şeyleri ölçtüğünüzde ve alışılmadık bir disiplinle yinelediğinizde parlar. Araçlar cömerttir, kıyaslama ölçütleri herkese açıktır ve prototipten üretime giden yol, nihai karara odaklanırsanız şaşırtıcı derecede kısadır. Etiketlerinizi doğru belirleyin, etkiyle eşleşen ölçütler seçin ve modellerin ağır işleri yapmasına izin verin. Ve bir metafor yardımcı olacaksa, bunu çok hızlı ama kelime anlamıyla hareket eden bir stajyere neyin önemli olduğunu bulmayı öğretmek gibi düşünün. Örnekler gösterirsiniz, hataları düzeltirsiniz ve yavaş yavaş gerçek işlerle ona güvenirsiniz. Mükemmel değil, ama dönüştürücü olmaya yetecek kadar yakın. 🌟

Referanslar

CS231n: Bilgisayar Görselleştirmesi için Derin Öğrenme (ders notları) - Stanford Üniversitesi.
daha fazla oku
ImageNet Büyük Ölçekli Görsel Tanıma Yarışması (makale) - Russakovsky ve diğerleri.
daha fazla bilgi edinin
COCO Veri Kümesi ve Değerlendirme - Resmi site (görev tanımları ve mAP/IoU kuralları).
daha fazla bilgi edinin
OpenCV Dokümantasyonu (v4.x) - Ön işleme, kalibrasyon, morfoloji vb. modüller.
Daha fazla bilgi için okuyun.
NIST FRVT Bölüm 3: Demografik Etkiler (NISTIR 8280) - Demografik özellikler genelinde yüz tanıma doğruluğunun bağımsız değerlendirmesi.
daha fazla oku

En Yeni Yapay Zeka Ürünlerini Resmi Yapay Zeka Asistanı Mağazasında Bulun

Hakkımızda

Bloga geri dön