Kısa cevap: Yapay zekâ destekli çözünürlük artırma, düşük ve yüksek çözünürlüklü eşleştirilmiş görüntüler üzerinde bir model eğiterek ve ardından bu modeli çözünürlük artırma sırasında inandırıcı ek pikselleri tahmin etmek için kullanarak çalışır. Model, eğitim sırasında benzer dokular veya yüzler görmüşse, ikna edici ayrıntılar ekleyebilir; aksi takdirde, haleler, mumsu cilt veya videoda titreme gibi yapaylıklar "yanıltabilir".
Önemli noktalar:
Tahmin: Model, gerçekliğin kesin bir kopyasını değil, makul ayrıntılar üretir.
Model seçimi: CNN'ler daha istikrarlı olma eğilimindedir; GAN'lar daha keskin görünebilir ancak özellik uydurma riski taşır.
Görsel kusurları kontrol edin: Haleler, tekrarlanan dokular, "neredeyse harfler" ve plastik görünümlü yüzeylere dikkat edin.
Video kararlılığı: Zamansal yöntemler kullanın, aksi takdirde kareler arasında titreme ve kayma göreceksiniz.
Yüksek riskli kullanım: Doğruluk önemliyse, işlemeyi açıklayın ve sonuçları örnek niteliğinde değerlendirin.

Muhtemelen görmüşsünüzdür: minicik, bulanık bir görüntü, baskıya, yayına veya sunuma rahatlıkla eklenebilecek kadar net bir şeye dönüşüyor. Sanki hile yapıyormuşsunuz gibi geliyor. Ve - en iyi anlamda - bir bakıma öyle de 😅
Yani, yapay zekâ destekli görüntü yükseltme işleminin çalışma prensibi, "bilgisayar detayları iyileştirir" (genel geçer bir ifade) demekten çok daha spesifik bir şeye, "bir modelin birçok örnekten öğrendiği kalıplara dayanarak olası yüksek çözünürlüklü yapıyı tahmin etmesine" (Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma) dayanıyor. Bu tahmin adımı tüm oyunun özü ve yapay zekâ destekli görüntü yükseltmenin çarpıcı görünmesinin, biraz yapay görünmesinin veya kedinizin fazladan bıyık çıkarmış gibi görünmesinin nedeni de bu.
Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:
🔗 Yapay zekâ nasıl çalışır?
Yapay zekâda modellerin, verilerin ve çıkarımların temellerini öğrenin.
🔗 Yapay zeka nasıl öğrenir?
Eğitim verilerinin ve geri bildirimlerin zaman içinde model performansını nasıl iyileştirdiğini görün.
🔗 Yapay zeka anormallikleri nasıl tespit eder?
Desen temellerini ve yapay zekanın olağandışı davranışları nasıl hızlı bir şekilde tespit ettiğini anlayın.
🔗 Yapay zekâ trendleri nasıl tahmin ediyor?
Gelecekteki talebi öngören ve sinyalleri tespit eden tahmin yöntemlerini keşfedin.
Yapay Zeka Destekli Sistem Geliştirme Nasıl Çalışır: Temel Fikir, Günlük Dilde 🧩
Çözünürlüğü artırmak, yani daha fazla piksel, daha büyük görüntü elde etmek anlamına gelir. Geleneksel çözünürlük artırma yöntemleri (bikübik gibi) temelde pikselleri gerer ve geçişleri yumuşatır ( Bikübik enterpolasyon ). Bu iyi bir yöntemdir, ancak yeni detaylar yaratamaz ; sadece enterpolasyon yapar
Yapay zekâ ile görüntü iyileştirme daha cesur bir şey deniyor (araştırma dünyasında "süper çözünürlük" olarak da biliniyor) (Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma):
-
Düşük çözünürlüklü girdiyi inceliyor
-
Desenleri tanır (kenarlar, dokular, yüz hatları, metin çizgileri, kumaş dokusu...)
-
Daha yüksek çözünürlüklü bir sürümün nasıl görüneceğini .
-
Bu desenlere uyan ek piksel verileri oluşturur
"Gerçekliği mükemmel bir şekilde geri yüklemek" değil, daha çok "son derece inandırıcı bir tahminde bulunmak" (Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN)) gibi. Bu biraz şüpheli geliyorsa, yanılmıyorsunuz - ama bu aynı zamanda neden bu kadar iyi çalıştığının da sebebi 😄
Evet, bu yapay zekâ destekli görüntü yükseltmenin aslında kontrollü bir halüsinasyon olduğu anlamına geliyor... ama üretken ve piksele saygılı bir şekilde.
İyi bir yapay zeka destekli görüntü yükseltme (AI upscaling) sürümünü ne oluşturur? ✅🛠️
Bir yapay zeka destekli görüntü yükseltme aracını (veya bir ayar ön ayarını) değerlendiriyorsanız, en çok önem taşıyan noktalar şunlardır:
-
Aşırı pişirmeden detay kurtarma.
İyi bir ölçeklendirme, gevrek ve yapı kazandırır, gevrek gürültü veya yapay gözenekler değil. -
Kenar disiplini.
Temiz çizgiler temiz kalır. Kötü modeller kenarların titremesine veya haleler oluşturmasına neden olur. -
Doku gerçekçiliği:
Saç, fırça darbesi gibi görünmemeli. Tuğla, tekrar eden bir desen damgası gibi görünmemeli. -
Gürültü ve sıkıştırma yönetimi:
Birçok günlük fotoğraf JPEG formatına aşırı derecede işleniyor. İyi bir yükseltme programı bu hasarı artırmaz (Real-ESRGAN). -
Yüz ve metin farkındalığı:
Yüz ve metin, hataları tespit etmenin en kolay olduğu yerlerdir. İyi modeller bunlara karşı nazik davranır (veya özel modlara sahiptir). -
Kareler arası tutarlılık (video için)
: Eğer detaylar kareler arasında titriyorsa, gözleriniz acıyacaktır. Video yükseltme işleminin başarısı veya başarısızlığı zamansal istikrara bağlıdır (BasicVSR (CVPR 2021)). -
Anlamlı kontroller.
Gerçek sonuçlara karşılık gelen kaydırıcılar istersiniz: gürültü azaltma, bulanıklık giderme, kusur giderme, gren koruma, keskinleştirme… yani pratik şeyler.
Sessiz ama geçerliliğini koruyan bir kural: "En iyi" çözünürlük iyileştirmesi genellikle neredeyse hiç fark edilmeyenidir. Sanki en başından beri daha iyi bir kameranız varmış gibi görünür 📷✨
Karşılaştırma Tablosu: Popüler Yapay Zeka Destekli Görüntü Yükseltme Seçenekleri (ve Ne İşe Yaradıkları) 📊🙂
Aşağıda pratik bir karşılaştırma yer almaktadır. Fiyatlar kasıtlı olarak belirsizdir çünkü araçlar lisansa, paketlere, işlem maliyetlerine ve benzeri birçok şeye göre değişiklik gösterir.
| Araç / Yaklaşım | En iyisi | Fiyat hissi | İşe yaramasının nedenleri (kabaca) |
|---|---|---|---|
| Topaz tarzı masaüstü görüntü yükselticiler (Topaz Photo, Topaz Video) | Fotoğraflar, videolar, kolay iş akışı | Ücretli sayılır | Güçlü genel modeller + bolca ince ayar, genellikle "kendiliğinden çalışır"... çoğunlukla |
| Adobe "Süper Çözünürlük" özellikleri (Adobe Geliştirme > Süper Çözünürlük) | Fotoğrafçılar zaten o ekosistemin içindeler | Abonelik-y | Detaylı ve sağlam yeniden yapılandırma, genellikle muhafazakar (daha az dramatik) |
| Gerçek-ESRGAN / ESRGAN varyantları (Gerçek-ESRGAN, ESRGAN) | Kendin Yap, geliştiriciler, toplu işler | Ücretsiz (ama zaman alıcı) | Doku detaylarında harika, dikkatli olunmazsa yüzlerde tahrişe neden olabilir |
| Difüzyon tabanlı ölçek büyütme modları (SR3) | Yaratıcı çalışma, stilize sonuçlar | Karışık | Muhteşem detaylar yaratabiliyor - aynı zamanda saçmalıklar da uydurabiliyor, yani... evet |
| Oyun çözünürlüğünü yükselten teknolojiler (DLSS/FSR tarzı) (NVIDIA DLSS, AMD FSR 2) | Gerçek zamanlı oyun ve görüntü oluşturma | Paketlenmiş | Hareket verilerini ve öğrenilmiş ön bilgileri kullanır - sorunsuz performans artışı 🕹️ |
| Bulut ölçeklendirme hizmetleri | Kolaylık, hızlı kazanımlar | Kullanım başına ödeme | Hızlı ve ölçeklenebilir, ancak kontrol ve bazen de incelikten ödün vermeniz gerekiyor |
| Video odaklı yapay zeka destekli görüntü yükseltme araçları (BasicVSR, Topaz Video) | Eski görüntüler, anime, arşivler | Ücretli sayılır | Titremeyi azaltmak için zamansal hileler + özel video modelleri |
| “Akıllı” telefon/galeri büyütme | Gündelik kullanım | Dahil | Hafif modeller, mükemmellik için değil, hoş bir ses çıkışı için ayarlanmıştır (yine de kullanışlıdır) |
Biçimlendirme hatası itirafı: "Paid-ish" o tabloda çok iş görüyor. Ama sanırım ne demek istediğimi anladınız 😅
Büyük sır: Modeller düşük çözünürlükten yüksek çözünürlüğe bir eşleme öğreniyor 🧠➡️🖼️
Çoğu yapay zeka destekli görüntü iyileştirme işleminin temelinde denetimli öğrenme kurulumu yer alır (Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN)):
-
Yüksek çözünürlüklü görüntülerle başlayın ("gerçek")
-
Bunları düşük çözünürlüklü sürümlere ("giriş") dönüştürün
-
Düşük çözünürlüklü görüntüden orijinal yüksek çözünürlüklü görüntüyü yeniden oluşturmak için bir model eğitin
Zamanla model şu gibi ilişkileri öğrenir:
-
"Göz çevresindeki bu tür bulanıklık genellikle kirpiklerden kaynaklanır."
-
“Bu piksel kümesi genellikle serif yazı tipini gösterir.”
-
"Bu kenar eğimi rastgele bir gürültüye değil, bir çatı çizgisine benziyor."
Bu, belirli görüntüleri ezberlemek değil (basit anlamda), istatistiksel yapıyı öğrenmektir (Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma). Bunu dokuların ve kenarların gramerini öğrenmek gibi düşünün. Şiir grameri değil, daha çok... IKEA kullanım kılavuzu grameri 🪑📦 (kaba bir benzetme, ama yeterince yakın).
İşin püf noktası: Çıkarım sırasında (ölçek büyütme işleminde) neler oluyor? ⚙️✨
Bir görüntüyü yapay zeka destekli bir görüntü yükseltme programına beslediğinizde, tipik olarak şöyle bir işlem hattı oluşur:
-
Ön İşleme
-
Renk uzayını dönüştür (bazen)
-
Piksel değerlerini normalleştirin
-
Görüntü büyükse parçalara ayırın (VRAM gerçeklik kontrolü 😭) (Real-ESRGAN deposu (döşeme seçenekleri))
-
-
Özellik çıkarımı
-
İlk katmanlar kenarları, köşeleri ve gradyanları algılar
-
Daha derin katmanlar desenleri algılar: dokular, şekiller, yüz bileşenleri
-
-
Yeniden yapılanma
-
Model, daha yüksek çözünürlüklü bir özellik haritası oluşturur
-
Ardından bunu gerçek piksel çıktısına dönüştürür
-
-
Son işlem
-
İsteğe bağlı bileme
-
İsteğe bağlı gürültü azaltma
-
İsteğe bağlı görüntü bozukluklarının (halkalanma, haleler, blokluluk) giderilmesi
-
Küçük bir ayrıntı: birçok araç önce karo şeklinde büyütüyor, sonra birleşim yerlerini kaynaştırıyor. Harika araçlar karo sınırlarını gizliyor. Orta halli araçlar ise gözlerinizi kısarsanız hafif ızgara izleri bırakıyor. Ve evet, gözlerinizi kısacaksınız, çünkü insanlar küçük cinler gibi %300 yakınlaştırmada en ufak kusurları incelemeyi seviyor 🧌
Yapay zeka ölçeklendirmesinde kullanılan ana model aileleri (ve neden farklı hissettirdikleri) 🤖📚
1) CNN tabanlı süper çözünürlük (klasik ve güvenilir yöntem)
Evrişimsel sinir ağları yerel desenlerde çok başarılıdır: kenarlar, dokular, küçük yapılar (Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN)).
-
Artıları: nispeten hızlı, istikrarlı, daha az sürpriz
-
Dezavantajları: Çok zorlandığında biraz "işlenmiş" görünebilir
2) GAN tabanlı ölçeklendirme (ESRGAN tarzı) 🎭
GAN'lar (Üretken Çekişmeli Ağlar), bir ayrıştırıcının gerçek görüntülerden ayırt edemeyeceği yüksek çözünürlüklü görüntüler üretmek üzere bir üreticiyi eğitir (Üretken Çekişmeli Ağlar).
-
Artıları: çarpıcı detaylar, etkileyici doku
-
Dezavantajları: Olmayan ayrıntıları uydurabilir - bazen yanlış, bazen de tuhaf (SRGAN, ESRGAN)
GAN, nefes kesici bir keskinlik sağlayabilir. Ayrıca portre öznenize fazladan bir kaş da verebilir. Yani... hangi konulara öncelik vereceğinizi seçin 😬
3) Yayılıma dayalı ölçeklendirme (yaratıcı joker) 🌫️➡️🖼️
Difüzyon modelleri adım adım gürültüyü giderir ve yüksek çözünürlüklü detay ( SR3 ) üretmek üzere yönlendirilebilir
-
Artıları: Özellikle yaratıcı çalışmalarda inanılmaz derecede gerçekçi detaylar çizebiliyor
-
Dezavantajları: Ayarlar agresif olursa orijinal kimlikten/yapıdan uzaklaşabilir (SR3).
İşte burada "ölçek büyütme" ile "yeniden tasarlama" iç içe geçmeye başlıyor. Bazen tam olarak istediğiniz şey budur. Bazen ise değildir.
4) Zamansal tutarlılıkla video çözünürlüğünü artırma 🎞️
Video çözünürlüğünü artırma işlemi genellikle hareket algılama mantığı ekler:
-
Komşu kareleri kullanarak detayları stabilize eder (BasicVSR (CVPR 2021))
-
Titreme ve sürünme görüntü bozukluklarını önlemeye çalışır
-
Genellikle süper çözünürlüğü gürültü azaltma ve tarama çizgilerini giderme ile birleştirir (Topaz Video).
Görüntü çözünürlüğünü artırmak bir tabloyu restore etmeye benziyorsa, video çözünürlüğünü artırmak, karakterin burnunun şeklinin her sayfada değişmesine gerek kalmadan bir çizgi romanı restore etmeye benziyor. Bu da... göründüğünden daha zor.
Yapay zekâ ile yapılan görüntü iyileştirmelerinin bazen neden sahte göründüğü (ve nasıl tespit edileceği) 👀🚩
Yapay zekâ destekli ölçeklendirme, tanınabilir şekillerde başarısız oluyor. Kalıpları bir kere öğrendikten sonra, onları her yerde göreceksiniz; tıpkı yeni bir araba satın alıp birdenbire o modeli her sokakta görmek gibi 😵💫
Sıkça rastlanan belirtiler:
-
aşırı ağda (çok fazla gürültü giderme + pürüzsüzleştirme)
-
Kenarlarda aşırı keskinleştirilmiş haleler (klasik "aşırı sapma" durumu) ( Bikübik enterpolasyon )
-
Tekrarlanan dokular (tuğla duvarlar kopyala-yapıştır desenlerine dönüşüyor)
-
Algoritma izlenimi veren, keskin mikro kontrast
-
Harflerin neredeyse harf haline geldiği (en kötü türü) metin bozulması.
-
Özellikle difüzyon iş akışlarında küçük özelliklerin ince bir şekilde değiştiği detay kayması ( SR3 )
İşin püf noktası şu: Bazen bu görüntüler ilk bakışta "daha iyi" görünüyor. Beyniniz keskinliği sever. Ama bir an sonra, garip geliyor...
İyi bir taktik, görüntüyü normal izleme mesafesinde doğal görünüp görünmediğini kontrol etmek için uzaklaştırmaktır. Eğer sadece %400 yakınlaştırmada iyi görünüyorsa, bu bir zafer değil, bir hobi demektir 😅
Yapay Zeka ile Ölçeklendirme Nasıl Çalışır: Matematiksel Karmaşa Olmadan Eğitim Tarafı 📉🙂
Süper çözünürlük modellerinin eğitimi genellikle şunları içerir:
-
Eşleştirilmiş veri kümeleri (düşük çözünürlüklü giriş, yüksek çözünürlüklü hedef) (Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN))
-
Yanlış yeniden yapılandırmaları cezalandıran kayıp fonksiyonları ( SRGAN )
Tipik hasar türleri:
-
Piksel kaybı (L1/L2)
doğruluğu artırır. Hafif bulanık sonuçlar üretebilir. -
Algısal kayıp, tam pikseller yerine daha derin özellikleri ("benzer görünüyor mu?" gibi) karşılaştırır ( Algısal Kayıplar (Johnson vd., 2016) ).
-
Çekişmeli kayıp (GAN)
, bazen kelime anlamından ödün verme pahasına gerçekçiliği teşvik eder (SRGAN, Üretken Çekişmeli Ağlar).
Sürekli bir güç mücadelesi var:
-
Orijinaline sadık kal vs.
-
Görsel olarak hoş görünmesini sağlayın.
Farklı araçlar bu spektrumda farklı noktalara yerleşir. Ve aile fotoğraflarını restore ediyorsanız veya adli doğruluktan ziyade "iyi görünmenin" daha önemli olduğu bir poster hazırlıyorsanız, birini tercih edebilirsiniz.
Pratik iş akışları: fotoğraflar, eski taramalar, anime ve videolar 📸🧾🎥
Fotoğraflar (portreler, manzaralar, ürün fotoğrafları)
En iyi uygulama genellikle şöyledir:
-
Önce hafif gürültü azaltma işlemi uygulayın (gerekirse)
-
Şık ve sade bir tarz
-
Eğer çok pürüzsüz geliyorsa, tekrar tanecik ekleyin (evet, gerçekten)
Tahıl tuz gibidir. Çok fazla olması yemeği mahveder, ama hiç olmaması da yemeğin tadını yavanlaştırabilir 🍟
Eski taramalar ve aşırı sıkıştırılmış görüntüler
Bunlar daha zor çünkü model sıkıştırma bloklarını "doku" olarak ele alabilir.
Şunu deneyin:
-
Eser kaldırma veya engellemeyi kaldırma
-
Sonra lüks
-
Sonra hafifçe bileme (çok fazla değil... Biliyorum, herkes öyle diyor ama yine de)
Anime ve çizgi sanatı
Çizimlerin faydaları şunlardır:
-
Keskin kenarları koruyan modeller
-
Azaltılmış doku yanılsaması.
Anime'nin büyütülmüş hali genellikle harika görünür çünkü şekiller daha basit ve tutarlıdır. (Ne şanslısınız.)
Video
Video ek adımlar içeriyor:
-
Gürültü Azaltma
-
(Belirli kaynaklar için) tarama çizgilerini giderme
-
Lüks
-
Zamansal yumuşatma veya stabilizasyon (BasicVSR (CVPR 2021))
-
Kohezyon için isteğe bağlı tane yeniden eklenmesi
Zamansal tutarlılığı atlarsanız, o parıldayan detay titremesini elde edersiniz. Bir kere fark ettiğinizde, artık görmezden gelemezsiniz. Sessiz bir odada gıcırdayan bir sandalye gibi 😖
Rastgele seçim yapmadan ayarları seçmek (küçük bir ipucu) 🎛️😵💫
İşte iyi bir başlangıç zihniyeti:
-
Yüzler yapay görünüyorsa
, gürültü azaltmayı, keskinleştirmeyi azaltın veya yüz koruma modu deneyin. -
Dokular çok yoğun görünüyorsa,
"detay geliştirme" veya "detay kurtarma" kaydırıcılarını düşürün ve ardından hafif bir gren ekleyin. -
Kenarlar parlıyorsa
, keskinleştirmeyi azaltın ve hale bastırma seçeneklerini kontrol edin. -
Görüntü çok "yapay zeka ürünü" görünüyorsa,
daha muhafazakar olun. Bazen en iyi hamle sadece... daha azıdır.
Ayrıca: sırf yapabiliyor diye 8x büyütme yapmayın. Temiz bir 2x veya 4x genellikle en ideal boyuttur. Bunun ötesinde, modelden pikselleriniz hakkında fanfiction yazmasını istiyorsunuz demektir 📖😂
Etik, özgünlük ve "gerçek"in o garip sorusu 🧭😬
Yapay zekâ ile çözünürlüğü artırma, sınırları bulanıklaştırıyor:
-
Restorasyon, var olanı geri kazanmayı ifade eder
-
Geliştirme, mevcut olmayan şeylerin eklenmesi anlamına gelir
Kişisel fotoğraflarda genellikle sorun olmaz (ve güzeldir). Ancak gazetecilikte, hukuki delillerde, tıbbi görüntülemede veya gizliliğin önemli olduğu her durumda dikkatli olmanız gerekir (OSAC/NIST: Adli Dijital Görüntü Yönetimi için Standart Kılavuz, SWGDE Adli Görüntü Analizi Yönergeleri).
Basit bir kural:
-
Riskler yüksekse, yapay zeka ölçeklendirmesini örnek teşkil eden bir durum.
Ayrıca, şeffaflık profesyonel bağlamlarda da önemlidir. Yapay zekanın kötü olmasından değil, izleyicilerin ayrıntıların yeniden oluşturulup oluşturulmadığını veya kaydedilip kaydedilmediğini bilmeyi hak etmesinden dolayı. Bu sadece... saygılı bir davranış.
Kapanış notları ve kısa bir özet 🧡✅
Yapay zekâ destekli görüntü yükseltme (AI Upscaling) şu şekilde çalışır : Modeller, yüksek çözünürlüklü detayların düşük çözünürlüklü desenlerle nasıl ilişkili olduğunu öğrenir ve ardından yükseltme sırasında inandırıcı ek pikseller tahmin eder ( Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma ). Model ailesine (CNN, GAN, difüzyon, video-zamansal) bağlı olarak, bu tahmin muhafazakar ve doğru olabilir… veya cesur ve bazen de kontrolden çıkmış olabilir 😅
Kısa özet
-
Geleneksel büyütme işlemi pikselleri genişletir (Bikübik enterpolasyon).
-
Yapay zekâ destekli görüntü iyileştirme, öğrenilen kalıpları kullanarak eksik ayrıntıları tahmin eder (Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN)).
-
Doğru model ve ölçülülük harika sonuçlar doğurur
-
Videoda halelere, mumsu yüzlere, tekrarlanan dokulara ve titremeye dikkat edin (BasicVSR (CVPR 2021)).
-
Ölçek büyütme genellikle "makul bir yeniden yapılandırma"dır, mükemmel bir gerçek değildir (SRGAN, ESRGAN).
İsterseniz, neyi yükselttiğinizi (yüzler, eski fotoğraflar, videolar, anime, metin taramaları) söyleyin, ben de yaygın "yapay zeka görünümü" tuzaklarından kaçınmanıza yardımcı olacak bir ayar stratejisi önereyim 🎯🙂
Gerçek dünya örneği: Eski pazar yeri ürün fotoğraflarının iyileştirilmesi 📸
Senaryo
Küçük bir ikinci el fotoğraf makinesi dükkanının eski bir web sitesinden dışa aktarılmış 800 piksel genişliğinde 40 adet ürün fotoğrafı bulunuyor. Sahibi bunları, önerilen resim boyutunun 1600 piksel olduğu yeni bir e-ticaret sayfasında yeniden kullanmak istiyor.
Sorun şu: Normal yeniden boyutlandırma kameraların görüntüsünü bulanıklaştırırken, agresif yapay zeka destekli büyütme işlemi kauçuk tutma yerlerinin, seri numaralarının ve lens işaretlerinin şüpheli derecede sahte görünmesine neden olabiliyor. Bu önemli çünkü alıcılar satın almadan önce bu ayrıntılara güveniyor.
Amaç, eksik bilgileri kusursuz bir şekilde "geri yüklemek" değil. Amaç, orijinal dosyaları kullanılabilir halde tutarken daha temiz listeleme görüntüleri oluşturmaktır, çünkü yapay zeka ölçeklendirme, kesin bir gerçek yerine olası ayrıntıları tahmin eder.
İş akışının ihtiyaçları
Orijinal ürün fotoğrafları, tercihen en az sıkıştırılmış versiyonları
Hedef çıktı boyutu, örneğin 800 pikselden 1600 piksele 2 kat büyütme
Gürültü azaltma, keskinleştirme ve yapay bozulma giderme için ayrı kontrollere sahip bir araç veya model
Metin, kenarlar, logolar, vidalar, düğmeler, deri dokusu ve yansımalar için basit bir inceleme kontrol listesi
Orijinaller için bir klasör ve düzenlenmiş dışa aktarımlar için ayrı bir klasör, böylece hiçbir şey üzerine yazılmaz
Örnek talimat
Yapay zeka destekli görüntü yükseltme araçlarını test ederken bu tür talimatları kullanın:
Bu ürün fotoğrafını e-ticaret sitesi için 2 kat büyütün. Nesne şeklini, logo yerleşimini, lens işaretlerini, düğme kenarlarını ve yüzey dokusunu orijinaline mümkün olduğunca yakın tutun. Hafif sıkıştırma temizliği, düşük keskinleştirme kullanın ve ekstra metin, çizik, etiket, seri numarası veya dekoratif detay eklemekten kaçının. Son görüntü, normal ürün sayfası boyutunda doğal görünmeli, %400 yakınlaştırmada yapay olarak keskin olmamalıdır.
Nasıl test edilir?
Tüm fotoğraf grubunu işleme almadan önce beş adet karışık görüntüyle başlayın:
İyi ışıklandırılmış, temiz bir ürün fotoğrafı
Bloklu bir JPEG sıkıştırılmış görüntü
Üzerinde minik yazı veya objektif işaretleri bulunan bir fotoğraf
Gölgelerde gürültü olan karanlık bir görüntü
Yansıtıcı metal veya cam içeren bir görüntü
Büyütme işleminden sonra, her sonucu orijinal görüntüyle %100 ve %200 oranında karşılaştırın. Marka adlarının, kadranların, vidaların, bağlantı noktalarının ve doku desenlerinin hala eşleşip eşleşmediğini kontrol edin. Model "neredeyse harfler" veya sahte yüzey izleri oluşturuyorsa, keskinleştirme veya detay kurtarma ayarını düşürün.
Sonuç
Örnek sonuç: Bu iş akışını kullanmadan önce ve sonra beş görüntüden oluşan bir testin zamanlamasına dayanmaktadır.
Görüntülerin manuel olarak temizlenmesi ve yeniden boyutlandırılması, her bir görüntü için yaklaşık 9 dakika, beş görüntü için ise 45 dakika sürdü.
Yapay zekâ destekli iş akışı, görüntü başına yaklaşık 3 dakika veya beş görüntü için 15 dakika sürdü.
Bu, beş fotoğraf için tahmini 30 dakika, 40 fotoğraflık bir işlemde ise yaklaşık 4 saat zaman tasarrufu anlamına geliyor.
Kalite kontrol sonucu: 5 görselden 4'ü ilk incelemeyi geçti. Bir görsel, büyütme işlemi küçük lens yazısını bozduğu için başarısız oldu; bu nedenle daha düşük keskinleştirme ve metin iyileştirmesi yapılmadan yeniden işlendi.
Burada önemli olan ölçüt sadece "daha keskin görünüyor" değil. Önemli olan şu: Yan yana karşılaştırmada, uydurma detaylar içermeyen kaç fotoğraf başarılı oluyor?
Neler ters gidebilir?
Bu model, tozları, JPEG bloklarını veya çizikleri "gerçek" dokuya dönüştürebilir.
Küçük yazı tipleri, yakınlaştırılana kadar inandırıcı görünen sahte yazılara dönüşebilir.
Aşırı gürültü azaltma işlemi, kauçuk, deri veya fırçalanmış metalin mumsu bir görünüme sahip olmasına neden olabilir.
Güçlü bileme, ürün kenarlarında haleler oluşturabilir.
Toplu işlem, hataları gizleyebilir; bu nedenle her şeyi dışa aktarmadan önce bir örneği inceleyin.
E-ticaret için en güvenli kural basittir: Hasarı gizlemek, durumunu değiştirmek veya bir ürünü olduğundan daha yeni göstermek için asla yapay zeka destekli görüntü iyileştirme yöntemlerini kullanmayın.
Pratik çıkarımlar
Yapay zekâ destekli büyütme, sihirli bir onarım düğmesi olarak değil, kontrollü bir son işlem adımı olarak ele alındığında en iyi sonucu verir. Muhafazakar 2x ayarlarını kullanın, alıcıların önem verdiği ayrıntıları kontrol edin ve düzenlenmiş sürümün güvenilirliğini korumak için orijinal görüntüyü saklayın.
Gerçek dünya örneği: Eski bir eğitim videosunu titreme efekti vermeden büyütmek
Senaryo
Küçük bir eğitim şirketi, 2014 yılında 720p çözünürlükte kaydedilmiş 7 dakikalık bir güvenlik tanıtım videosuna sahip. İçerik hala değerli olsa da, özellikle büyük dizüstü bilgisayar ekranlarında, şirketin yeni web sitesinde görüntüler bulanık görünüyor.
Ekip, yeniden çekim yapmadan daha temiz bir 1080p sürüm dışa aktarmak istiyor. Risk ise, agresif yapay zeka ölçeklendirmesinin yüzlerin mumsu görünmesine, tabelalardaki metinlerin "neredeyse kelimelere" dönüşmesine veya kareler arasında titreyen dokular oluşturmasına yol açabilmesidir.
Amaç, videonun tamamen yeni görünmesini sağlamak değil. Amaç, eğitmenin yüzünü, uyarı etiketlerini, el hareketlerini ve ekipman detaylarını orijinaline sadık kalarak daha net, daha istikrarlı ve daha az sıkıştırılmış hale getirmektir.
İş akışının ihtiyaçları
Mümkünse orijinal video dosyası, sıkıştırılmış sosyal medya indirmesi değil
Hedef dışa aktarma boyutu, örneğin doğrudan 4K'ya geçmek yerine 720p'den 1080p'ye düşürmek
Gürültü azaltma, keskinleştirme, sıkıştırma onarımı ve zamansal tutarlılık seçeneklerine sahip bir video yükseltme programı
Yüzler, hareket, metin ve detaylı yüzeyler içeren kısa bir test videosu
Görüntü titremesi, haleler, bozuk metin, yüz dokusu ve hareketli kenarlar için inceleme kontrol listesi
Karşılaştırma ve gerektiğinde açıklama amacıyla orijinal videonun kaydedilmiş bir kopyası
Örnek talimat
Videonun tamamını işlemeye başlamadan önce bu tür talimatları kullanın:
Bu 720p eğitim videosunu 1080p'ye yükseltin. Doğal hareket, sabit kenarlar, okunabilir mevcut metin ve gerçekçi cilt dokusuna öncelik verin. Hafif sıkıştırma onarımı ve düşük keskinleştirme kullanın. Eksik metin, logo, etiket, çizik, yüz detayı veya ekipman işaretleri uydurmayın. Kareler arası titremeyi önleyin. Sonuç, normal görüntüleme boyutunda daha net görünmeli, duraklatıldığında ve yakınlaştırıldığında yapay olarak keskin olmamalıdır.
Nasıl test edilir?
7 dakikalık dosyanın tamamını işlemeden önce, aşağıdaki unsurları içeren 20 saniyelik bir örnek dışa aktarın:
Öğretmenin konuşurkenki yüz ifadesi
Çerçeve üzerinde hareket eden bir el
Bir uyarı etiketi veya küçük harflerle yazılmış metin
Kumaş, beton, fırçalanmış metal veya plastik gibi dokulu bir yüzey
Kamera kaydırma veya herhangi bir titrek hareket
Örneği iki kez izleyin: bir kez normal hızda ve bir kez de kare kare duraklatarak. Normal hızda izlerken, titreme, sürünen doku veya kenarlarda doğal olmayan hareket olup olmadığını kontrol edin. Duraklatıldığında ise, metin, düğmeler, araçlar ve yüz özelliklerinin hala eşleşip eşleşmediğini kontrol etmek için orijinal ve büyütülmüş sürümleri karşılaştırın.
Sonuç
Örnek sonuç: 20 saniyelik bir test klibinin zamanlaması yapıldıktan sonra aynı ayarların 7 dakikalık bir videoya uygulanmasıyla elde edilmiştir.
Manuel "boyutlandırma ve keskinleştirme" işlemi, dışa aktarma ve inceleme dahil yaklaşık 35 dakika sürdü, ancak sonuçta eğitmenin saçında gözle görülür bir parıltı ve güvenlik işaretlerinin etrafında haleler oluştu.
Yapay zeka destekli iş akışı, test dışa aktarımları da dahil olmak üzere yaklaşık 55 dakika sürdü, ancak inceleme sorunlarını ilk dışa aktarımdaki 8 görünür sorundan son dışa aktarımdaki 2 küçük soruna indirdi.
Son sürüm, inceleme kontrol listesindeki 12 maddeden 10'unu başarıyla geçti. Geriye kalan iki sorun, arka plan metninde hafif bir bulanıklık ve karanlık bir köşede hafif bir gürültüydü. Her ikisi de kabul edildi çünkü eğitmen, ekipman ve güvenlik önlemleri görsel olarak tutarlı kaldı.
Burada anlamlı olan ölçüt "1080p elde edildi" değil, videonun normal oynatımı sırasında kaç saniye boyunca dikkat dağıtıcı bozukluklar gösterdiğidir
Neler ters gidebilir?
Model, sıkıştırma bloklarını keskinleştirerek gerçek doku gibi görünmelerini sağlayabilir.
İnce yazı tipleri daha güvenli görünebilir ancak doğruluk oranı düşebilir.
Gürültü azaltma seviyesi çok yüksek olursa yüzler aşırı pürüzsüz hale gelebilir.
Araç her kareyi çok bağımsız olarak ele alırsa, hareketli kenarlar titreyebilir.
4K çözünürlükte yapılan dışa aktarım, modelin çok fazla ayrıntı uydurmak zorunda kalması nedeniyle, daha ölçülü bir 1080p dışa aktarımdan daha kötü görünebilir.
En büyük hata, yalnızca durdurulmuş bir kareyi değerlendirmektir. Video çözünürlüğünün artırılması, yalnızca durağan bir görüntü olarak etkileyici görünmekle kalmamalı, hareket halindeyken de doğal görünmelidir.
Pratik çıkarımlar
Video için yapay zeka ile çözünürlük yükseltme, önce kısa bir bölümü test ettiğinizde, yükseltmeyi mütevazı tuttuğunuzda ve keskinlikten önce hareketi değerlendirdiğinizde en iyi sonucu verir. Genellikle biraz daha yumuşak ama istikrarlı bir sonuç, birisi her hareket ettiğinde titreyen keskin bir versiyondan daha iyidir.
SSS
Yapay zeka ölçeklendirmesi ve çalışma prensibi
Yapay zekâ destekli çözünürlük artırma (genellikle "süper çözünürlük" olarak adlandırılır), eğitim sırasında öğrenilen kalıplardan eksik yüksek çözünürlüklü ayrıntıları tahmin ederek bir görüntünün çözünürlüğünü artırır. Bikübik enterpolasyon gibi pikselleri basitçe germek yerine, bir model kenarları, dokuları, yüzleri ve metin benzeri çizgileri inceler ve ardından öğrenilen bu kalıplarla uyumlu yeni piksel verileri üretir. Bu, "gerçeği geri yüklemek"ten ziyade, doğal görünen "inandırıcı bir tahminde bulunmak"tır.
Yapay zeka destekli ölçek büyütme ile bikübik veya geleneksel yeniden boyutlandırma karşılaştırması
Geleneksel büyütme yöntemleri (bikübik gibi) esas olarak mevcut pikseller arasında enterpolasyon yaparak, gerçek anlamda yeni detaylar oluşturmadan geçişleri yumuşatır. Yapay zeka destekli büyütme, görsel ipuçlarını tanıyarak ve bu ipuçlarının yüksek çözünürlüklü versiyonlarının nasıl görüneceğini tahmin ederek makul bir yapıyı yeniden oluşturmayı amaçlar. Bu nedenle yapay zeka sonuçları çok daha keskin görünebilir ve aynı zamanda kaynakta bulunmayan yapaylıklar veya "icatlar" da ortaya çıkarabilir.
Yüzler neden mumsu veya aşırı pürüzsüz görünebilir?
Mumsu yüzler genellikle doğal cilt dokusunu ortadan kaldıran agresif gürültü azaltma ve yumuşatma işlemlerinin yanı sıra keskinleştirmeden kaynaklanır. Birçok araç gürültüyü ve ince dokuyu benzer şekilde ele alır, bu nedenle bir görüntüyü "temizlemek" gözenekleri ve ince ayrıntıları silebilir. Yaygın bir yaklaşım, gürültü azaltma ve keskinleştirmeyi azaltmak, varsa yüz koruma modunu kullanmak ve ardından sonucun daha az plastik ve daha fotoğrafik görünmesi için biraz gren eklemektir.
Yapay zeka ölçeklendirmesinde dikkat edilmesi gereken yaygın hatalar
Tipik belirtiler arasında kenarların etrafında haleler, tekrarlanan doku desenleri (kopyala-yapıştır tuğlalar gibi), keskin mikro kontrast ve "neredeyse harflere" dönüşen metinler bulunur. Difüzyon tabanlı iş akışlarında, küçük özelliklerin ince bir şekilde değiştiği yerlerde detay kayması da görebilirsiniz. Video için, titreme ve kareler arasında kayan detay büyük uyarı işaretleridir. Sadece aşırı yakınlaştırmada iyi görünüyorsa, ayarlar muhtemelen çok agresiftir.
GAN, CNN ve difüzyon ölçekleyicilerinin sonuçlarında nasıl farklılık gösterdikleri
CNN tabanlı süper çözünürlük daha istikrarlı ve tahmin edilebilir olma eğilimindedir, ancak zorlandığında "işlenmiş" görünebilir. GAN tabanlı seçenekler (ESRGAN tarzı) genellikle daha canlı doku ve algılanan keskinlik üretir, ancak özellikle yüzlerde yanlış ayrıntılar gösterebilir. Difüzyon tabanlı büyütme, güzel ve inandırıcı ayrıntılar üretebilir, ancak yönlendirme veya güç ayarları çok güçlü olursa orijinal yapıdan sapabilir.
"Çok yapay zekalı" bir görünümden kaçınmak için pratik bir ayar stratejisi
Öncelikle temkinli başlayın: aşırı faktörlere başvurmadan önce 2x veya 4x ölçeklendirme uygulayın. Yüzler plastik gibi görünüyorsa, gürültü azaltma ve keskinleştirmeyi düşürün ve yüz tanıma modunu deneyin. Dokular çok yoğun hale gelirse, detay geliştirmeyi azaltın ve sonrasında ince bir gren eklemeyi düşünün. Kenarlar parlıyorsa, keskinleştirmeyi azaltın ve hale veya yapaylık bastırmayı kontrol edin. Birçok işlem hattında, inandırıcı gerçekçiliği koruduğu için "az" kazanır.
Eski taramaları veya yoğun JPEG sıkıştırmalı görüntüleri yükseltmeden önce işleme
Sıkıştırılmış görüntüler zordur çünkü modeller blok halindeki bozulmaları gerçek doku olarak algılayıp bunları büyütebilir. Yaygın bir iş akışı, önce bozulma giderme veya blok kaldırma, ardından büyütme ve gerekirse hafif keskinleştirmedir. Taramalarda, hafif bir temizleme, modelin hasardan ziyade gerçek yapıya odaklanmasına yardımcı olabilir. Amaç, büyütme işleminin gürültülü girdilerden kesin tahminler yapmak zorunda kalmaması için "sahte doku ipuçlarını" azaltmaktır.
Video çözünürlüğünü artırmanın fotoğraf çözünürlüğünü artırmaktan neden daha zor olduğu
Video çözünürlüğünün artırılması, yalnızca tek bir hareketsiz görüntüde iyi olmakla kalmamalı, tüm karelerde tutarlı olmalıdır. Ayrıntılar kareler arasında titriyorsa, sonuç hızla dikkat dağıtıcı hale gelir. Video odaklı yaklaşımlar, yeniden yapılandırmayı stabilize etmek ve titreme kusurlarını önlemek için komşu karelerden zamansal bilgileri kullanır. Birçok iş akışı ayrıca gürültü giderme, belirli kaynaklar için tarama çizgilerini kaldırma ve isteğe bağlı olarak gren yeniden ekleme işlemlerini içerir, böylece tüm sekans yapay olarak keskin değil, tutarlı bir his verir.
Yapay zekâ ile ölçeklendirme uygun olmadığında veya ona güvenmek riskli olduğunda
Yapay zekâ ile yapılan görüntü iyileştirmesi, kanıt olarak değil, geliştirme olarak ele alınmalıdır. Gazetecilik, hukuki deliller, tıbbi görüntüleme veya adli tıp gibi yüksek riskli bağlamlarda, "inandırıcı" pikseller üretmek yanıltıcı olabilir çünkü yakalanmamış ayrıntıları ekleyebilir. Daha güvenli bir yaklaşım, bunu açıklayıcı olarak kullanmak ve bir yapay zekâ sürecinin ayrıntıyı yeniden oluşturduğunu belirtmektir. Doğruluk kritik önem taşıyorsa, orijinalleri koruyun ve her işlem adımını ve ayarını belgeleyin.
Referanslar
-
arXiv - Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma - arxiv.org
-
arXiv - Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA Geliştiricisi - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Süper Çözünürlük 2 - gpuopen.com
-
Bilgisayar Görseli Vakfı (CVF) Açık Erişim - BasicVSR: Video Süper Çözünürlüğünde Temel Bileşenlerin Aranması (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Üretken Çekişmeli Ağlar - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Algısal Kayıplar (Johnson ve ark., 2016) - arxiv.org
-
GitHub - Real-ESRGAN deposu (döşeme seçenekleri) - github.com
-
Vikipedi - İki Kübik İnterpolasyon - wikipedia.org
-
Topaz Labs - Topaz Fotoğraf - topazlabs.com
-
Topaz Labs - Topaz Video - topazlabs.com
-
Adobe Yardım Merkezi - Adobe Enhance > Süper Çözünürlük - helpx.adobe.com
-
NIST / OSAC - Adli Dijital Görüntü Yönetimi için Standart Kılavuz (Sürüm 1.0) - nist.gov
-
SWGDE - Adli Görüntü Analizi İçin Yönergeler - swgde.org