Kısa cevap: Yapay zekâ destekli çözünürlük artırma, düşük ve yüksek çözünürlüklü eşleştirilmiş görüntüler üzerinde bir model eğiterek ve ardından bu modeli çözünürlük artırma sırasında inandırıcı ek pikselleri tahmin etmek için kullanarak çalışır. Model, eğitim sırasında benzer dokular veya yüzler görmüşse, ikna edici ayrıntılar ekleyebilir; aksi takdirde, haleler, mumsu cilt veya videoda titreme gibi yapaylıklar "yanıltabilir".
Önemli noktalar:
Tahmin : Model, gerçekliğin kesin bir kopyasını değil, makul ayrıntılar üretir.
Model seçimi : CNN'ler daha istikrarlı olma eğilimindedir; GAN'lar daha keskin görünebilir ancak özellik uydurma riski taşır.
Görsel kusurları kontrol edin : Haleler, tekrarlanan dokular, "neredeyse harfler" ve plastik görünümlü yüzeylere dikkat edin.
Video kararlılığı : Zamansal yöntemler kullanın, aksi takdirde kareler arasında titreme ve kayma göreceksiniz.
Yüksek riskli kullanım : Doğruluk önemliyse, işlemeyi açıklayın ve sonuçları örnek niteliğinde değerlendirin.

Muhtemelen görmüşsünüzdür: minicik, bulanık bir görüntü, baskıya, yayına veya sunuma rahatlıkla eklenebilecek kadar net bir şeye dönüşüyor. Sanki hile yapıyormuşsunuz gibi geliyor. Ve - en iyi anlamda - bir bakıma öyle de 😅
Yani, yapay zekâ destekli görüntü yükseltme işleminin çalışma prensibi, "bilgisayar detayları iyileştirir" (genel geçer bir ifade) demekten çok daha spesifik bir şeye, "bir modelin birçok örnekten öğrendiği kalıplara dayanarak olası yüksek çözünürlüklü yapıyı tahmin etmesine" ( Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma ) dayanıyor. Bu tahmin adımı tüm oyunun özü ve yapay zekâ destekli görüntü yükseltmenin çarpıcı görünmesinin, biraz yapay görünmesinin veya kedinizin fazladan bıyık çıkarmış gibi görünmesinin nedeni de bu.
Bu makaleden sonra okumak isteyebileceğiniz diğer makaleler:
🔗 Yapay zekâ nasıl çalışır?
Yapay zekâda modellerin, verilerin ve çıkarımların temellerini öğrenin.
🔗 Yapay zeka nasıl öğrenir?
Eğitim verilerinin ve geri bildirimlerin zaman içinde model performansını nasıl iyileştirdiğini görün.
🔗 Yapay zeka anormallikleri nasıl tespit eder?
Desen temellerini ve yapay zekanın olağandışı davranışları nasıl hızlı bir şekilde tespit ettiğini anlayın.
🔗 Yapay zekâ trendleri nasıl tahmin ediyor?
Gelecekteki talebi öngören ve sinyalleri tespit eden tahmin yöntemlerini keşfedin.
Yapay Zeka Destekli Sistem Geliştirme Nasıl Çalışır: Temel Fikir, Günlük Dilde 🧩
Çözünürlüğü artırmak, yani daha fazla piksel, daha büyük görüntü elde etmek anlamına gelir. Geleneksel çözünürlük artırma yöntemleri (bikübik gibi) temelde pikselleri gerer ve geçişleri yumuşatır ( Bikübik enterpolasyon yeni detaylar yaratamaz
Yapay zekâ ile görüntü iyileştirme daha cesur bir şey deniyor (araştırma dünyasında "süper çözünürlük" olarak da biliniyor) ( Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma ):
-
Düşük çözünürlüklü girdiyi inceliyor
-
Desenleri tanır (kenarlar, dokular, yüz hatları, metin çizgileri, kumaş dokusu...)
-
Daha yüksek çözünürlüklü bir sürümün nasıl görüneceğini .
-
Bu desenlere uyan ek piksel verileri oluşturur
"Gerçekliği mükemmel bir şekilde geri yüklemek" değil, daha çok "son derece inandırıcı bir tahminde bulunmak" ( Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) ) gibi. Bu biraz şüpheli geliyorsa, yanılmıyorsunuz - ama bu aynı zamanda neden bu kadar iyi çalıştığının da sebebi 😄
Evet, bu yapay zekâ destekli görüntü yükseltmenin aslında kontrollü bir halüsinasyon olduğu anlamına geliyor... ama üretken ve piksele saygılı bir şekilde.
İyi bir yapay zeka destekli görüntü yükseltme (AI upscaling) sürümünü ne oluşturur? ✅🛠️
Bir yapay zeka destekli görüntü yükseltme aracını (veya bir ayar ön ayarını) değerlendiriyorsanız, en çok önem taşıyan noktalar şunlardır:
-
Aşırı pişirmeden detay kurtarma.
İyi bir ölçeklendirme, gevrek ve yapı kazandırır, gevrek gürültü veya yapay gözenekler değil. -
Kenar disiplini.
Temiz çizgiler temiz kalır. Kötü modeller kenarların titremesine veya haleler oluşturmasına neden olur. -
Doku gerçekçiliği:
Saç, fırça darbesi gibi görünmemeli. Tuğla, tekrar eden bir desen damgası gibi görünmemeli. -
Gürültü ve sıkıştırma yönetimi:
Birçok günlük fotoğraf JPEG formatına aşırı derecede işleniyor. İyi bir yükseltme programı bu hasarı artırmaz ( Real-ESRGAN ). -
Yüz ve metin farkındalığı:
Yüz ve metin, hataları tespit etmenin en kolay olduğu yerlerdir. İyi modeller bunlara karşı nazik davranır (veya özel modlara sahiptir). -
Kareler arası tutarlılık (video için)
: Eğer detaylar kareler arasında titriyorsa, gözleriniz acıyacaktır. Video yükseltme işleminin başarısı veya başarısızlığı zamansal istikrara bağlıdır ( BasicVSR (CVPR 2021) ). -
Anlamlı kontroller.
Gerçek sonuçlara karşılık gelen kaydırıcılar istersiniz: gürültü azaltma, bulanıklık giderme, kusur giderme, gren koruma, keskinleştirme… yani pratik şeyler.
Sessiz ama geçerliliğini koruyan bir kural: "En iyi" çözünürlük iyileştirmesi genellikle neredeyse hiç fark edilmeyenidir. Sanki en başından beri daha iyi bir kameranız varmış gibi görünür 📷✨
Karşılaştırma Tablosu: Popüler Yapay Zeka Destekli Görüntü Yükseltme Seçenekleri (ve Ne İşe Yaradıkları) 📊🙂
Aşağıda pratik bir karşılaştırma yer almaktadır. Fiyatlar kasıtlı olarak belirsizdir çünkü araçlar lisansa, paketlere, işlem maliyetlerine ve benzeri birçok şeye göre değişiklik gösterir.
| Araç / Yaklaşım | En iyisi | Fiyat hissi | İşe yaramasının nedenleri (kabaca) |
|---|---|---|---|
| Topaz tarzı masaüstü görüntü yükselticiler ( Topaz Photo , Topaz Video ) | Fotoğraflar, videolar, kolay iş akışı | Ücretli sayılır | Güçlü genel modeller + bolca ince ayar, genellikle "kendiliğinden çalışır"... çoğunlukla |
| Adobe "Süper Çözünürlük" özellikleri ( Adobe Geliştirme > Süper Çözünürlük ) | Fotoğrafçılar zaten o ekosistemin içindeler | Abonelik-y | Detaylı ve sağlam yeniden yapılandırma, genellikle muhafazakar (daha az dramatik) |
| Gerçek-ESRGAN / ESRGAN varyantları ( Gerçek-ESRGAN , ESRGAN ) | Kendin Yap, geliştiriciler, toplu işler | Ücretsiz (ama zaman alıcı) | Doku detaylarında harika, dikkatli olunmazsa yüzlerde tahrişe neden olabilir |
| Difüzyon tabanlı ölçek büyütme modları ( SR3 ) | Yaratıcı çalışma, stilize sonuçlar | Karışık | Muhteşem detaylar yaratabiliyor - aynı zamanda saçmalıklar da uydurabiliyor, yani... evet |
| Oyun çözünürlüğünü yükselten teknolojiler (DLSS/FSR tarzı) ( NVIDIA DLSS , AMD FSR 2 ) | Gerçek zamanlı oyun ve görüntü oluşturma | Paketlenmiş | Hareket verilerini ve öğrenilmiş ön bilgileri kullanır - sorunsuz performans artışı 🕹️ |
| Bulut ölçeklendirme hizmetleri | Kolaylık, hızlı kazanımlar | Kullanım başına ödeme | Hızlı ve ölçeklenebilir, ancak kontrol ve bazen de incelikten ödün vermeniz gerekiyor |
| Video odaklı yapay zeka destekli görüntü yükseltme araçları ( BasicVSR , Topaz Video ) | Eski görüntüler, anime, arşivler | Ücretli sayılır | Titremeyi azaltmak için zamansal hileler + özel video modelleri |
| “Akıllı” telefon/galeri büyütme | Gündelik kullanım | Dahil | Hafif modeller, mükemmellik için değil, hoş bir ses çıkışı için ayarlanmıştır (yine de kullanışlıdır) |
Biçimlendirme hatası itirafı: "Paid-ish" o tabloda çok iş görüyor. Ama sanırım ne demek istediğimi anladınız 😅
Büyük sır: Modeller düşük çözünürlükten yüksek çözünürlüğe bir eşleme öğreniyor 🧠➡️🖼️
Çoğu yapay zeka destekli görüntü iyileştirme işleminin temelinde denetimli öğrenme kurulumu yer alır ( Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) ):
-
Yüksek çözünürlüklü görüntülerle başlayın ("gerçek")
-
Bunları düşük çözünürlüklü sürümlere ("giriş") dönüştürün
-
Düşük çözünürlüklü görüntüden orijinal yüksek çözünürlüklü görüntüyü yeniden oluşturmak için bir model eğitin
Zamanla model şu gibi ilişkileri öğrenir:
-
"Göz çevresindeki bu tür bulanıklık genellikle kirpiklerden kaynaklanır."
-
“Bu piksel kümesi genellikle serif yazı tipini gösterir.”
-
"Bu kenar eğimi rastgele bir gürültüye değil, bir çatı çizgisine benziyor."
Bu, belirli görüntüleri ezberlemek değil (basit anlamda), istatistiksel yapıyı öğrenmektir ( Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma ). Bunu dokuların ve kenarların gramerini öğrenmek gibi düşünün. Şiir grameri değil, daha çok... IKEA kullanım kılavuzu grameri 🪑📦 (kaba bir benzetme, ama yeterince yakın).
İşin püf noktası: Çıkarım sırasında (ölçek büyütme işleminde) neler oluyor? ⚙️✨
Bir görüntüyü yapay zeka destekli bir görüntü yükseltme programına beslediğinizde, tipik olarak şöyle bir işlem hattı oluşur:
-
Ön İşleme
-
Renk uzayını dönüştür (bazen)
-
Piksel değerlerini normalleştirin
-
Görüntü büyükse parçalara ayırın (VRAM gerçeklik kontrolü 😭) ( Real-ESRGAN deposu (döşeme seçenekleri) )
-
-
Özellik çıkarımı
-
İlk katmanlar kenarları, köşeleri ve gradyanları algılar
-
Daha derin katmanlar desenleri algılar: dokular, şekiller, yüz bileşenleri
-
-
Yeniden yapılanma
-
Model, daha yüksek çözünürlüklü bir özellik haritası oluşturur
-
Ardından bunu gerçek piksel çıktısına dönüştürür
-
-
Son işlem
-
İsteğe bağlı bileme
-
İsteğe bağlı gürültü azaltma
-
İsteğe bağlı görüntü bozukluklarının (halkalanma, haleler, blokluluk) giderilmesi
-
Küçük bir ayrıntı: birçok araç önce karo şeklinde büyütüyor, sonra birleşim yerlerini kaynaştırıyor. Harika araçlar karo sınırlarını gizliyor. Orta halli araçlar ise gözlerinizi kısarsanız hafif ızgara izleri bırakıyor. Ve evet, gözlerinizi kısacaksınız, çünkü insanlar küçük cinler gibi %300 yakınlaştırmada en ufak kusurları incelemeyi seviyor 🧌
Yapay zeka ölçeklendirmesinde kullanılan ana model aileleri (ve neden farklı hissettirdikleri) 🤖📚
1) CNN tabanlı süper çözünürlük (klasik ve güvenilir yöntem)
Evrişimsel sinir ağları yerel desenlerde çok başarılıdır: kenarlar, dokular, küçük yapılar ( Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) ).
-
Artıları: nispeten hızlı, istikrarlı, daha az sürpriz
-
Dezavantajları: Çok zorlandığında biraz "işlenmiş" görünebilir
2) GAN tabanlı ölçeklendirme (ESRGAN tarzı) 🎭
GAN'lar (Üretken Çekişmeli Ağlar), bir ayrıştırıcının gerçek görüntülerden ayırt edemeyeceği yüksek çözünürlüklü görüntüler üretmek üzere bir üreticiyi eğitir ( Üretken Çekişmeli Ağlar ).
-
Artıları: çarpıcı detaylar, etkileyici doku
-
Dezavantajları: Olmayan ayrıntıları uydurabilir - bazen yanlış, bazen de tuhaf ( SRGAN , ESRGAN )
GAN, nefes kesici bir keskinlik sağlayabilir. Ayrıca portre öznenize fazladan bir kaş da verebilir. Yani... hangi konulara öncelik vereceğinizi seçin 😬
3) Yayılıma dayalı ölçeklendirme (yaratıcı joker) 🌫️➡️🖼️
SR3 ) üretmek üzere yönlendirilebilir
-
Artıları: Özellikle yaratıcı çalışmalarda inanılmaz derecede gerçekçi detaylar çizebiliyor
-
Dezavantajları: Ayarlar agresif olursa orijinal kimlikten/yapıdan uzaklaşabilir ( SR3 ).
İşte burada "ölçek büyütme" ile "yeniden tasarlama" iç içe geçmeye başlıyor. Bazen tam olarak istediğiniz şey budur. Bazen ise değildir.
4) Zamansal tutarlılıkla video çözünürlüğünü artırma 🎞️
Video çözünürlüğünü artırma işlemi genellikle hareket algılama mantığı ekler:
-
Komşu kareleri kullanarak detayları stabilize eder ( BasicVSR (CVPR 2021) )
-
Titreme ve sürünme görüntü bozukluklarını önlemeye çalışır
-
Genellikle süper çözünürlüğü gürültü azaltma ve tarama çizgilerini giderme ile birleştirir ( Topaz Video ).
Görüntü çözünürlüğünü artırmak bir tabloyu restore etmeye benziyorsa, video çözünürlüğünü artırmak, karakterin burnunun şeklinin her sayfada değişmesine gerek kalmadan bir çizgi romanı restore etmeye benziyor. Bu da... göründüğünden daha zor.
Yapay zekâ ile yapılan görüntü iyileştirmelerinin bazen neden sahte göründüğü (ve nasıl tespit edileceği) 👀🚩
Yapay zekâ destekli ölçeklendirme, tanınabilir şekillerde başarısız oluyor. Kalıpları bir kere öğrendikten sonra, onları her yerde göreceksiniz; tıpkı yeni bir araba satın alıp birdenbire o modeli her sokakta görmek gibi 😵💫
Sıkça rastlanan belirtiler:
-
aşırı ağda (çok fazla gürültü giderme + pürüzsüzleştirme)
-
Kenarlarda aşırı keskinleştirilmiş haleler Bikübik enterpolasyon )
-
Tekrarlanan dokular (tuğla duvarlar kopyala-yapıştır desenlerine dönüşüyor)
-
Algoritma izlenimi veren, keskin mikro kontrast
-
Harflerin neredeyse harf haline geldiği (en kötü türü) metin bozulması.
-
Özellikle difüzyon iş akışlarında küçük özelliklerin ince bir şekilde değiştiği detay kayması SR3 )
İşin püf noktası şu: Bazen bu görüntüler ilk bakışta "daha iyi" görünüyor. Beyniniz keskinliği sever. Ama bir an sonra, garip geliyor...
İyi bir taktik, görüntüyü normal izleme mesafesinde doğal görünüp görünmediğini kontrol etmek için uzaklaştırmaktır. Eğer sadece %400 yakınlaştırmada iyi görünüyorsa, bu bir zafer değil, bir hobi demektir 😅
Yapay Zeka ile Ölçeklendirme Nasıl Çalışır: Matematiksel Karmaşa Olmadan Eğitim Tarafı 📉🙂
Süper çözünürlük modellerinin eğitimi genellikle şunları içerir:
-
Eşleştirilmiş veri kümeleri (düşük çözünürlüklü giriş, yüksek çözünürlüklü hedef) ( Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) )
-
Yanlış yeniden yapılandırmaları cezalandıran kayıp fonksiyonları SRGAN )
Tipik hasar türleri:
-
Piksel kaybı (L1/L2)
doğruluğu artırır. Hafif bulanık sonuçlar üretebilir. -
Algısal kayıp,
tam pikseller yerine daha derin özellikleri ("benzer görünüyor mu?" gibi) karşılaştırır Algısal Kayıplar (Johnson vd., 2016) ). -
Çekişmeli kayıp (GAN)
, bazen kelime anlamından ödün verme pahasına gerçekçiliği teşvik eder ( SRGAN , Üretken Çekişmeli Ağlar ).
Sürekli bir güç mücadelesi var:
-
Orijinaline
sadık kal vs. -
Görsel olarak hoş görünmesini sağlayın.
Farklı araçlar bu spektrumda farklı noktalara yerleşir. Ve aile fotoğraflarını restore ediyorsanız veya adli doğruluktan ziyade "iyi görünmenin" daha önemli olduğu bir poster hazırlıyorsanız, birini tercih edebilirsiniz.
Pratik iş akışları: fotoğraflar, eski taramalar, anime ve videolar 📸🧾🎥
Fotoğraflar (portreler, manzaralar, ürün fotoğrafları)
En iyi uygulama genellikle şöyledir:
-
Önce hafif gürültü azaltma işlemi uygulayın (gerekirse)
-
Şık ve sade bir tarz
-
Eğer çok pürüzsüz geliyorsa, tekrar tanecik ekleyin (evet, gerçekten)
Tahıl tuz gibidir. Çok fazla olması yemeği mahveder, ama hiç olmaması da yemeğin tadını yavanlaştırabilir 🍟
Eski taramalar ve aşırı sıkıştırılmış görüntüler
Bunlar daha zor çünkü model sıkıştırma bloklarını "doku" olarak ele alabilir.
Şunu deneyin:
-
Eser kaldırma veya engellemeyi kaldırma
-
Sonra lüks
-
Sonra hafifçe bileme (çok fazla değil... Biliyorum, herkes öyle diyor ama yine de)
Anime ve çizgi sanatı
Çizimlerin faydaları şunlardır:
-
Keskin kenarları koruyan modeller
-
Azaltılmış doku yanılsaması.
Anime'nin büyütülmüş hali genellikle harika görünür çünkü şekiller daha basit ve tutarlıdır. (Ne şanslısınız.)
Video
Video ek adımlar içeriyor:
-
Gürültü Azaltma
-
(Belirli kaynaklar için) tarama çizgilerini giderme
-
Lüks
-
Zamansal yumuşatma veya stabilizasyon ( BasicVSR (CVPR 2021) )
-
Kohezyon için isteğe bağlı tane yeniden eklenmesi
Zamansal tutarlılığı atlarsanız, o parıldayan detay titremesini elde edersiniz. Bir kere fark ettiğinizde, artık görmezden gelemezsiniz. Sessiz bir odada gıcırdayan bir sandalye gibi 😖
Rastgele seçim yapmadan ayarları seçmek (küçük bir ipucu) 🎛️😵💫
İşte iyi bir başlangıç zihniyeti:
-
Yüzler yapay görünüyorsa
, gürültü azaltmayı, keskinleştirmeyi azaltın veya yüz koruma modu deneyin. -
Dokular çok yoğun görünüyorsa,
"detay geliştirme" veya "detay kurtarma" kaydırıcılarını düşürün ve ardından hafif bir gren ekleyin. -
Kenarlar parlıyorsa
, keskinleştirmeyi azaltın ve hale bastırma seçeneklerini kontrol edin. -
Görüntü çok "yapay zeka ürünü" görünüyorsa,
daha muhafazakar olun. Bazen en iyi hamle sadece... daha azıdır.
Ayrıca: sırf yapabiliyor diye 8x büyütme yapmayın. Temiz bir 2x veya 4x genellikle en ideal boyuttur. Bunun ötesinde, modelden pikselleriniz hakkında fanfiction yazmasını istiyorsunuz demektir 📖😂
Etik, özgünlük ve "gerçek"in o garip sorusu 🧭😬
Yapay zekâ ile çözünürlüğü artırma, sınırları bulanıklaştırıyor:
-
Restorasyon, var olanı geri kazanmayı ifade eder
-
Geliştirme, mevcut olmayan şeylerin eklenmesi anlamına gelir
Kişisel fotoğraflarda genellikle sorun olmaz (ve güzeldir). Ancak gazetecilikte, hukuki delillerde, tıbbi görüntülemede veya gizliliğin önemli olduğu her durumda dikkatli olmanız gerekir ( OSAC/NIST: Adli Dijital Görüntü Yönetimi için Standart Kılavuz , SWGDE Adli Görüntü Analizi Yönergeleri ).
Basit bir kural:
-
Riskler yüksekse, yapay zeka ölçeklendirmesini örnek teşkil eden bir durum .
Ayrıca, şeffaflık profesyonel bağlamlarda da önemlidir. Yapay zekanın kötü olmasından değil, izleyicilerin ayrıntıların yeniden oluşturulup oluşturulmadığını veya kaydedilip kaydedilmediğini bilmeyi hak etmesinden dolayı. Bu sadece... saygılı bir davranış.
Kapanış notları ve kısa bir özet 🧡✅
şekilde çalışır : Modeller, yüksek çözünürlüklü detayların düşük çözünürlüklü desenlerle nasıl ilişkili olduğunu öğrenir ve ardından yükseltme sırasında inandırıcı ek pikseller tahmin eder ( Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma ). Model ailesine (CNN, GAN, difüzyon, video-zamansal) bağlı olarak, bu tahmin muhafazakar ve doğru olabilir… veya cesur ve bazen de kontrolden çıkmış olabilir 😅
Kısa özet
-
Geleneksel büyütme işlemi pikselleri genişletir ( Bikübik enterpolasyon ).
-
Yapay zekâ destekli görüntü iyileştirme, öğrenilen kalıpları kullanarak eksik ayrıntıları tahmin eder ( Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) ).
-
Doğru model ve ölçülülük harika sonuçlar doğurur
-
Videoda halelere, mumsu yüzlere, tekrarlanan dokulara ve titremeye dikkat edin ( BasicVSR (CVPR 2021) ).
-
Ölçek büyütme genellikle "makul bir yeniden yapılandırma"dır, mükemmel bir gerçek değildir ( SRGAN , ESRGAN ).
İsterseniz, neyi yükselttiğinizi (yüzler, eski fotoğraflar, videolar, anime, metin taramaları) söyleyin, ben de yaygın "yapay zeka görünümü" tuzaklarından kaçınmanıza yardımcı olacak bir ayar stratejisi önereyim 🎯🙂
SSS
Yapay zeka ölçeklendirmesi ve çalışma prensibi
Yapay zekâ destekli çözünürlük artırma (genellikle "süper çözünürlük" olarak adlandırılır), eğitim sırasında öğrenilen kalıplardan eksik yüksek çözünürlüklü ayrıntıları tahmin ederek bir görüntünün çözünürlüğünü artırır. Bikübik enterpolasyon gibi pikselleri basitçe germek yerine, bir model kenarları, dokuları, yüzleri ve metin benzeri çizgileri inceler ve ardından öğrenilen bu kalıplarla uyumlu yeni piksel verileri üretir. Bu, "gerçeği geri yüklemek"ten ziyade, doğal görünen "inandırıcı bir tahminde bulunmak"tır.
Yapay zeka destekli ölçek büyütme ile bikübik veya geleneksel yeniden boyutlandırma karşılaştırması
Geleneksel büyütme yöntemleri (bikübik gibi) esas olarak mevcut pikseller arasında enterpolasyon yaparak, gerçek anlamda yeni detaylar oluşturmadan geçişleri yumuşatır. Yapay zeka destekli büyütme, görsel ipuçlarını tanıyarak ve bu ipuçlarının yüksek çözünürlüklü versiyonlarının nasıl görüneceğini tahmin ederek makul bir yapıyı yeniden oluşturmayı amaçlar. Bu nedenle yapay zeka sonuçları çok daha keskin görünebilir ve aynı zamanda kaynakta bulunmayan yapaylıklar veya "icatlar" da ortaya çıkarabilir.
Yüzler neden mumsu veya aşırı pürüzsüz görünebilir?
Mumsu yüzler genellikle doğal cilt dokusunu ortadan kaldıran agresif gürültü azaltma ve yumuşatma işlemlerinin yanı sıra keskinleştirmeden kaynaklanır. Birçok araç gürültüyü ve ince dokuyu benzer şekilde ele alır, bu nedenle bir görüntüyü "temizlemek" gözenekleri ve ince ayrıntıları silebilir. Yaygın bir yaklaşım, gürültü azaltma ve keskinleştirmeyi azaltmak, varsa yüz koruma modunu kullanmak ve ardından sonucun daha az plastik ve daha fotoğrafik görünmesi için biraz gren eklemektir.
Yapay zeka ölçeklendirmesinde dikkat edilmesi gereken yaygın hatalar
Tipik belirtiler arasında kenarların etrafında haleler, tekrarlanan doku desenleri (kopyala-yapıştır tuğlalar gibi), keskin mikro kontrast ve "neredeyse harflere" dönüşen metinler bulunur. Difüzyon tabanlı iş akışlarında, küçük özelliklerin ince bir şekilde değiştiği yerlerde detay kayması da görebilirsiniz. Video için, titreme ve kareler arasında kayan detay büyük uyarı işaretleridir. Sadece aşırı yakınlaştırmada iyi görünüyorsa, ayarlar muhtemelen çok agresiftir.
GAN, CNN ve difüzyon ölçekleyicilerinin sonuçlarında nasıl farklılık gösterdikleri
CNN tabanlı süper çözünürlük daha istikrarlı ve tahmin edilebilir olma eğilimindedir, ancak zorlandığında "işlenmiş" görünebilir. GAN tabanlı seçenekler (ESRGAN tarzı) genellikle daha canlı doku ve algılanan keskinlik üretir, ancak özellikle yüzlerde yanlış ayrıntılar gösterebilir. Difüzyon tabanlı büyütme, güzel ve inandırıcı ayrıntılar üretebilir, ancak yönlendirme veya güç ayarları çok güçlü olursa orijinal yapıdan sapabilir.
"Çok yapay zekalı" bir görünümden kaçınmak için pratik bir ayar stratejisi
Öncelikle temkinli başlayın: aşırı faktörlere başvurmadan önce 2x veya 4x ölçeklendirme uygulayın. Yüzler plastik gibi görünüyorsa, gürültü azaltma ve keskinleştirmeyi düşürün ve yüz tanıma modunu deneyin. Dokular çok yoğun hale gelirse, detay geliştirmeyi azaltın ve sonrasında ince bir gren eklemeyi düşünün. Kenarlar parlıyorsa, keskinleştirmeyi azaltın ve hale veya yapaylık bastırmayı kontrol edin. Birçok işlem hattında, inandırıcı gerçekçiliği koruduğu için "az" kazanır.
Eski taramaları veya yoğun JPEG sıkıştırmalı görüntüleri yükseltmeden önce işleme
Sıkıştırılmış görüntüler zordur çünkü modeller blok halindeki bozulmaları gerçek doku olarak algılayıp bunları büyütebilir. Yaygın bir iş akışı, önce bozulma giderme veya blok kaldırma, ardından büyütme ve gerekirse hafif keskinleştirmedir. Taramalarda, hafif bir temizleme, modelin hasardan ziyade gerçek yapıya odaklanmasına yardımcı olabilir. Amaç, büyütme işleminin gürültülü girdilerden kesin tahminler yapmak zorunda kalmaması için "sahte doku ipuçlarını" azaltmaktır.
Video çözünürlüğünü artırmanın fotoğraf çözünürlüğünü artırmaktan neden daha zor olduğu
Video çözünürlüğünün artırılması, yalnızca tek bir hareketsiz görüntüde iyi olmakla kalmamalı, tüm karelerde tutarlı olmalıdır. Ayrıntılar kareler arasında titriyorsa, sonuç hızla dikkat dağıtıcı hale gelir. Video odaklı yaklaşımlar, yeniden yapılandırmayı stabilize etmek ve titreme kusurlarını önlemek için komşu karelerden zamansal bilgileri kullanır. Birçok iş akışı ayrıca gürültü giderme, belirli kaynaklar için tarama çizgilerini kaldırma ve isteğe bağlı olarak gren yeniden ekleme işlemlerini içerir, böylece tüm sekans yapay olarak keskin değil, tutarlı bir his verir.
Yapay zekâ ile ölçeklendirme uygun olmadığında veya ona güvenmek riskli olduğunda
Yapay zekâ ile yapılan görüntü iyileştirmesi, kanıt olarak değil, geliştirme olarak ele alınmalıdır. Gazetecilik, hukuki deliller, tıbbi görüntüleme veya adli tıp gibi yüksek riskli bağlamlarda, "inandırıcı" pikseller üretmek yanıltıcı olabilir çünkü yakalanmamış ayrıntıları ekleyebilir. Daha güvenli bir yaklaşım, bunu açıklayıcı olarak kullanmak ve bir yapay zekâ sürecinin ayrıntıyı yeniden oluşturduğunu belirtmektir. Doğruluk kritik önem taşıyorsa, orijinalleri koruyun ve her işlem adımını ve ayarını belgeleyin.
Referanslar
-
arXiv - Görüntü Süper Çözünürlüğü için Derin Öğrenme: Bir Araştırma - arxiv.org
-
arXiv - Derin Evrişimsel Ağlar Kullanarak Görüntü Süper Çözünürlüğü (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA Geliştiricisi - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Süper Çözünürlük 2 - gpuopen.com
-
Bilgisayar Görseli Vakfı (CVF) Açık Erişim - BasicVSR: Video Süper Çözünürlüğünde Temel Bileşenlerin Aranması (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Üretken Çekişmeli Ağlar - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Algısal Kayıplar (Johnson ve ark., 2016) - arxiv.org
-
GitHub - Real-ESRGAN deposu (döşeme seçenekleri) - github.com
-
Vikipedi - İki Kübik İnterpolasyon - wikipedia.org
-
Topaz Labs - Topaz Fotoğraf - topazlabs.com
-
Topaz Labs - Topaz Video - topazlabs.com
-
Adobe Yardım Merkezi - Adobe Enhance > Süper Çözünürlük - helpx.adobe.com
-
NIST / OSAC - Adli Dijital Görüntü Yönetimi için Standart Kılavuz (Sürüm 1.0) - nist.gov
-
SWGDE - Adli Görüntü Analizi İçin Yönergeler - swgde.org