Görüntüyü kalite kaybetmeden 4K'ya yükseltme

intermediario · 10 min · Por Ana Brainiall

Geleneksel "zoom" neden her zaman bulanıklaştırır

Photoshop'ta Bicubic veya Lanczos kullanarak bir fotoğrafı büyüttüğünüzde, algoritma yeni pikselleri komşularının ağırlıklı ortalaması olarak doldurur. Bu matematiksel açıdan temiz bir yöntemdir; ancak sonuç her zaman bulanık olur — çünkü var olmayan bilgi ortaya çıkamaz. 512×512 (262 bin piksel) bir görüntü aldınız ve ara 768 bin pikseli elinizdekilere dayanarak icat ettiniz.

Modern yapay zeka bunu temelden farklı bir şekilde çözer: enterpolasyon yapmak yerine, muhtemelen orada olması gerekeni üretir. Real-ESRGAN gibi modeller, milyonlarca (düşük çözünürlük, yüksek çözünürlük) çifti üzerinde eğitilmiş ve orijinal görüntüyle tutarlı olan saç, cilt, doku, kenar gibi makul ayrıntıları "hayal etmeyi" öğrenmiştir.

comparação lado a lado — à esquerda uma foto 512x512 ampliada com bicubic (borra

Modelin gerçek fotoğraflar hakkında "bildikleri"

Real-ESRGAN ve benzerleri, çeşitli ölçeklerdeki fotoğraflardan oluşan devasa veri setleri üzerinde eğitilmiştir. Bu modeller istatistiksel prior'lar öğrenir; yani yakın piksellerin cilt, kumaş, metal veya yaprak bölgesinde olduğunda "normalde" nasıl göründüğünü. Düşük çözünürlüklü bir fotoğraf verdiğinizde model şunu söyler: "Bu bölge muhtemelen bir yanak; yüksek çözünürlüklü yanaklar şu özelliklere sahiptir."

Bu güçlü bir yaklaşımdır; ancak bir yan etkisi vardır: model, doğru görünecek ama orijinal görüntüye sadık olmayan ayrıntılar icat edecektir. Gazetecilik veya adli fotoğraflarda bu sorunludur; yaratıcı kullanım için ise tam istediğiniz şeydir.

Real-ESRGAN, GFPGAN ve diğerleri: hangisini kullanmalısınız?

Model seçimi, büyüttüğünüz içeriğe bağlıdır:

Real-ESRGAN: Genel kullanım (fotoğraflar, ekran görüntüleri, grafikler). Daha "doğal" bir netlik üretir. Orta düzey hesaplama maliyeti.
GFPGAN: Yüzlere özel. Görüntünüzde bir kişi varsa yüzleri ayrı işlemeye değer — GFPGAN, gözleri, ağızları ve saçları o bölge için çok daha yüksek kalitede yeniden oluşturur.
SwinIR: Daha tutucu bir alternatif — daha az "hayal gücü", daha fazla sadakat. Teknik görüntüler veya belgeler için daha uygundur.
Kombine pipeline: Tüm görüntü için Real-ESRGAN, ardından yalnızca yüz bölgelerinin GFPGAN ile değiştirilmesi. Brainiall'da görüntüde yüz tespit ettiğimizde bu kombinasyonu otomatik olarak uyguluyoruz.

tabela visual comparando 4 modelos — colunas: modelo, uso ideal, qualidade face,

Bilmeniz gereken sınırlamalar

Görüntüdeki metin: Giriş çok kötüyse küçük harfler okunamaz hale gelir. Model metnin nasıl göründüğünü "bilir" ama orada ne yazdığını okuyamaz — orijinalde B ile 8'i ayırt etmek mümkün değilse, yapay zeka birini seçer ve devam eder.
Amplified noise: Çok fazla grenli fotoğraflarda gren, ayrıntılarla birlikte "icat edilir". Temiz bir sonuç için upscale işleminden önce gürültü giderme uygulayın.
JPEG artifacts: Orijinalde görünür JPEG sıkıştırma blokları varsa model bunları güçlendirebilir. Mevcut olduğunda "anti-artifact" ön ayarını kullanın.
Stilize kompozisyonlar: Sanat eserleri, tablolar ve vektör illüstrasyonlar "aşırı fotoğrafik" görünebilir — bu tür durumlarda sanata özel modeller kullanın (örneğin Real-ESRGAN Anime).

Çabaya değer kullanım senaryoları

Eski fotoğraf restorasyonu: Dijitalleştirilmiş 600×400 → baskıya hazır 4K
E-ticaret: Tedarikçiden gelen düşük çözünürlüklü fotoğraflar → yüksek kaliteli web görselleri
Baskı: Web görsellerini pikselleşme olmadan afiş veya billboard için kullanma
Eski arşivler: 90'lardan kalma oyun ekran görüntüleri, VHS'ten yakalanan videolar vb.

Hemen deneyin

Brainiall sohbetinde düşük çözünürlüklü bir görüntü gönderin ve "bu görüntüyü 4x büyüt" isteğinde bulunun. Görüntüde yüz varsa bunu prompt'a ekleyin (kombine GFPGAN'ı etkinleştirmek için). Boyuta bağlı olarak 3-8 saniye içinde sonuç alırsınız. Pro Plan ayda 100 upscale içerir.

Görüntüyü kalite kaybetmeden 4K'ya yükseltme

Geleneksel "zoom" neden her zaman bulanıklaştırır

Modelin gerçek fotoğraflar hakkında "bildikleri"

Real-ESRGAN, GFPGAN ve diğerleri: hangisini kullanmalısınız?

Bilmeniz gereken sınırlamalar

Çabaya değer kullanım senaryoları

Hemen deneyin

API Entegrasyonu

Kursu beğendin mi?

Geleneksel "zoom" neden her zaman bulanıklaştırır

Modelin gerçek fotoğraflar hakkında "bildikleri"

Real-ESRGAN, GFPGAN ve diğerleri: hangisini kullanmalısınız?

Bilmeniz gereken sınırlamalar

Çabaya değer kullanım senaryoları

Hemen deneyin

API Entegrasyonu

Kursu beğendin mi?

Öğrenmeye devam