Kısa süre önce duyurulan GPT-3 yapay zeka meraklılarını oldukça heyecanlandırdı. Metin yazmadan site tasarlamaya kadar pek çok işi kısa sürede yapabiliyor olan GPT-3 resim tamamlama yeteneği sayesinde dikkatleri üzerine çekmeyi başarıyor. Herhangi bir resmin yarısını kestiğinizde diğer yarısını tatmin edici düzeyde tamamlayabilen GPT-3 ‘ün Yapay Zeka İle Resim Tamamlama özelliğini incelemeye başlayalım…
Öncelikle GPT-3’ü tanımayanlar için özet bir bilgi verelim;
Generative Pre-trained Transformer 3 kısaca GPT-3, insanların yazdığı metinlere benzer içerik üretmek için derin öğrenmeyi kullanan özbağlanımlı dil modelidir. GPT-n serisindeki üçüncü nesil dil tahmin modeli olan GPT-3, San Francisco merkezli yapay zeka araştırma laboratuvarı OpenAI tarafından geliştirilmiştir. Wikipedia
Wikipedi’nin tanımına göre GPT-3, derin öğrenmeyi kullanan ve zengin bir besleme ağına sahip olan gelişmiş bir dil tahmin modelidir. Peki bu ne anlama geliyor?
Gelişmiş dil tahmin modeli, sahip olunan veriden beslenerek mevcut dil ya da dillerin yapısını öğrenip bu öğrenim sonucunda varsayımlar üzerinden metin yazma modelidir. Yani GPT-3 elindeki metinleri (verileri) kullanarak bu metinlerin devamı ya da serisi niteliğinde yeni metinler üretebiliyor. +400 milyar veriyi +170 milyon parametre kullanarak işleyen bu devasa güç, metin yazmaktan ziyade resim tamamlama yeteneği ile de dikkat çekiyor.
Tıpkı dil üzerine eğitilmiş büyük bir transformatör modelinin tutarlı metin üretebilmesi gibi, piksel dizileri üzerinde eğitilen aynı modelin tutarlı görüntü tamamlamaları ve örnekleri oluşturabileceğini gören OpenAI ekibi, örnek kalitesi ve görüntü sınıflandırma doğruluğu arasında bir korelasyon kurarak denetimsiz ortamda evrişimli ağlara rekabet eden özellikleri içeren bir teknoloji geliştirdiler.
Yapay Zeka İle Resim Tamamlama Beslemesi
İnsandan bağımsız olarak resimleri tamamlayan ve her tamamladığı resimden yeni şeyler öğrenip sonraki resimleri de buna göre tamamlayan bir yapay zeka ile neler yapamayız ki?
DEĞERLENDİRME | VERİ KÜMESİ | SONUCUMUZ | İGPT Olmayan EN İYİ SONUÇ |
---|---|---|---|
Öğrenilen özelliklerde lojistik regresyon (doğrusal prob) | CIFAR-10 |
96.3
iGPT-L 32×32 w / 1536 özellikleri |
95.3
SimCLR w / 8192 özellikleri |
CIFAR-100 |
82.8
iGPT-L 32×32 w / 1536 özellikleri |
80.2
SimCLR w / 8192 özellikleri |
|
STL-10 |
95.5
iGPT-L 32×32 w / 1536 özellikleri |
94.2
AMDIM w / 8192 özellikleri |
|
ImageNet |
72.0
iGPT-XL 64×64 w / 15360 özellikleri |
76.5
SimCLR w / 8192 özellikleri |
|
Tam ince ayar | CIFAR-10 |
99.0
ImageNet üzerinde eğitilmiş iGPT-L 32×32 |
99.0
GPipe, ImageNet konusunda eğitildi |
ImageNet 32×32 |
66.3
iGPT-L 32×32 |
70.2
İzometrik Ağlar |
Yukarıdaki tabloda açıkça görüldüğü gibi Image GPT oldukça zengin bir veri ağından besleniyor. 300 Milyondan fazla görüntü ile beslenmiş olan Image GPT görüntüleri bu veri yığını sayesinde tamamlıyor. Peki teoride bu kadar başarılı olan bir yapay zeka pratikte nasıl işler yapıyor? Hep birlikte görelim…
Hemen üstte görmüş olduğunuz ilk resim Image GPT ye verilen yarım bir resim. GPT bu yarım görseli alıp olabilecek en uygun şekilde tamamlıyor ve birden fazla varyant sunuyor. Üstelik sadece spor kategorisinde değil pek çok kategoride yarım olan resimleri tamamlayabiliyor. İşte bazı örnekleri;
Örneklerdeki ilk resimlerin yarısının analiz edilerek diğer yarısı için birden fazla varyant sunulmasını sağlayan be bu konuda korkunç derecede başarılı olan Image GPT projesi hangi sektörlerde kullanılır bilinmez. Projenin API’ına erişmek için listeye girmek ve sıra beklemek gerekiyor. Henüz herkese açık olmayan bir proje olsa da ileride kısıtlı da olsa erişim alabileceğimizi ümit ediyoruz.