OpenAI, geliştiriciler ve tüketiciler için önümüzdeki birkaç hafta içinde kullanılabilir hale gelecek güçlü bir multimodal yapay zeka modeli olan GPT-4o'yu tanıttı. GPT-4o ismindeki "o" harfi "omni" (her yönlü) anlamına geliyor ve modelin multimodal özelliklerini ifade ediyor.

GPT-4o'nun Özellikleri ve Teknik Yetenekleri
OpenAI'nin teknik direktörü Mira Murati, San Francisco'daki OpenAI ofisinde yapılan ürün sunumunda, GPT-4o'nun "GPT-4 seviyesinde" bir zekaya sahip olduğunu, ancak metin, görüntü ve sesle çalışma yeteneklerinin daha yüksek olduğunu belirtti. Murati, "GPT-4o ses, metin ve görsel imgeleri algılayabiliyor," dedi ve bu özelliklerin makinelerle etkileşimde gelecekte büyük önem taşıyacağını vurguladı.
GPT-4 Turbo ve GPT-4o Arasındaki Farklar
Önceki model olan GPT-4 Turbo, görüntüler ve metinlerin kombinasyonuyla eğitilmişti. Bu model, görüntülerden metin çıkarma ve görüntü içeriğini tanımlama gibi görevleri yerine getirebiliyordu. GPT-4o ise bu yeteneklere ek olarak konuşmayı da işleyebiliyor. GPT-4o'nun 128 bin token'lık geniş bir bağlam penceresi bulunuyor.
ChatGPT ile Gerçek Zamanlı Etkileşim
GPT-4o, ChatGPT'nin işleyişini önemli ölçüde geliştirecek. ChatGPT, uzun süredir sesli modda çalışabilse de, GPT-4o bu işlevi güçlendirerek kullanıcıların chatbot ile bir asistan gibi etkileşimde bulunmasına imkan tanıyacak. Örneğin, kullanıcılar chatbot'a soru sorup cevap verirken onu kesebilecek. OpenAI'ye göre, GPT-4o "gerçek zamanlı" yanıtlar sağlayacak ve kullanıcının ses tonundaki duyguları algılayarak duruma uygun çeşitli duygusal tarzlarda yanıtlar üretebilecek.
ChatGPT'nin Görsel Yetenekleri ve Gelecek Potansiyeli
GPT-4o, ChatGPT'nin görsel yeteneklerini de geliştirecek. ChatGPT, verilen bir fotoğraf veya masaüstü ekran görüntüsüne dayanarak ilgili sorulara hızlıca yanıt verebilecek: "Bu program kodunda ne oluyor?" veya "Bu kişi hangi markanın gömleğini giyiyor?" gibi sorulara cevap verebilecek.
Gelecek Planları ve Kullanıcı İmkanları
Gelecekte, GPT-4o'nun yetenekleri daha da genişleyecek. Örneğin, şu anda GPT-4o ile fotoğraflanmış bir menüyü başka bir dile çevirebilirken, gelecekte ChatGPT, bir spor müsabakasını canlı olarak izleyip kuralları açıklayabilecek. Murati'ye göre, bu tür yenilikler OpenAI'nin vizyonunun bir parçası.
Ücretli ve Ücretsiz Kullanıcılar İçin Farklılıklar
Bugünden itibaren, GPT-4o hem ücretli hem de ücretsiz ChatGPT kullanıcıları için erişilebilir olacak. Ancak, ChatGPT Plus ve Team aboneleri için mesaj sınırı "5 kat daha yüksek" olacak. Sınır aşıldığında, ücretsiz kullanıcılar otomatik olarak GPT-3.5'e, ücretli kullanıcılar ise GPT-4'e geçecek.
Ücretsiz Kullanıcılar İçin Yeni Özellikler
Ücretsiz kullanıcılar, GPT-4o ile daha önce sadece ücretli abonelere sunulan bazı özelliklere erişim kazanacak. Bu özellikler arasında internetten bilgi arama, veri analiz etme ve grafik oluşturma, kullanıcı görüntü ve dosyalarıyla çalışma ve önceki etkileşimleri daha iyi hatırlama yer alıyor. Ayrıca, ücretsiz kullanıcılar GPT Store'a da erişebilecek.
GPT-4o'nun Dil Desteği ve Performansı
OpenAI, GPT-4o'nun daha fazla dili desteklediğini ve 50 farklı dilde daha iyi performans gösterdiğini açıkladı. API'de GPT-4o, GPT-4'e (özellikle GPT-4 Turbo'ya) göre iki kat daha hızlı, yarı yarıya daha ucuz ve daha yüksek hız limitlerine sahip.
Gelecek Sesli İletişim Desteği
Şu anda, GPT-4o'nun sesli iletişim desteği tüm müşteriler için API'de bulunmuyor. OpenAI, yanlış kullanım riskinden dolayı bu yeni ses özelliklerini ilk olarak "güvenilir ortaklar grubuna" sunmayı planlıyor