OpenAI'dan Devrim: Gerçek Zamanlı Ses Ve Çeviri API'ye Geldi

Teknoloji

OpenAI yine durmuyor. Şirket, geliştiricilere yönelik Realtime API’sini yeni ses zekası özellikleriyle donattı ve bu sefer iş ciddi. Artık geliştiriciler, kullanıcılarla gerçek anlamda konuşabilen, konuşmaları metne dönüştürebilen ve üstelik anında çeviri yapabilen uygulamalar inşa edebilecek. Yani sesin yapay zeka dünyasındaki rolü bambaşka bir boyuta taşınıyor.

Vallahi bunu duyunca insan durup bir düşünmek zorunda kalıyor. Çünkü bu sadece “sesli asistan” meselesi değil. Bunun çok ötesinde bir şey bu…

Neyse, devam edelim.

Yeni modelin adı GPT-Realtime-2. Önceki sürüm olan GPT-Realtime-1.5’ten ayrılan en kritik fark şu: Bu model GPT-5 sınıfı akıl yürütme altyapısıyla geliştirildi. Yani arka planda dönen motor çok daha güçlü. OpenAI’ın açıklamasına göre bu akıl yürütme katmanı, kullanıcıların daha karmaşık, daha çok adımlı isteklerini karşılayabilmek için tasarlandı. Basit soru-cevap değil artık; düşünen, anlayan, bağlantı kuran bir ses arayüzü.

Rakamlar da bunu destekliyor. GPT-Realtime-2, sesli akıl yürütme benchmark testlerinde selefi GPT-Realtime-1.5’e kıyasla ciddi bir performans artışı kaydetti. Özellikle Big Bench Audio testlerinde yüzde 15,2 daha yüksek skor elde edildi. Yüzde 15,2 küçük bir rakam değil bu işte, inanır mısınız? Bu sektörde böyle bir fark gerçekten manidardır.

Bir de bağlam penceresi meselesi var ki bunu geçmemek lazım. Eski modelde bu pencere 32 bin token’dı. Yeni GPT-Realtime-2’de bu rakam 128 bin token’a çıkarıldı. Dört kat. Dört katına çıktı. Yani model artık çok daha uzun ve karmaşık sesli oturumlar boyunca konuşmanın başında ne konuşulduğunu unutmuyor. Uzun toplantılar, uzun müşteri görüşmeleri, uzun eğitim seansları… Bunların hepsinde bağlamı koruyabilmek artık mümkün.

Bak şimdi, bir de şu araç çağrısı özelliği var ki bu gerçekten ilginç. Model artık aynı anda birden fazla araç çağrısı yapabiliyor. Yani konuşma sırasında kullanıcıya “takvimi kontrol ediyorum” ya da “şimdi bunu araştırıyorum” gibi ara geri bildirimler verebiliyor. Sesli asistan sanki bir insan gibi sürecin içinde olduğunu hissettiriyor. Bu küçük bir detay gibi görünebilir ama kullanıcı deneyimi açısından devasa bir fark yaratıyor aslında.

Neyse gelelim ikinci büyük yeniliğe. OpenAI, GPT-Realtime-Translate’i de aynı anda piyasaya sürdü. İşin aslı şu: Bu model, konuşma sırasında aynı hızda ilerleyen gerçek zamanlı çeviri sunmak için tasarlandı. Yani konuşma akarken çeviri de akıyor, gecikme yok, bekleme yok. Anlık. Gerçek zamanlı.

GPT-Realtime-Translate 70’ten fazla dili anlayabiliyor. Ama konuşmacıya destek verdiği dil sayısı şimdilik 13. Yani anlamak ile konuşmak arasında bir fark var; bunu da not etmek gerekiyor. Ayrıca bu model sadece çeviri yapmıyor, eş zamanlı transkripsiyon da üretiyor. Yani kullanıcı hem çeviriyi kulaklıktan duyuyor hem de ekranda metin çıktısını görebiliyor. Hem işitiyor hem okuyor. Çift kanal, tek anda.

Hadi canım, bir de GPT-Realtime-Whisper var tabiki. Bu yeni transkripsiyon modeli, etkileşimler sırasında canlı konuşma-metin dönüşümü sağlıyor. OpenAI özellikle şu kullanım alanlarını öne çıkardı: Toplantı notları, canlı altyazı, yayınlar ve müşteri destek süreçleri. Düşük gecikmeli transkripsiyon sunduğunu vurguluyor şirket. Bu da demek oluyor ki büyük konferanslar, canlı yayınlar, çağrı merkezleri… Bunların hepsi bu teknolojiden doğrudan faydalanabilir.

Tüm bu üç model, OpenAI’ın Realtime API’sine entegre edildi. Geliştiriciler bu modellere tek bir API üzerinden erişebilecek.

Fiyatlandırma konusuna gelelim çünkü millet bunu merak ediyor. Translate ve Whisper dakika bazında faturalandırılıyor. GPT-Realtime-2 ise token tüketimi üzerinden fiyatlandırılıyor. Ses girdi tokenları için 1 milyon token başına 32 dolar, ses çıktısı için ise 64 dolar. Çıktı fiyatı girdi fiyatının tam iki katı, bunu da göz önünde bulundurmak lazım tabii.

OpenAI bu yeni modeller için şu açıklamayı yaptı: “Birlikte piyasaya sürdüğümüz modeller, gerçek zamanlı sesi basit bir soru-cevap formatından, konuşma ilerledikçe dinleme, akıl yürütme, çeviri, transkripsiyon ve eylem gerçekleştirme gibi işlevleri yerine getirebilen sesli arayüzlere taşıyor.” Yahu bu cümleyi okuyunca gerçekten duruyorsunuz. Çünkü ses artık pasif bir kanal değil, aktif bir zeka aracına dönüşüyor.

Şirket bu yeniliklerin eğitim, medya, etkinlikler ve içerik üretici platformları gibi alanlarda kullanılabileceğini de belirtiyor. Yani sadece kurumsal değil, bireysel içerik üreticileri de bu teknolojiden nasibini alabilecek. Bir YouTuber düşünün, bir podcast yapımcısı, bir online eğitmen… Bunların hepsi için kapılar aralanıyor.

Bir de şu güvenlik tarafı var ki bunu da atlamak olmaz. OpenAI, yeni özelliklerin spam, dolandırıcılık ve diğer çevrimiçi suistimal biçimleri için kötüye kullanılmasını önlemek amacıyla koruma önlemleri oluşturduğunu açıkladı. Zararlı içerik kurallarını ihlal eden konuşmaların durdurulabilmesi için sisteme belirli tetikleyiciler yerleştirilmiş. Yani sistem hem dinliyor hem de izliyor. Bunu da bilmek gerekiyor.

Geliştiriciler için bu duyuru gerçekten büyük. Sesli yapay zeka uygulamaları geliştirmek isteyen herkes için API şimdi çok daha yetenekli bir araç setine kavuştu. İşte böyle arkadaşlar, bakalım bu modeller gerçek dünya uygulamalarında nasıl performans gösterecek ve geliştiriciler bu araçlarla ne tür ürünler ortaya çıkaracak…

Kaynak: Orijinal Haber

ETİKETLER: GPT-Realtime-2 OpenAI