OpenAI, ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi yapay zeka modeli GPT-4o'yu geçtiğimiz mayıs ayında duyurmuştu. Firmaya göre yüz ifadelerinizi okuyabilen ve konuşulan dili gerçek zamanlı olarak tercüme edebilen GPT-4o, farklı duygu türlerini taklit edebilecekti. Bunları yapmasını sağlayacak olan gelişmiş, insan benzeri ses özelliği şimdiye kadar piyasaya sürülmedi ancak CEO Sam Altman bunun için beklenen tarihi verdi.

Gelişmiş ses özelliği haftaya geliyor

CEO Sam Altman, X hesabından bir paylaşıma verdiği yanıttı GPT-4o’nun gelişmiş Ses Modu özelliğinin önümüzde hafta itibariyle ChatGPT Plus abonelerine sunulacağını açıkladı. Altman daha fazla detay vermedi, o yüzden tüm Plus abonelerine mi yoksa yine küçük bir kullanıcı kitlesine mi sunulacağı belirsiz. Ancak her halükarda yeni ses modu için daha fazla örnek paylaşımlar göreceğiz ve modelin OpenAI’ın gösterdiği kadar iyi olup olmadığını anlayabileceğiz. OpenAI, modelin "gerçek zamanlı" yanıt verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak "bir dizi farklı duygusal tarzda" (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak GPT-4o’nun Ses Modu, ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebiliyor. Bu da bir insanın ortalama yanıt süresiyle eşleşiyor. 

GPT-4o'dan önce, ChatGPT ile konuşmak için Ses Modunu ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikme süreleriyle kullanılıyor. Bu eski modellerde Ses Modu için aslında üç ayrı modelden oluşan bir süreç kullanılıyordu: basit bir model sesi metne dönüştürüyor, GPT-3.5 veya GPT-4 metni alıyor ve metin çıktısı veriyor ve üçüncü bir basit model bu metni tekrar sese dönüştürüyordu. Ancak GPT-4o ile her şey tek modelde birleşiyor. Ses, metin ve görsel bilgiler tek model tarafından analiz edip çıktıya dönüştürülüyor. Bu da daha hızlı ve yetkin bir modelle sonuçlanıyor.

Lenovo’nun çığır açan konsept dizüstü bilgisayarı Lenovo’nun çığır açan konsept dizüstü bilgisayarı

Sam Altman, bu ses modu için şu cümleleri kullanmıştı: "Yeni ses (ve video) modu şimdiye kadar kullandığım en iyi bilgisayar arayüzü. Filmlerdeki yapay zeka gibi hissettiriyor; ve gerçek olması benim için hala biraz şaşırtıcı. İnsan seviyesinde tepki sürelerine ve ifade gücüne ulaşmak büyük bir değişiklik olacak gibi görünüyor."

Kaynak: DonanımHaber