GPT-4o: a legújabb zászlóshajó, mely mindenkinek elérhető

GPT-4o: a legújabb zászlóshajó, mely mindenki számára elérhető

Bevezető

Szabó Máté | 2024. május 17.

“Bejelentjük a GPT-4o-t, az új zászlóshajó-modellünket, amely valós időben képes érzékelni a hangot, a képet és a szöveget.” – OpenAI.

A GPT-4o, ahol az „o” az „omni”-t jelenti, a bemeneti és kimeneti módok szélesebb spektrumát szolgálja. Bemenetként elfogadja a szöveg, a hang és a kép bármilyen kombinációját, és bármilyen szöveg-, hang- és képkimenet kombinációt generál.

Megjelenés

Az OpenAI hétfőn bejelentette legújabb mesterséges intelligencia nagy nyelvi modelljét, amely a ChatGPT-t intelligensebbé és könnyebben használhatóvá teszi.

Az új modell, a GPT-4o a cég korábbi GPT-4 modelljének frissítése , amely alig több mint egy éve jelent meg. A modell az ingyenes felhasználók számára is elérhető lesz, vagyis bárki hozzáférhet az OpenAI legfejlettebb technológiájához a ChatGPT-n keresztül.

A cég hétfői bemutatója alapján a GPT-4o gyakorlatilag digitális személyi asszisztenssé alakítja a ChatGPT-t, amely valós idejű beszélgetéseket tud folytatni, megérti a hangszínt és beszéd közben közbevágva is életszerűen le tudja reagálni azt. Szöveg és „látás” használatával is képes lesz interakcióra, azaz megtekintheti a felhasználók által feltöltött fényképeket, dokumentumokat vagy diagramokat, és beszélhet róluk.

Az OpenAI technológiai igazgatója, Mira Murati elmondta, hogy a ChatGPT frissített verziója ezentúl memóriaképességekkel is rendelkezik, vagyis képes tanulni a felhasználókkal folytatott korábbi beszélgetésekből, és valós idejű fordítást is végezhet.

Elérhetőség és jövőbeli integráció

Már a GPT-4o szöveges és képi képességei elérhetők a ChatGPT-ben – beleértve az ingyenes szintet és a Plus-felhasználók számára kibővített funkciókat. Az elkövetkező hetekben a ChatGPT Plus tesztelésébe kerül egy új, GPT-4o által működő hangmód.

“Two GPT-4o interacting and singing”

A fejlesztők az API-n keresztül érhetik el a GPT-4o-t szöveges és látási feladatokhoz, kihasználva a GPT-4 Turbóhoz képest megkétszerezett sebességét, felére csökkentett árát és megnövelt sebességkorlátait.

Az OpenAI azt tervezi, hogy az API-n keresztül kiterjeszti a GPT-4o audio- és videofunkcióit a megbízható partnerek kiválasztott csoportjára, és a közeljövőben szélesebb körű bevezetésre is számítanak. Ennek a szakaszos kiadási stratégiának a célja, hogy alapos biztonsági és használhatósági tesztelést biztosítson, mielőtt a képességek teljes skáláját nyilvánosan elérhetővé tenné.

„Rendkívül fontos, hogy mindenki számára ingyenesen elérhetővé tették ezt a modellt, valamint 50%-kal olcsóbbá tették az API-t. Ez óriási mértékben növeli a hozzáférhetőséget” – áll a tájékoztatóban.

Az OpenAI a felhasználóktól visszajelzéseket kér, hogy folyamatosan finomítsák a GPT-4o-t, hangsúlyozva a felhasználói hozzájárulás fontosságát az olyan hiányosságok azonosításában és megszüntetésében, ahol a GPT-4 Turbo még mindig jobban teljesít.

Microsoft – GPT 4o bemutató

Ezzel egyidőben a Microsoft is bejelentette a GPT-4o megjelenését, mely már elérhető az Azure OpenAI szolgáltatásban, és ki is próbálható szöveges és képi támogatással.

Tájékoztatásuk szerint egyelőre csak az Azure OpenAI Service ügyfelei számára vált elérhetővé az előzetes verzió, és az is csak az Egyesült Államok két régiójában, de idővel szeretnék elérhetővé tenni minél szélesebb körben felhasználóik számára.