Az OpenAI és az Anthropic rivális AI-modelleket dobnak piacra, miközben a vállalati verseny egyre hevesebbé válik

Az OpenAI és az Anthropic csütörtökön egy órán belül egymás után mutatta be új zászlóshajó AI-modelleit a saját termékcsaládjában, rámutatva a vezető fejlesztők közötti egyre élesebb versenyre az üzleti szoftverek és a fejlett kódolási eszközök terén.

Az Anthropic bejelentette a Claude Opus 4.6-ot, amelynek előnyei a hosszú kontextusú érvelés és az ügynökalapú munkafolyamatok terén vannak, míg az OpenAI röviddel ezután kiadta a GPT-5.3 Codexet, egy ügynökalapú kódoláshoz és szoftverfejlesztéshez optimalizált modellt.

A szinte egyidejű bemutatók rávilágítottak arra, hogy a riválisok milyen gyorsan iterálnak, miközben a vállalatok versengenek a nagyvállalati ügyfelekkel kötött hosszú távú szerződések megszerzéséért.

A benchmark eredmények szerint a két modell különböző erősségekre van optimalizálva.

A Claude Opus 4.6 jobb teljesítményt nyújtott a jogi és pénzügyi érveléssel kapcsolatos feladatokban, míg a GPT-5.3 Codex az ügynökalapú kódolási tesztekben és a hatékonysági mutatókban teljesített jobban, a két vállalat által közzétett adatok szerint.

A bejelentések akkor történtek, amikor a befektetők újraértékelik a hagyományos szoftverszolgáltatók kilátásait, és több információs és szakmai szolgáltató cég részvényei is estek a héten, mivel aggodalmak merültek fel, hogy az AI-alapú platformok csökkentenék a meglévő vállalati eszközök iránti keresletet.

Az Anthropic szerint a Claude Opus 4.6 hosszú kontextusú érvelés és szakmai feladatok terén hozott eredményeket, hivatkozva az 1 millió tokenes kontextusablakra és a komplex információkeresés benchmarkjaként szolgáló MRCR v2-n elért 76%-os pontszámra.

A vállalat szerint a modell a korábbi verziókat is felülmúlta a pénzügyi és jogi feladatok terén, és bevezette az „ügynökcsapatokat”, amelyek lehetővé teszik, hogy több AI-ügynök párhuzamosan dolgozzon a kódoláson és a dokumentáción.

Az OpenAI nem sokkal későbbkiadta a GPT-5.3 Codexet, amelyet ügynöki kódoláshoz és kutatáshoz optimalizált modellként pozícionált.

Az OpenAI szerint a Codex 77,3%-os pontszámot ért el a Terminal-Bench 2.0-n, egy ügynöki kódolási benchmarkon, ahol a Claude Opus 4.6 65,4%-ot ért el, és kevesebb token felhasználásával gyorsabban végezte el a feladatokat.

Az OpenAI azt is közölte, hogy a Codex korai verzióit belsőleg használták a képzés hibakereséséhez és a telepítés kezeléséhez, ami az egyik első eset volt, amikor egy modell közvetlen szerepet játszott saját fejlesztésének felgyorsításában.

Összességében az eredmények arra utalnak, hogy egyik modell sem rendelkezik egyértelmű előnnyel, a teljesítménybeli előnyök attól függnek, hogy a vállalkozások a professzionális gondolkodást vagy az autonóm szoftverfejlesztést részesítik-e előnyben.

A Google várhatóan a következő hónapokban frissíti Gemini modelljeit, míg más AI-fejlesztők, köztük a DeepSeek, új kiadásokat készítenek elő, ami tovább fokozza a verseny ütemét a szektorban.

Mégis, a benchmark eredmények önmagukban valószínűleg nem fogják meghatározni a piaci vezető szerepet, mivel a szélesebb körű alkalmazás és a vállalati bevezetés egyre inkább alakítja a versenyhelyzetet.

Mivel a verseny továbbra is nyomást gyakorol a riválisokra, az idő fogja eldönteni, hogy az ügynökalapú munkafolyamatok a gazdasági tevékenység központi elemeivé válnak-e. Az OpenAI és az Anthropic minden bizonnyal erre számít.

Via: Decrypt