Az Anthropic megosztja a fejlesztőkkel a több ügynökös AI keretrendszert

Az Anthropic részletes útmutatást tett közzé a több ügynökös AI-rendszerekről, figyelmeztetve a fejlesztőket, hogy a legtöbb csapatnak nincs rájuk szüksége, miközben három olyan esetet azonosított, amelyekben az architektúra következetesen értéket teremt.

A vállalat mérnöki csapata megállapította, hogy a több ügynökös implementációk általában 3-10-szer több tokent fogyasztanak, mint az egy ügynökös megközelítések azonos feladatok esetén. Ez a többletköltség az ügynökök közötti kontextus duplikálásából, a koordinációs üzenetekből és az átadások eredményeinek összefoglalásából származik.

Mikor működnek ténylegesen a több ügynökös rendszerek?

Miután ezeket a rendszereket belsőleg felépítették és a termelési telepítésekkel dolgoztak, az Anthropic három olyan helyzetet azonosított, amelyekben a munka több AI-ügynök közötti felosztása kifizetődő.

Először: kontextusszennyezés. Amikor egy ügynök irreleváns információkat halmoz fel egy alfeladatból, ami rontja a következő feladatok teljesítményét, az elkülönített kontextusú különálló ügynökök jobban teljesítenek. Például egy ügyfélszolgálati ügynök, aki több mint 2000 token rendelési előzményt tölt le, elveszíti a gondolkodási képességét a technikai problémák diagnosztizálásakor. Az alügynökök letölthetik és szűrhetik az adatokat, és csak a ténylegesen szükséges 50-100 tokent adhatják vissza.

Másodszor: párhuzamosítás. Az Anthropic saját kutatási funkciója ezt a megközelítést alkalmazza: egy vezető ügynök több alügynököt hoz létre, hogy egy lekérdezés különböző aspektusait egyszerre vizsgálja. Az előny nem a sebesség (a teljes végrehajtási idő gyakran megnő), hanem a alaposság. A párhuzamos ügynökök több területet fednek le, mint egy kontextuskorlátok között dolgozó egyetlen ügynök.

Harmadik: specializáció. Amikor az ügynökök 20-nál több eszközt kezelnek, a kiválasztás pontossága romlik. Ez a probléma megoldható úgy, hogy a munkát specializált ügynökök között osztják szét, akiknek célzott eszközkészletük és testreszabott utasításaik vannak. A vállalat megfigyelte, hogy a CRM, marketing és üzenetküldő platformokon 40-nél több API végponttal rendelkező integrációs rendszerek jobban teljesítenek, ha platformonként osztják szét őket.

A bontás csapdája

Az Anthropic legélesebb kritikája arra irányul, hogy a csapatok hogyan osztják el a munkát az ügynökök között. A problémaközpontú bontás – az egyik ügynök funkciókat ír, a másik teszteket, a harmadik pedig a kódot ellenőrzi – állandó koordinációs terhet jelent. Minden átadás során elveszik a kontextus.

„Egy, a szoftverfejlesztési szerepkörre specializálódott ügynökökkel végzett kísérletben az alügynökök több tokenet költöttek a koordinációra, mint a tényleges munkára” – számolt be a csapat.

A kontextus-központú bontás jobban működik. Az a munkatárs, aki egy funkciót kezel, annak tesztjeit is kezelnie kell, mert már rendelkezik a szükséges kontextussal. A munkát csak akkor kell felosztani, ha a kontextus valóban elkülöníthető – független kutatási útvonalak, tiszta API-szerződésekkel rendelkező komponensek vagy implementációs előzményeket nem igénylő blackbox-ellenőrzés.

Egy megbízhatóan működő minta

Az ellenőrző alügynökök minden területen következetesen sikeres mintaként jelentek meg. Egy dedikált ügynök teszteli vagy validálja a fő ügynök munkáját anélkül, hogy teljes kontextusra lenne szüksége az artefaktumok felépítéséről.

A legnagyobb kudarc? Túl korai győzelemkiáltás. Az ellenőrzők egy vagy két tesztet futtatnak, megfigyelik, hogy azok sikeresek, és továbblépnek. Az Anthropic azt javasolja, hogy a teljes tesztcsomag végrehajtását előíró explicit utasításokat alkalmazzanak, mielőtt bármit is sikeresnek jelölnének.

A komplexitás kompromisszumát mérlegelő fejlesztők számára az Anthropic álláspontja egyértelmű: kezdjék a legegyszerűbb, működő megközelítéssel, és csak akkor adják hozzá az ügynököket, ha a bizonyítékok ezt alátámasztják. A vállalat megjegyezte, hogy egy egyetlen ügynökön végzett továbbfejlesztett prompting többször is megegyezett a hónapokig tartó, bonyolult többügynökös architektúrák eredményeivel.

Kép forrása: Shutterstock

Via: Blockchain News