A Character.AI bemutatja a pipeling-sft: A MoE LLM-ek finomhangolásának új kerete

A Character.AI bemutatja a pipeling-sft: A MoE LLM-ek finomhangolásának új kerete

A Character.AI bejelentette a pipeling-sft kiadását, egy innovatív, nyílt forráskódú keretrendszert, amelynek célja a nagyméretű, Mixture-of-Experts (MoE) architektúrájú nyelvi modellek finomhangolási folyamatának javítása. A Character.AI blogja szerint ez a fejlesztés az AI-közösségben folyó kutatás-fejlesztést hivatott racionalizálni.

A finomhangolással kapcsolatos kihívások kezelése

A hatalmas nyelvi modellek finomhangolása, különösen a MoE-architektúrákat használóké, jelentős kihívást jelent a memória korlátok, a párhuzamosítás bonyolultsága és a képzés instabilitása miatt. A Pipeling-sft úgy lett megtervezve, hogy egyszerűsítse és stabilizálja ezt a folyamatot, lehetővé téve a kutatók számára, hogy hatékonyan leküzdjék ezeket az akadályokat.

A keretrendszer számos olyan funkciót kínál, amelyek célja a hasznosságának növelése:

  • Többszintű párhuzamosság: Integrálja a csővezeték-párhuzamosságot, a szakértői párhuzamosságot és a tenzorpárhuzamosságot a nagy MoE-modellek optimalizálásához több csomóponton és GPU-n keresztül.
  • Fejlett precíziós képzés: Támogatja a bfloat16 képzést vegyes pontosságú optimalizátorokkal a stabilitás érdekében, és tartalmaz kísérleti FP8 képzést a fokozott hatékonyság érdekében.
  • Zökkenőmentes integráció az HuggingFace programmal: Megkönnyíti a modellsúlyok HuggingFace-formátumokba és -formátumokból való átmenetét további előfeldolgozás nélkül.
  • Fokozott képzési stabilitás: A gradiens-szinkronizációt és az egyéni optimalizálókat használja a divergencia megelőzésére és a konvergencia felgyorsítására.
  • Rugalmas alkalmazkodóképesség: Tiszta PyTorch-ban fejlesztették ki, lehetővé téve a könnyű testreszabást az adott modellekhez és feladatokhoz.

Közösségi együttműködés és jövőbeli kilátások

A Character.AI kutatócsoportja a pipeling-sft-t kísérleti projektként adja ki, hogy elősegítse az együttműködést és felgyorsítsa a nyílt forráskódú nagy nyelvi modellek kutatását. A keretrendszer létfontosságú erőforrást biztosít azon csapatok számára, amelyek célja a kiterjedt LLM-ek finomhangolása anélkül, hogy a semmiből kellene új infrastruktúrát fejleszteniük.

A Character.AI meghívja a nagy MoE-modellekkel dolgozó kutatókat és mérnököket, hogy fedezzék fel a pipeling-sft-et, kapcsolódjanak be a közösségbe, és járuljanak hozzá a projekt növekedéséhez. A keretrendszer a GitHubon érhető el felfedezésre és együttműködésre.

A pipeling-sft nyílt forráskódolásával a Character.AI célja, hogy lehetővé tegye a nagy teljesítményű, szakterület-specifikus alkalmazások létrehozását, és előmozdítsa a MoE LLM-ek képességeit az AI kutatóközösségen belül.

A kép forrása: Shutterstock

Via: Blockchain News