Ve spolupráci s prestižní univerzitou Čching-chua v Pekingu přichází DeepSeek s převratným přístupem ke snižování nákladů na trénování modelů AI.
Novinky
DeepSeek se zapsal do povědomí veřejnosti už začátkem roku svým nízkonákladovým AI modelem, který překvapil trhy a způsobil výrazný pohyb i na evropských akciových trzích. Nyní firma hlásí další krok vpřed.
Cílem nové metody je naučit umělou inteligenci lépe rozumět tomu, co lidé chtějí – a za správné a srozumitelné odpovědi ji „odměňovat“, aby se takovým odpovědím učila dávat přednost. Tato metoda posilovaného učení se ukazuje jako efektivní při zrychlování úloh AI v úzce zaměřených sférách.
Modely se samy hodnotí
Obecnější aplikace se zatím ukazují jako náročné, a to je zatím zádrhel, který se DeepSeek snaží odstranit. Používají k tomu klíčovou metodu nazývanou „ladění pomocí sebekritického principu“, při němž modely samy hodnotí své odpovědi a zlepšují se podle vlastních pravidel.
Tyto nové modely startup nazývá DeepSeek-GRM (generalist reward modeling) neboli obecné modelování odměn. DeepSeek plánuje své modely zpřístupnit jako open source, což by mohlo výrazně urychlit vývoj aplikací AI po celém světě. Přesné datum zveřejnění zatím firma nezveřejnila, očekávání jsou ale obrovská.
Nový model DeepSeeku také staví na moderní architektuře Mixture of Experts (MoE), která umožňuje aktivovat pouze ty části modelu, jež jsou skutečně potřeba pro daný úkol. To výrazně šetří výpočetní kapacitu a urychluje odezvu systému. Tuto technologii nyní využívají i giganti jako Meta, která představila novou generaci modelů právě s využitím MoE – Llama 4.
Připravila: Petra Sauerová