Apple przyspiesza działanie modeli AI choćby 5 razy

4 godzin temu

Apple opublikowało badania opisujące nową technikę, która pozwala modelom językowym (LLM) generować odpowiedzi choćby pięć razy szybciej, bez utraty jakości.

Tradycyjnie modele LLM tworzą tekst token po tokenie (autoregresja), co spowalnia proces. Apple odkryło, iż modele – mimo trenowania na przewidywanie jednego tokena – mają wiedzę o kilku kolejnych. Na tej podstawie powstał framework Multi-Token Prediction (MTP), w którym model przewiduje naraz kilka tokenów.

Badacze wprowadzili specjalne tokeny maskujące w treści promptów (np. „Kot jest ”), które model wypełnia w jednym kroku („bardzo puszysty”). jeżeli przewidywanie nie jest zgodne z klasycznym trybem, system wraca do standardowej metody. Dzięki temu zachowana jest wysoka dokładność.

Testy z modelem open-source Tulu3-8B pokazały:

  • 2–3 razy szybsze działanie w typowych zadaniach (Q&A, czat)
  • do 5 razy szybsze w przewidywalnych domenach, takich jak programowanie i matematyka
  • brak utraty jakości dzięki technice gated LoRA adaptation

Pełny artykuł naukowy dostępny jest na stronach arXiv.

Jeśli artykuł Apple przyspiesza działanie modeli AI choćby 5 razy nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału