Kwantisatie na training vermindert de rekenkracht van Grote Taalmodellen (LLM’s), maar kan sommige functies verzwakken. Kleinere LLM’s zijn gevoeliger voor kwantisatie omdat hun mogelijkheden toenemen met de grootte.
In dit artikel onderzoeken we hoe kwantisatie de prestaties van kleinere LLM’s beïnvloedt bij retrieval-augmented generation (RAG), vooral met langere teksten. We hebben gekozen voor personalisatie omdat dit lastig is en veel redeneervaardigheden vereist.
We vergelijken de originele FP16-modellen en de gekwantiseerde INT4-modellen van verschillende 7B en 8B LLM’s op twee taken en verhogen het aantal opgehaalde documenten om te zien hoe ze omgaan met langere teksten. We evalueren ook drie retrieval-modellen in onze experimenten.
Onze bevindingen tonen aan dat als een 7B LLM het goed doet, kwantisatie de prestaties en redeneervaardigheden voor lange teksten niet aantast. We concluderen dat het mogelijk is om RAG te gebruiken met gekwantisiseerde kleinere LLM’s.
Auteurs: Mert Yazan, Suzan Verberne, Frederik Situmeang
Lees de publicatie hier