GPT (kielimalliperhe)

GPT (lyhenne sanoista Generative pre-trained transformer) on OpenAI:n kehittämä kielimallien perhe, jotka on koulutettu suurilla tekstikorpuksilla siten, että ne voivat luoda ihmismäistä tekstiä. Mallit on kehitetty käyttäen transformer-arkkitehtuuria. Niitä voidaan hienosäätää erilaisiin luonnollisen kielenkäsittelyn tehtäviin, kuten tekstin luomiseen, käännöksiin ja tekstinluokitteluun. Nimen "pre-training"-osio (suom. esikoulutus) viittaa mallien kehityksen alussa tapahtuvaan koulutusprosessiin suurella tekstikorpuksella, jossa malli oppii ennustamaan seuraavan sanan tekstikatkelmassa. Tämä antaa vankan pohjan mallille toimia hyvin erilaisten tehtävien parissa, joissa on rajalliset määrät tehtäväkohtaista dataa.

Alkuperäisen GPT-mallin rakenne

Luettelo tuotteista

muokkaa

OpenAI julkaisi 11. kesäkuuta 2018 raportin "Improving Language Understanding by Generative Pre-Training", jossa he esittelivät GPT:n.[1] Tuolloin parhaiten suoriutuvat neuroverkkoja käyttävät luonnolliset kielenkäsittelymallit nojasivat enimmäkseen ohjattuun oppimiseen suurista määristä manuaalisesti merkittyä dataa. Tämä riippuvuus ohjattuun oppimiseen rajoitti niiden käyttöä huonosti annotoiduissa tietojoukoissa, ja teki erittäin suurten mallien kouluttamisen kalliiksi ja aikaa vieväksi.[1][2] Monet kielet, kuten swahili tai haitinkreoli, ovat vaikeita kääntää ja tulkita tällaisten mallien avulla johtuen saatavilla olevan tekstin puutteesta korpuksen rakentamiseen.[2] Sen sijaan GPT:n puolivalvottu lähestymistapa sisälsi kaksi vaihetta: valvomattoman generatiivisen esikoulutusvaiheen, jossa kielen mallinnustavoitetta käytettiin alkuparametrien asettamiseen, ja valvotun erottelevan hienosäätövaiheen, jossa näitä parametreja mukautettiin kohdetehtävään.[1]

GPT versiot
Käyttötarkoitus Parametrien määrä Koulutusdata Julkaisupäivä
GPT-1 Yleinen 117 miljoonaa BookCorpus : 4,5 Gt tekstiä 7000 julkaisemattomasta kirjasta. 11. kesäkuuta 2018 [3]
GPT-2 Yleinen 1,5 miljardia WebText: 40 Gt tekstiä, kahdeksan miljoonaa asiakirjaa, 45 miljoonalta Redditissä positiivisesti äänestettyä verkkosivua. 14. helmikuuta 2019
GPT-3 Yleinen 175 miljardia 570 Gt selkeää tekstiä, 0,4 biljoonaa tokenia. Enimmäkseen CommonCrawl, WebText, englanninkielinen Wikipedia ja kaksi kirjakokoelmaa (Kirjat1 ja Kirjat2). 11. kesäkuuta 2020 [4]
InstructGPT Keskustelu 175 miljardia [5] ? 4. maaliskuuta 2022
ProtGPT2 Proteiinisekvenssit [6] 738 miljoonaa Proteiinisekvenssit UniRef50:stä (yhteensä 44,88 miljoonaa, kun validointiin oli käytetty 10 %) 27. heinäkuuta 2022
BioGPT Biolääketiede[7] [8] 347 miljoonaa PubMed (yhteensä 1,5 miljoonaa) 24. syyskuuta 2022
GPT-3.5 Dialogi ? ? 30. marraskuuta 2022
GPT-4 Yleinen ? ? 14. maaliskuuta. 2023

Katso myös

muokkaa

Lähteet

muokkaa
  1. a b c Radford: Improving Language Understanding by Generative Pre-Training 11 June 2018. OpenAI. Arkistoitu 26 January 2021. Viitattu 23 January 2021.
  2. a b Tsvetkov: Opportunities and Challenges in Working with Low-Resource Languages 22 June 2017. Carnegie Mellon University. Arkistoitu 31 March 2020. Viitattu 23 January 2021.
  3. Improving language understanding with unsupervised learning openai.com. Viitattu 18.3.2023. (englanti)
  4. Language models are few-shot learners openai.com. Viitattu 21.3.2023. (englanti)
  5. Arxiv, 2022. Artikkelin verkkoversio.
  6. Nature Communications, 2022. PubMed:35896542 doi:10.1038/s41467-022-32007-7 Bibcode:2022NatCo..13.4348F
  7. Oxford Academic, 2022. PubMed:36156661 doi:10.1093/bib/bbac409 Artikkelin verkkoversio.
  8. Matthias Bastian: BioGPT is a Microsoft language model trained for biomedical tasks The Decoder. 29.1.2023.