LLaMA (Large Language Model Meta AI) on Meta Platformsin (ent. Facebook) Meta AI -tutkimusryhmän kielimalli, joka julkaistiin 24. helmikuuta 2023.

Tutkijoiden mukaan LLaMA päihittää OpenAI:n GPT-3-mallin ja on vertailukelpoinen kehittyneimpien Chinchilla-70B ja PaLM-540B-mallien kanssa. Meta julkaisee kaikki mallinsa tiedeyhteisön käytettäväksi.[1] LLaMAsta julkaistiin versiot 7B, 13B, 33B ja 65B parametrin koossa.[2] Täysi 65B parametrin malli vaatii 130 GB muistia.[3]

LLaMA:sta ei sen julkaisussa julkaistu yleisön käytettävää chatbotia tai vastaavaa ohjelmaa. Viikon kuluessa julkaisusta LLaMa oli vuotanut 4chanille ja Bittorrentilla ladattavaksi.[4]

10. maaliskuuta 2023 bulgarialainen Georgi Gerganov julkaisi "llama.cpp" -ohjelman[5], jolla kielimallia voi ajaa 64-bittisellä ARM-Mac-läppärillä. Pian se saatiin toimimaan myös Windowsissa, ARM/Linux-alustalla ja Pixel 6 -kännykässä.[6] Muistin säästämiseksi kielimallin käyttämän neuroverkon painot on kvantisoitava uudelleen. Alkuperäisessä aineistoissa verkon painot on tallennettu 16-bitin tarkkuudella FP16-muodossa. Uudelleenkvantisointi neljän bitin tarkkuuteen säästää huomattavasti tietokoneen muistia, mutta ei heikennä merkittävästi neuroverkon toimintaa. [7][8]

Stanfordin yliopiston AI-tutkijat kehittivät LLaMA 7B -mallia hienosäätämällä Hugging Facen aineistolla Alpaca-kielimallin. Alpaca kärsii pienestä mallistaan johtuen hallusinoinnista eikä tuloksia ole asianmukaisesti sensuroitu ja se otettiin pian pois koekäytöstä.[9][10][11] IBM:n tutkijoiden julkaisema versio on nimeltään Dromedary.[12]

LLaMan koulutukseen käytetty data on kerätty avoimista lähteistä. RedPajama-projekti pyrkii kokoamaan kielimallin uudelleen käyttäen samaa dataa koulutukseen. Tarkoituksena on luoda "avoimen lähdekoodin" kielimalli, jota voisi vapaasti käyttää eri tarkoituksiin.[13][14]

Meta julkaisi LLaMa 2:n 18. heinäkuuta 2023. Uusi malli on käytettävissä 7B, 13B ja 30B parametrin koossa. Sen koulutukseen on käytetty 40% enemmän materiaalia. Malli on saatavissa ilmaiseksi tutkimus- ja kaupallisen käyttöön. Kuitenkin malli vaatii erillisen lisenssin merkittävää käyttöä varten, eikä sitä saa käyttää uusien mallien kouluttamiseen. Meta aikoo tarjota mallia Microsoft Azure ja Amazonin AWS-pilvissä.[15][16] Lisäksi Qualcomm ja Meta aikovat tarjota teknologiaa matkapuhelimilla ja PC:llä ajattavaksi vuodesta 2024 lähtien.[17]

Elokuussa 2023 Meta julkaisi Code Llama -mallin, joka on optimoitu ohjelmointitehtävien ratkaisuun ja osaa tuottaa ohjelmakoodia luonnollisen kielen kehotteiden perusteella.[18]

Lähteet muokkaa

  1. Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample: LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971 [cs], 27.2.2023. Artikkelin verkkoversio.
  2. https://thenewstack.io/why-open-source-developers-are-using-llama-metas-ai-model/
  3. https://github.com/IBM/Dromedary/tree/main/inference
  4. James Vincent: Meta’s powerful AI language model has leaked online — what happens now? The Verge. 8.3.2023. Viitattu 24.3.2023. (englanniksi)
  5. Georgi Gerganov: llama.cpp github.com. 1.5.2023. Viitattu 1.5.2023.
  6. Benj Edwards: You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi Ars Technica. 13.3.2023. Viitattu 24.3.2023. (englanniksi)
  7. Simon Willison: The Stable Diffusion moment for Large Language Models simonw.substack.com. Viitattu 24.3.2023. (englanniksi)
  8. LLaMA Int8 4bit ChatBot Guide v2 rentry.co. Viitattu 24.3.2023.
  9. Stanford CRFM crfm.stanford.edu. Viitattu 1.5.2023.
  10. Stanford researchers make a new ChatGPT with less than $600 stanforddaily.com. 2.4.2023. Viitattu 1.5.2023. (englanniksi)
  11. Katyanna Quach: Stanford takes costly, risky Alpaca AI model offline www.theregister.com. Viitattu 1.5.2023. (englanniksi)
  12. IBM/Dromedary github.com. 10.3.2024. Viitattu 10.3.2024.
  13. RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens www.together.ai. Viitattu 10.3.2024. (englanniksi)
  14. deep: Open-Source Community Releases RedPajama-INCITE AI Models, Surpassing Leading Benchmarks | Deepleaps deepleaps.com. 6.5.2023. Viitattu 10.3.2024. (englanniksi)
  15. Katyanna Quach: Meta launches Llama 2 models supporting some commercial use www.theregister.com. Viitattu 10.3.2024. (englanniksi)
  16. Meta and Microsoft Introduce the Next Generation of Llama Meta. 18.7.2023. Viitattu 10.3.2024. (englanniksi)
  17. Qualcomm Works with Meta to Enable On-device AI Applications Using Llama 2 www.qualcomm.com. Viitattu 10.3.2024. (englanniksi)
  18. Introducing Code Llama, a state-of-the-art large language model for coding ai.meta.com. Viitattu 10.3.2024. (englanniksi)

Aiheesta muualla muokkaa