Tekoälyn suuntaaminen

pyrkimys ohjata tekoälyjärjestelmiä ihmisten tavoitteisiin ja estämään haitallisia seurauksia

Tekoälyn suuntaamisella tai tekoälyn linjaamisella (englannista AI alignment) pyritään ohjaamaan tekoälyjärjestelmiä ihmisten tarkoittamiin tavoitteisiin, mieltymyksiin tai eettisiin periaatteisiin. Tekoälyjärjestelmä katsotaan oikein suuntautuneeksi, jos se edistää tarkoitettuja tavoitteita. Suuntautumaton tekoälyjärjestelmä (tai huonosti suunnattu tekoälyjärjestelmä) pyrkii joihinkin tavoitteisiin, mutta ei niihin, joihin se oli alun perin tarkoitettu.[1]

Tekoälysuunnittelijoille voi olla haastavaa suunnata tekoälyjärjestelmää, koska heille voi olla vaikeaa määrittää kaikki toivottu ja ei-toivottu käyttäytyminen. Välttääkseen vaikeuksia, suunnittelijat yleensä käyttävät yksinkertaisempia välitavoitteita, kuten ihmisten hyväksyntää. Mutta tämä lähestymistapa voi luoda porsaanreikiä, unohtaa tarvittavat rajoitukset tai palkita tekoälyjärjestelmän vain näyttämään suuntautuneelta.[1][2] Huonosti suunnatut tekoälyjärjestelmät voivat toimia virheellisesti tai aiheuttaa vahinkoa. Tekoälyjärjestelmät voivat löytää porsaanreikiä, jotka mahdollistavat niiden saavuttavan välitavoitteet tehokkaasti, mutta ei-toivotuilla, joskus haitallisilla tavoilla (palkintopetos).[1][3][4] Ne voivat myös kehittää ei-toivottuja välineellisiä strategioita, kuten vallan tai selviytymisen tavoittelua, koska tällaiset strategiat auttavat niitä saavuttamaan annetut tavoitteensa.[1][5][6] Lisäksi ne voivat kehittää ei-toivottuja emergenttejä tavoitteita, jotka voivat olla vaikeasti havaittavissa ennen järjestelmän käyttöönottoa, kun se kohtaa uudet tilanteet ja datan muodot.[7][8]

Lähteet muokkaa

  1. a b c d Russell, Stuart J.; Norvig, Peter: Artificial intelligence: A modern approach, s. 31–34. Pearson, 2020. ISBN 978-1-292-40113-3.. Teoksen verkkoversio (viitattu 1.10.2023). (englanniksi)
  2. Ngo, Richard; Chan, Lawrence; Mindermann, Sören: The alignment problem from a deep learning perspective. arXiv, 22.2.2023. arXiv. Viitattu 1.10.2023. (englanniksi)
  3. Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob: The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations, 14.2.2023. (englanniksi)
  4. Zhuang, Simon; Hadfield-Menell, Dylan: Consequences of Misaligned AI. Advances in Neural Information Processing Systems, 2020, 33. vsk, s. 15763–15773. Curran Associates. Artikkelin verkkoversio. Viitattu 1.10.2023. (englanniksi)
  5. Carlsmith, Joseph: Is Power-Seeking AI an Existential Risk?". arXiv, 16.6.2022. Artikkelin verkkoversio. Viitattu 1.10.2023. (englanniksi)
  6. Russell, Stuart J.: Human compatible: Artificial intelligence and the problem of control. Penguin Random House, 2020. ISBN 9780525558637. Kustantajan verkkosivu (viitattu 1.10.2023). (englanniksi)
  7. Christian, Brian: The alignment problem: Machine learning and human values. W. W. Norton & Company, 2020. ISBN 978-0-393-86833-3. Kustantajan verkkosivu (viitattu 1.10.2023). (englanniksi) (Arkistoitu – Internet Archive)
  8. Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David: Goal Misgeneralization in Deep Reinforcement Learning. Proceedings of the 39th International Conference on Machine Learning, 28.6.2022, s. 12004–12019. International Conference on Machine Learning. Konferenssijulkaisun verkkoversio. Viitattu 1.10.2023. (englanniksi)