Z 98% na pouhé 2%: Studie odhaluje klesající kvalitu ChatGPT
Studie Stanfordké univerzity zkoumající ChatGPT odhaluje drastické změny v jeho schopnostech na různých úkolech během pár měsíců. Změny byly nejen ve správnosti odpovědí, ale také v jeho schopnosti vysvětlit svůj postup. Co stojí za klesající kvalitou a co to znamená pro vývoj umělé inteligence?
Od dokonalých odpovědí k tragickým chybám v matematice
Studie provedená na Stanfordské univerzitě se zaměřila na čtyři různé úkoly, kterými byl ChatGPT zkoušen jako během testu ve škole. Hlavními úkoly bylo řešení matematických problémů, odpovídání na citlivé otázky, generování softwarového kódu a vizuální rozpoznávání. Výsledky však ukázaly něco překvapivého, umělá inteligence se zhoršila.
Zajímavé je, že modely GPT-3.5 a GPT-4 se chovaly zcela opačně. V březnu byla verze GPT-4 schopna s 97,6% přesností určit, zda je číslo 17077 prvočíslo. Jenže o tři měsíce později tato přesnost dramaticky klesla na pouhých 2,4%. Naopak GPT-3.5 měl přesně opačnou trajektorii. V březnu odpověděl správně na stejnou otázku jen ve 7,4% případů, zatímco v červnu dosahoval konzistentních 86,8% úspěšnosti.
Jak jedna úprava ovlivňuje celý model
Studenti, včetně profesora informatiky Jamese Zua připouštějí, že takto velké výkyvy u pokročilého ChatGPT nikdo nečekal. Hlavním zjištěním bylo, že úpravy zaměřené na zlepšení modelu v jednom úkolu mohou nechtěně ovlivnit jeho výkon na jiných úkolech.
Zuo ve svém rozhovoru pro Fortune řekl: „Existují zajímavé vzájemné závislosti na tom, jak model odpovídá na otázky, což může vést k špatnému chování, které jsme mohli pozorovat.“
Jejich přesná povaha zůstává poněkud nejasná, protože nikdo z veřejnosti nemá přístup k samotným modelům pohánějícím ChatGPT. Není tak známo, jakým způsobem se změnila samotná architektura modelu a jeho tréninková data.
Postup je důležitý
Zuo a jeho kolegové chtěli nejen zjistit fluktuace v odpovědích, ale také studovat postup, jakým ChatGPT k nim dospěl. V březnu chatbot své myšlenkové pochody vysvětloval, ale v červnu tuto schopnost ztratil. Způsob, jakým model dospěl k odpovědím, je pro všechny nejdůležitější pro případné chyby.
Studie odhaluje, že fluktuace ve výkonu velkých jazykových modelů jako ChatGPT jsou skutečností, kterou je třeba brát v úvahu. Sledování výkonu těchto modelů je tedy klíčové pro pochopení fungování a potenciální zlepšení.
Zdroje info: Twitter, https://fortune.com/2023/07/19/chatgpt-accuracy-stanford-study/, https://finance.yahoo.com/news/over-just-few-months-chatgpt-232905189.html
Náhledové foto: Pixabay