Połączone siły Microsoft i Nvidia

VentureBeat donosi, że Microsoft i Nvidia łączą siły, aby wyszkolić jeden z największych modeli językowych na świecie Megatron-Turing Natural Language Generation (MT-NLP). Model zawiera 530 miliardów parametrów i ma osiągać ogromną skuteczność w wielu zadaniach języka naturalnego: czytaniu ze zrozumieniem, rozumowanie zdroworozsądkowym i wnioskowaniu. Dla porównania – do tej pory GPT-3 (o którym informowałem w UltraSamoukowym Przeglądzie Prasowym nr 12) ma  175 mld parametrów.  Do szkolenia MT-NLP został użyty zestaw danych treningowych z 270 miliardami tokenów* z anglojęzycznych stron internetowych. Sprzęt użyty w procesie „uczenia” to 560 serwerów Nvidia DGX A100, z których każdy zawierał 8 procesorów graficznych Nvidia A100 80 GB. Partnerzy przyznają, że model „wychwytuje stereotypy i uprzedzenia z danych [treningu]”. Jest tak prawdopodobnie dlatego, że część zbioru danych pochodzi ze społeczności z wszechobecnymi uprzedzeniami dotyczącymi płci, rasy, fizycznej i religijnej, których kuratorstwo nie może w pełni rozwiązać. Badania opublikowane przez Intel, MIT i kanadyjskiej inicjatywy AI CIFAR, wykazały wysoki poziom stereotypowych stronniczości niektórych z najpopularniejszych modeli open source, w tym BERT Google, XLNet i RoBERTa Facebooka (wciąż za VB).

Komentarz: Obserwuję rozwój modeli NLP „zawodowo”, jako że jednego z nich (LUISa) używam. Microsoft ostatnio odnotowuje sukcesy na polu, które trzeba by nazwać Cognitive Services: np firma ogłosiła, że Bing Translator umie już przetłumaczyć 100 języków. Samo w sobie nie jest to wielkie osiągnięcie (Google osiągnęło ten poziom w roku 2016, ważniejsze, iż jest to część większej inicjatywy: XYZ – łączące działanie modeli AI dla obrazu, dźwięku i tekstu właśnie. To zaś, samo w sobie jest ofertą trudną do pokonania i z jednej strony na pewno jest to krok ku rzeczywiście „inteligentnej” AI, która potrafiłaby „rozmawiać” z użytkownikiem naturalnie. Nie chodzi tylko o Test Turinga, i akademicką dyskusję, czy został zdany oraz który bot zwyciężył w rywalizacji czy który był pierwszy.  Jest również druga strona medalu – liczby: 560 serwerów czy 850 GB to tylko początek. Spójrzmy dalej, lecz wcześniej – pojęcie FLOPSa: w IT jednostkę mocy obliczeniowej (przyjmuje się 1/s). Biorąc pod uwagę, że GPT-3 wymagał 3,1423^23 FLOPSów, to OpenAI powinno zarezerwować 28 teraFLOPSów (28 bilionów operacji). Koszt w banku procesorów graficznych – ok 4,6 mln dolarów, zakładając użycie potężnego procesora Nvidia V100, bo przy wykorzystaniu tańszego Nvidia RTX 8000 te same obliczenia zajęłyby… 665 lat. Na MT-NLP zarezerwowano nie 28, a od 113 do 126 teraFLOPSów (szacunkowo, odpowiednio: 20,7 mln dolarów, i ponad 2992 lata). I tu jest druga strona medalu – żaden startup, jakkolwiek by nie był innowacyjny, nie ma szans na to by zdobyć takie finansowanie, nie mówiąc o mocy obliczeniowej. A szkoda, bo nie każdą taką inicjatywę gigant dostrzeże, by po wykupieniu wprowadzić w życie innowacyjne założenia. Osobnym tematem jest stronniczość, czemu mam zamiar poświęcić kiedyś osobny wpis.

*Tokeny, sposób rozdzielania fragmentów tekstu na mniejsze jednostki w języku naturalnym, mogą być słowami, znakami lub częściami słów

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.