
Nasz język polski – ten, który dla wielu ludzi wydaje się barierą nie do przebicia – okazał się dla sztucznej inteligencji… najłatwiejszy do zrozumienia. Według badania przeprowadzonego przez University of Maryland i Microsoft, modele AI najtrafniej reagują właśnie na polecenia po polsku. Angielski, zwykle uznawany (choć błędnie) za język rodzimy maszyn, wylądował dopiero na szóstym miejscu.
Badacze z University of Maryland i Microsoftu sprawdzili, jak dobrze przodujące modele językowe rozumieją polecenia w 26 językach świata. Wynik zaskoczył nawet ich twórców: to nie angielski, lecz polski okazał się najbardziej „czytelny” dla AI.
Polski osiągnął średnią skuteczność 88% w zadaniach testowych, a należało do nich: generowanie tekstu, interpretacja długich poleceń oraz wnioskowanie w sensie logicznym. Dla porównania – angielski uzyskał 83,9%, a język chiński zaledwie 4. miejsce od końca. To o czymś mówi. Trudno się nie uśmiechnąć: ludzie potrafią się potknąć na odmianach i wyjątkach, ale AI radzi sobie z nimi lepiej niż z prostym angielskim. Może dlatego, że język polski jest niesamowicie precyzyjny, choć operuje na poziomie skomplikowania nieosiągalnym dla użytkowników wielu bardziej popularnych w świecie języków?
Dlaczego właśnie polski?
Z naukowego punktu widzenia polski ma coś, czego wielu językom brakuje: wysoką precyzję strukturalną. Odmiana przez przypadki, rodzaje i liczby – wszystko to sprawia, że znaczenie zdań jest wyjątkowo jednoznaczne. Dla człowieka uczącego się języka to męczarnia, ale dla modelu uczącego się zależności statystycznych – absolutne złoto.
I tak oto właśnie, AI może lepiej wtedy rozumieć, co użytkownik chce osiągnąć, bo każde słowo wnosi informację o relacjach w zdaniu. W choćby angielskim sens często zależy od kontekstu lub kolejności słów. W polskim – jest zapisany w samej formie wyrazu. To trochę jak różnica między szkicem a planem technicznym: pierwszy daje ogólny obraz, drugi – instrukcję bez marginesu błędu.
Dane nie grają głównej roli
A przecież polski nie ma przewagi ilościowej w sensie ilości danych w Internecie w naszym języku. Angielski dominuje, chiński ma miliardy użytkowników, a mimo to modele w ich użyciu wypadły słabiej. Oznacza to, że liczba danych treningowych nie zawsze przekłada się na jakość rozumowania.
Badacze sugerują, że kluczowa może być struktura języka, a nie jego popularność. Modele uczone na wielu językach potrafią wyciągać wnioski z bardziej złożonych systemów gramatycznych – tak, jak polski – i potem lepiej rozumieć złożone polecenia niezależnie od języka. Może właśnie języki uznawane dotąd za „trudne” staną się podstawą rozwoju przyszłych modeli?
Jak wygląda ranking?
W zestawieniu dziesięciu najlepiej rozumianych języków znalazły się:
-
Polski – 88%
-
Francuski – 87%
-
Włoski – 86%
-
Hiszpański – 85%
-
Rosyjski – 84%
-
Angielski – 83,9%
-
Ukraiński – 83,5%
-
Portugalski – 82%
-
Niemiecki – 81%
-
Holenderski – 80%
Niektóre wyniki wydają się wręcz… absurdalnie przewrotne. Przecież chiński ma jedną z największych baz tekstów w sieci i uplasował się na czwartym miejscu od końca. Samo „napychanie” modeli ogromną ilością danych nie wystarcza – ważne jest, jak te dane są uporządkowane i jak język pozwala maszynie zrozumieć zależności między słowami.
Co to oznacza dla przyszłości AI?
Wnioski z badania są proste, ale i zaskakujące. Skoro polski działa lepiej jako język poleceń, może stać się preferowanym językiem interakcji z AI w pewnych zastosowaniach – począwszy od edukacji po tworzenie treści i zarządzanie systemami.
Czytaj więcej: Sztuczna inteligencja zgłupiała. Wystarczyło pokazać jej to
To również dobra wiadomość dla polskich użytkowników. Można sobie w listę mitów włożyć fakt, iż AI „lepiej rozumie po angielsku / chińsku / jakimkolwiek innym języku”. Ta świetnie radzi sobie po polsku. Czyli: możemy być serio dumni ze swojego języka. Na pewno nie łatwego, ale pięknego i — co ważne — precyzyjnego.


