Sztuczna inteligencja jest cenzurowana. Polski ekspert zdradza sekrety AI

2026-03-13 7:24

Sztuczna inteligencja na stałe zagościła w naszym życiu, a popularne chatboty stały się dla wielu codziennym narzędziem pracy i źródłem informacji. Czy jednak zdajemy sobie sprawę, że odpowiedzi, które otrzymujemy, mogą być celowo cenzurowane i stronnicze? Krzysztof Wróbel, współtwórca polskiego modelu AI o nazwie Bielik, w rozmowie z Polską Agencją Prasową, odsłania kulisy działania tych systemów.

Komputer

i

Autor: Freepik.com Kłopoty w Ministerstwie Finansów.

Jak działa cenzura w AI? Ekspert ujawnia ukryte mechanizmy manipulacji

Istnieje kilka mechanizmów, które pozwalają twórcom modeli cenzurować odpowiedzi, a nawet manipulować użytkownikami. Ekspert wskazuje, że na to, co „powie” nam chatbot, wpływ mogą mieć zarówno interesy wielkich korporacji, jak i polityka konkretnych państw. Jak podaje PAP, wyniki jednego z badań pokazały, że chińskie chatboty na niewygodne pytania polityczne reagują zupełnie inaczej niż ich zachodnie odpowiedniki, co może świadczyć o systemowej cenzurze.

Wyniki badania opublikowanego w prestiżowym czasopiśmie „PNAS Nexus”, na które powołuje się Polska Agencja Prasowa, nie pozostawiają złudzeń. Chińskie modele językowe, zapytane o drażliwe kwestie polityczne, znacznie częściej odmawiały odpowiedzi, omijały kluczowe fakty lub podawały informacje niezgodne z prawdą. To potężny sygnał alarmowy dla wszystkich użytkowników sztucznej inteligencji. – „W przypadku modeli zamkniętych (jak te od Google czy OpenAI) nie możemy być pewni co do intencji ich twórców. Nie wiemy, jakich danych użyli ani jakimi wartościami się kierowali przy tworzeniu modeli. Pamiętajmy więc, że wyniki, które uzyskujemy z takich źródeł, mogą być stronnicze” – wyjaśnił w rozmowie z PAP Krzysztof Wróbel, współtwórca polskiego systemu AI Bielik.

Jak zatem twórcy mogą wpływać na to, co mówi do nas sztuczna inteligencja? Krzysztof Wróbel w rozmowie z PAP wskazał kilka kluczowych metod. Pierwszą i najbardziej fundamentalną jest selekcja danych treningowych. „Jeśli model nigdy nie zobaczy tekstów na dany temat, po prostu nie nauczy się o nim opowiadać” – zaznaczył programista. Oznacza to, że jeśli w danym kraju obowiązuje zakaz publikacji na temat konkretnego wydarzenia historycznego, model AI wytrenowany na lokalnych danych po prostu nie będzie posiadał o nim wiedzy. Co więcej, twórcy mogą celowo modyfikować lub usuwać niewygodne teksty z bazy treningowej.

Kolejnym etapem, na którym może pojawić się cenzura, jest proces doszkalania modelu przez ludzi, tak zwanych anotatorów. To oni oceniają odpowiedzi generowane przez AI i wskazują, które z nich są pożądane. W ten sposób pracownicy danej firmy mogą niejako „wymusić” na chatbocie odpowiedzi zgodne z polityką organizacji lub nawet wytycznymi państwowymi. Najbardziej niepokojącą metodą jest jednak tak zwany „system prompt”. Są to ukryte przed użytkownikiem instrukcje systemowe, które określają, jak chatbot ma się zachowywać. – „Już teraz prawo w poszczególnych krajach wpływa na to, jakie odpowiedzi dostają jego obywatele w czatbocie. W Polsce też mamy jakieś ograniczenia. Na przykład systemy automatyczne raczej nie powinny udzielać porad medycznych, prawnych czy finansowych” – ocenił ekspert w rozmowie z PAP. Takie instrukcje mogą być dodane lub zmienione z dnia na dzień, na przykład na żądanie władz.

Polski model AI bez cenzury? Twórca Bielika wyjaśnia, na czym polega różnica

W odpowiedzi na problemy związane z zamkniętymi i potencjalnie stronniczymi modelami, polscy programiści stworzyli Bielika. – „W przypadku Bielika przyjęliśmy założenie, że nie będziemy go cenzurować. Nie uczymy go odmawiania odpowiedzi na konkretne tematy” – powiedział badacz. Jak wyjaśnił, takie podejście jest kluczowe dla niektórych branż, np. farmaceutycznej, gdzie tematyka środków psychoaktywnych nie może być tabu. Jednocześnie twórcy zdają sobie sprawę z zagrożeń, dlatego opracowali dodatkowe narzędzie – Bielik Guard (Sójka). Jest to specjalna nakładka moderująca, która pozwala instytucjom samodzielnie ustawiać „suwaki bezpieczeństwa” i chronić system przed generowaniem treści niebezpiecznych, takich jak mowa nienawiści, wulgaryzmy czy instruktaże przestępstw.

Krzysztof Wróbel podkreśla, że cenzura w AI może przybierać również bardziej subtelne formy. Przytoczył badania, z których wynikało, że chińskie modele, generując kod źródłowy dla projektów o „niewygodnej” dla władz tematyce, tworzyły programy zawierające o 50 proc. więcej luk bezpieczeństwa. To sprawiało, że takie projekty stawały się bardziej podatne na cyberataki. Niezależnie od tego, czy korzystamy z modeli otwartych, czy zamkniętych, ekspert ma jedną, kluczową radę. – „Jeśli korzystamy z modeli językowych, musimy pamiętać: one nigdy nie będą w stu procentach poprawne ani obiektywne. Musimy zawsze weryfikować uzyskane informacje. Najważniejsze, żeby im ślepo nie ufać” – podsumował w rozmowie z PAP Krzysztof Wróbel.