Satan ex Machina, czyli dlaczego MT robi to co robi

Jeśli czytasz ten tekst, to zapewne tłumaczysz (albo postedytujesz [1]), korzystając z tłumaczenia maszynowego. A jeśli AD 2016 masz do czynienia z tłumaczeniem maszynowym dla języka polskiego, to jest to MT statystyczne albo hybrydowe (o czym więcej za chwilę). Postaram się krótko wyjaśnić, jak takie MT powstaje, skąd biorą się jego typowe błędy i na ile można je naprawić.

Stosunek tłumaczy do MT jest, delikatnie mówiąc, ambiwalentny.

Niech pierwszy rzuci kamieniem, kto nigdy nie posiłkował się Google Translate – jasne, że profesjonaliści nie wkleją TEGO żywcem, ale czasami „dla inspiracji” czy „dla orientacji” to nie grzech. Niektórzy sięgają też do bardziej zaawansowanych/wyspecjalizowanych serwisów MT. Udane MT wrzuca się do tłumaczenia, z nieudanego można się pośmiać. I wszystko jest dobrze, póki dzieje się to dobrowolnie.[2]

Sytuacja zmienia się diametralnie, kiedy pomysł skorzystania z MT (oraz wybór MT) pochodzi od zleceniodawcy. Na ogół nie ma znaczenia ani to, czy MT wpływa na stawkę, ani jakość podpowiedzi maszynowych. Narzucone MT jest postrzegane jako coś, co ogranicza kreatywność tłumacza, źle wpływa na efekt tłumaczenia, marnuje czas i w ogóle przeszkadza.

…A ja nie będę z tym polemizować. Przyjmijmy, że MT już jest i na razie nigdzie się nie wybiera.

olej to wszystko = oil it all

Jeśli przetłumaczymy automatem na angielski frazę „olej to wszystko”, to dostaniemy zapewne jakieś rozpaczliwe „oil it all”. Ale skąd maszyna miała wiedzieć, o co nam chodzi?

  • Tłumacząc „olej to wszytko” na angielski na potrzeby korespondencji nieformalnej (czatów czy forów internetowych) napisalibyśmy „damn it all”.
  • Tłumacząc reklamę motoryzacyjną, poszlibyśmy pewnie bardziej w kierunku „the oil is everything”.

Podobnie rzecz wygląda dla fraz „śledź wątek”, „damy czadu” czy „trening odbyty”. Można wrzucić w Google Translate, pośmiać się, a potem pomyśleć, dlaczego maszyna nam to robi?

Są dwie możliwości stworzenia MT, czyli „zmuszenia komputera, żeby przetłumaczył frazę, której do tej pory nie było w żadnej pamięci tłumaczeń”. A nawet dwie i pół możliwości!

  • MT oparte na regułach (RMT, czyli rule-based MT). Komputer dostaje słownik dwujęzyczny i zestaw reguł, według których ma budować zdania w języku docelowym. Działa to nie najgorzej dla języków, których gramatyka jest bardzo dobrze opisana i, z naszego słowiańskiego punktu widzenia, raczej prosta, na przykład dla hiszpańskiego. Wymaga dużych słowników (dobrze opracowanej terminologii) i, drobiazg, formalnego opisu gramatyki danego języka. Stan na dziś: nie dla Słowian.
  • MT statystyczne (SMT, czyli statistical MT). Komputer dostaje dużą bazę pamięci tłumaczeniowych, tnie segmenty na kawałki (trochę większe od słowa, a mniejsze od zdania) i buduje statystyczny model, według którego będą tworzone zdania w języku docelowym, najprawdopodobniej pasujące do zdań w języku źródłowym. „Najprawdopodobniej” oznacza tu nie tyle „może się uda, a może nie”, co raczej „jaka fraza docelowa najczęściej pasuje do danej fazy źródłowej”. Wnikliwy tłumacz zapyta: a nie to samo robi mój CAT, kiedy podpowiada fuzzy[3]? I będzie miał rację, mniej więcej to samo. Tyle że SMT idzie dalej, próbuje „składać” tekst docelowy również tam, gdzie CAT nie miałby z czego. Ta metoda w zasadzie nie wymaga słowników (o tym za chwilę), za to potrzebuje bardzo dużo pamięci (stworzonych – tak, tak – ciężką pracą setek tłumaczy) i dość mocnych komputerów (nie takich jak do sterowania lotem kosmicznym, ale jeszcze lepszych niż do grania w Wiedźmina). Stan na dziś: jeśli MT jako-tako działa dla języka polskiego, to właśnie na bazie SMT.
  • Nie wystarczy SMT „jak fabryka dała”: nie ma póki co na rynku oprogramowania do SMT, które dałoby się kupić, wgrać, nakarmić pamięciami i od ręki mieć przyzwoite MT (albo też: wejść na stronę, kliknąć 3 razy i już). Naprawdę dobre MT dla polskiego (i innych języków słowiańskich) dostaje się, obudowując SMT regułami dla danej dziedziny. Przykładowe zastosowania reguł to „tłumaczenie” liczb i dat, pomijanie elementów nietłumaczalnych (np. nazw produktów), a nawet poprawianie terminologii. I tak powstaje MT hybrydowe, czyli druga-i-pół metoda uzyskania tłumaczeń z komputera. Dla zastosowań profesjonalnych – najlepsza.

Statystyczne/hybrydowe MT AD 2016 jest trochę jak Linux w początkach swego istnienia. Podstawowe komponenty do jego stworzenia (np. narzędzie Moses) można dostać za darmo, ale żeby efekt był sensowny, potrzeba osoby, który stale będzie nasz system rozwijać, ulepszać i reagować na zgłoszenia użytkowników.

Universal-Translator_startrek

A teraz wracamy do świata tłumaczy.

Prawidłowe zastosowanie MT nie jest możliwe bez informacji zwrotnych od tłumacza. Rozsądnie byłoby przyjąć, że skoro i tak z MT korzystamy, to niech nam ono jak najmniej zawadza (nawet jeśli nie możemy tego jeszcze nazwać pomaganiem). Zdaję sobie jednak sprawę, że rozsądek nie zawsze wygrywa; czasem decydują uprzedzenia tłumaczy („nie tknę tego palcem i już”), a czasem dziecięca naiwność firm globalnych („nasze MT ma świetne wyniki dla hiszpańskiego, włoskiego i francuskiego, więc od jutra wdrażamy polski, arabski i węgierski, reklamacji nie uwzględnia się”).

A gdyby jednak tłumacz zechciał mówić i został wysłuchany, to na co powinien zwrócić uwagę?

Znów to samo

Zwróć uwagę na powtarzające się „głupie” błędy MT. Nie musisz wiedzieć, jak je usunąć – ani czy w ogóle kwalifikują się do usunięcia! Jeśli ten sam błąd widzisz więcej niż 2 razy, to zgłoś go, jeśli tylko zleceniodawca/dostawca MT uwzględnia taką możliwość. Prawidłowo rozwijające się hybrydowe MT jest trochę jak procedury lotnicze czy nurkowe: każdą nową regułę dodaje się dlatego, że w przeszłości coś poszło źle.

Najprostsze błędy MT, na ogół łatwe do usunięcia:

  • próbuje tłumaczyć numery komunikatów czy inne ciągi liczbowo-literowe,
  • tłumaczy nazwy firm, produktów, obcojęzyczne imiona czy nazwiska,
  • robi cokolwiek niewłaściwego z liczbami, datami, kwotami.
Korpus

Czas zaprzyjaźnić się z pojęciem korpusu. Korpusem dla SMT nazywa się zestaw pamięci tłumaczeniowych, na których wytrenowano maszynę. Z korpusu bierze ona model języka, a więc i terminologię, którą będzie nam proponować, i konstrukcje zdaniowe.

Większość śmiesznych podpowiedzi z maszyny ma swój początek w korpusie niepasującym do tematyki, którą chcemy tłumaczyć. Źle dobrany korpus najłatwiej dostrzegalne szkody robi w terminologii.

W mojej praktyce zawodowej spotykam wiele klasycznych przykładów „złego MT” z angielskiego na polski, które po bliższym zbadaniu okazują się wynikać z niewłaściwie dobranego korpusu. Ot chociażby tłumaczenie interfejsu nowego produktu wspomagane MT nakarmionym wieloma innymi interfejsami, czyli korpusem wybitnie informatycznym. W korpusie tym angielski termin „bar” po polsku był zawsze „paskiem”. Sęk w tym, że nowy produkt dotyczył wykrywania przestępczości, a termin „bar” oznaczał jedno z miejsc, gdzie kontaktują się podejrzani. Dużo radości ze spotkań na pasku.

A teraz poważnie: bez kontekstu SMT jest bezsilne. Wybór właściwego korpusu do generowania MT dla danego projektu (tj. dopasowanie tematyki korpusu do tematyki nowego tłumaczenia) na ogół nie należy do tłumacza, tylko do zleceniodawcy albo administratora MT. Natomiast podpowiedzi MT z notorycznie „śmieszną” terminologią to sygnał, który powinien wrócić od tłumacza do zleceniodawcy. Być może dałoby się wygenerować dużo bardziej przydatne MT z tej samej maszyny, wybierając inny korpus. Tyle że wtedy nie będzie już tak zabawnie…

Terminologia

Jak napisałam wcześniej, MT statystyczne bierze terminologię z korpusu. Jeśli otrzymaliśmy MT wytrenowane korpusem z dziedziny stolarstwa, w której „table” to zawsze „stół”, to nie mamy szans na poprawną podpowiedź dla tłumaczenia dotyczącego bazy danych („table = tabela”). Rozwiązania hybrydowe pozwalają jednak do pewnego stopnia rozwiązywać ten problem. Można przygotować słownik zmian terminologicznych, które maszyna będzie musiała wykonać. Działa to mniej więcej tak:

Jeśli w źródle występuje ‘table’, a twoja podpowiedź zawiera ‘stół’, to zmień, maszyno, tekst ‘stół’ na ‘tabela’, zanim propozycja trafi do tłumacza.

Oczywiście pozostaje kwestia wstawienia „tabeli” w odpowiednim przypadku, patrz „Gramatyka”.

W praktyce korpus stolarski raczej nie pozwoli na stworzenie sensownych tłumaczeń informatycznych, ale w podobny sposób można np. uniknąć tłumaczenia „link” jako „łącze” i zapewnić sobie MT z tłumaczeniem „odsyłacz”.

Gramatyka

Tu będzie trudniej. Najlepsze zgłoszenia problemów z MT są takie, w których tłumacz sam potrafi zaproponować rozwiązanie. Nie trzeba bardzo formalnie, można trochę na palcach. Warto zwrócić uwagę na te problemy gramatyczne, które się powtarzają, na przykład:

  • zgubione albo dodane przeczenie,
  • zamieszany czas przeszły/przyszły/teraźniejszy,
  • .. w zautomatyzowanym tłumaczeniu z angielskiego na polski zawsze trzeba się liczyć z poprawianiem końcówek (czy mówimy o MT, czy też fuzzy), ale stałe błędy mogą okazać się poprawialne,
  • odmiana przez przypadki – temat ciężki, ale nie beznadziejny.

…a jak nie MT, to co?

Czy każdy tłumacz musi używać MT albo zgoła pracować jako postedytor? Na szczęście nie. Tłumacze określani brutalnie jako „niekompatybilni z MT” to często fachowcy na wagę złota: specjaliści od transkreacji, znawcy nietypowych par językowych albo eksperci w unikalnych dziedzinach. W tych zastosowaniach maszyny jeszcze długo nie będą lepsze od ludzi – jeśli kiedykolwiek to nastąpi. Najlepiej chyba ujął to Arle Richard Lommel (analityk z Common Sense Advisory):

Machine translation will displace only those humans who translate like machines. Humans will focus on tasks that require intelligence.”

machines_tshirt_we don't use_Marta Bartnicka_MT_20160601_131539

 

Część wymienionych tu przykładów pochodzi z nadchodzącej książki pt. „Tłumacze i programiści – wprowadzenie do lokalizacji oprogramowania”, która powinna się ukazać w ciągu najbliższych miesięcy. Autorzy: Marta Bartnicka i Agenor Hofmann-Delbor. Temat tłumaczeń maszynowych – oprócz innych współczesnych zagadnień związanych z pracą tłumacza – będzie tam omówiony w dużo bardziej szczegółowy i praktyczny sposób. Polecam uwadze Czytelników.

 

[1] Czyli: poprawiasz po maszynie

[2] Na marginesie: nie zawsze można korzystać z Google Translate, Binga czy innych ogólnodostępnych serwisów MT. Niektórzy zleceniodawcy wręcz zastrzegają to w umowach z tłumaczami. Zastrzeżenie nie wynika wyłącznie z jakości (dalej wyjaśnię, w jaki sposób MT ma szansę być lepsze niż z Gugla), ale przede wszystkim z faktu, że wszystko, co wrzucamy w darmowy serwis maszynowy, pozostanie tam na wieki. A przecież nie każdy klient chce dzielić się z całym Internetem instrukcją do nowego lotniskowca albo szczegółami swojej ugody z wierzycielami.

[3] Inaczej: podpowiedź przybliżona, ta z procentem zgodności niższym niż 100

 

Fot. naezmi / Flickr, www.trekmate.org.uk, Marta Bartnicka

Autor(ka) Wszystkie posty

Marta Bartnicka

Marta Bartnicka

Kierowniczka działu tłumaczeń dla Europy Środkowej w dużej firmie z branży IT. Z działem tym związana jest od 20 lat, zajmując się między innymi tłumaczeniem, weryfikacją, testowaniem lokalizacji, prowadzeniem projektów lokalizacyjnych dla jednego i wielu języków, terminologią, a od kilku lat także wdrażaniem tłumaczeń maszynowych oraz lokalizacji w modelu Continuous Delivery. Obecnie koordynuje lokalizację oprogramowania, dokumentacji i stron WWW na kilkanaście języków środkowoeuropejskich (w tym polski). W pracy zebrała – i nieustająco zbiera nadal - doświadczenie w poruszaniu się na styku kultur, na pograniczu polityki korporacyjnej i lokalnych norm oraz zwyczajów. Współautorka książki
„Programiści i tłumacze. Wprowadzenie do lokalizacji oprogramowania". Z wykształcenia mgr inż. informatyki (Systemy Informacji Naukowo-Technicznej, Politechnika Wrocławska). Hobby w kolejności alfabetycznej: biegówki, dzieci, ogrodnictwo, Tatry.

komentarze 2Skomentuj

  • Powiem krótko: NIE. Nie przyłożę ręki do czegoś, co ma mi w przyszłości zabrać pracę. I każdemu tłumaczowi, który poważnie mysli o swojej rpzyszłości, radzę zrobić to samo. Pomaganie w tworzeniu takich korpusów i pamięci oznacza podcinanie gałęzi, na której się siedzi.

    • Panie Kamilu – i tu pan popełnia kardynalny błąd – podchodzi pan do zmian ideowo, a nie racjonalnie. Otóż MT to fakt i jeśli pan nie przyłoży ręki, to przyłożą inni. MT daje natomiast wspaniałą możliwość odróżnienia się od grupy – może pan zostać prześwietnym post-edytorem, a jako że cały czas temat jest w początkowo-środkowej fazie rozwoju, nadal będzie pan „leader, not follower” i gdy nastąpi już całkowite przyjęcie MT, od pracy nie będzie się pan mógł opędzić. Podczas gdy osoby wcześniej mówiące „nie przyłożę do tego ręki” albo zostaną bez pracy, albo będą jej rozpaczliwie szukać. Tu nastąpi powtórka z TM, czyli ci, którzy byli w tym od początku, mają największe sukcesy. Wciąż znam takich, którzy z dumą i obrzydzeniem mówią „nie używam TM”, ale przy każdej okazji zapytują, czy nie ma tam czasem czegoś do zrobienia. Nie, nie ma. Trzeba sobie powiedzieć jasno: tych zmian już pan nie zatrzyma. Nie ma sensu być jak robotnicy niszczący maszyny, bo zabiorą im pracę. Ci, którzy chcieli nauczyć się te maszyny obsługiwać, świetnie na tym wyszli. Cała reszta pozostała z ręką w nocniku. Po co sobie komplikować życie? I zawodowe, i prywatne. A już jest real-time retraining MT i już wchodzi neural. Tempo zmian jest kolosalne w porównaniu z tym, czego doświadczaliśmy przez ostatnie 20 lat w branży lokalizacyjnej. To też trzeba wziąć pod uwagę. Można zostać bez pracy szybciej niż się obejrzymy. A idei do garnka nikt z nas nie włoży. Sukcesów życzę.

Skomentuj

Twój adres email nie zostanie opublikowany.