Litwa w ramach KPO wydaje 34 mln EUR na zachowanie tożsamości cyfrowej języka litewskiego w erze AI w modelu open-source
Projekty o łącznej wartości około 34 mln euro (często podawane jako 32–35 mln euro w zależności od fazy finansowania) stanowią fundament litewskiej strategii zachowania tożsamości cyfrowej języka litewskiego w erze AI.
Większość z tych środków pochodzi z unijnego Funduszu Odbudowy i Odporności (plan “Naujos kartos Lietuva”). Choć pełna lista 16 projektów obejmuje wiele szczegółowych baz danych, można je pogrupować w kluczowe bloki inwestycyjne:
1. Projekt LIEPA-3 (Sztandarowy projekt głosowy)
-
Budżet: ok. 4 mln euro.
-
Cel: Stworzenie największego na Litwie słownika mowy (10 000 godzin nagrań) z opisem (anotacją).
-
Zastosowanie: Umożliwienie urządzeniom (asystentom głosowym, robotom, systemom nawigacji) poprawnego rozumienia poleceń wydawanych po litewsku.
W trakcie realizacji projektu powstanie składnik wartości niematerialnych – 10 tysięcy godzin opatrzonych adnotacjami nagrań audio w języku litewskim (w tym: 5000 godzin nagrań w stylu czytanej mowy, 4900 godzin nagrań w stylu mowy spontanicznej, 100 godzin nagrań w różnych dialektach). Nagrania audio będą przechowywane w formacie swobodnie dystrybuowanym/otwartym. Nagrania audio będą udostępniane na co najmniej dwóch platformach o otwartym dostępie (np. „Hugging Face”, CLARIN lub innych) oraz na litewskim portalu otwartych danych (data.gov.lt) i będą dostępne bezpłatnie.
2. Cyfrowe zasoby języka litewskiego dla AI (ok. 2,45 mln euro na start)
W lutym 2025 r. Ministerstwo Gospodarki i Innowacji ogłosiło finansowanie 5 specyficznych projektów realizowanych przez Agencję Rozwiązań Cyfrowych (VSSA):
-
Medyczny korpus mowy (520 tys. euro): Zbiór nagrań medycznych do automatycznego spisywania notatek lekarzy.
-
Medyczny korpus tekstowy (240 tys. euro): Teksty jedno- i równoległe do trenowania AI w terminologii medycznej.
-
Korpus syntezy mowy (680 tys. euro): Dane do tworzenia „głosów neuronalnych”, które brzmią naturalnie jak człowiek.
-
Korpus obronny i bezpieczeństwa (240 tys. euro): Specjalistyczne teksty dla sektora wojskowego i cyberbezpieczeństwa.
-
Korpus par pytań i odpowiedzi (770 tys. euro): Dane do trenowania chatbotów i asystentów w udzielaniu precyzyjnych informacji.
3. Pozostałe projekty w ramach puli 34 mln euro
Reszta funduszy (ok. 27 mln euro) jest rozdzielona na inicjatywy wspierające:
-
Automatyczne tłumaczenie maszynowe: Tworzenie systemów tłumaczących dokumenty urzędowe i prawne z zachowaniem litewskiej składni.
-
Analiza semantyczna (Semantika.lt): Rozwój algorytmów rozumiejących kontekst i znaczenie litewskich tekstów, a nie tylko słowa kluczowe.
-
Otwarte dane językowe: Budowa platformy, z której litewskie startupy mogą bezpłatnie pobierać zbiory danych, aby nie musiały kupować ich od zagranicznych korporacji.
-
Digitalizacja dziedzictwa: Przetwarzanie starych rękopisów i nagrań archiwalnych na formaty cyfrowe, które mogą posłużyć do trenowania modeli AI.
Projekty obejmują szerokie spektrum zbierania i przetwarzania danych dla AI:
-
Zbiory tekstowe: Tworzenie ogromnych baz danych tekstów pisanych (od dokumentów urzędowych po literaturę), aby trenować modele typu LLM (jak ChatGPT) w poprawnym pisaniu po litewsku.
-
Tłumaczenie maszynowe: Rozwój narzędzi do automatycznego tłumaczenia, które uwzględniają specyficzną gramatykę i kontekst kulturowy Litwy.
-
Dane semantyczne: Projekty takie jak Semantika.lt (rozwijane w ramach LKSSAIS), które pozwalają komputerom rozumieć znaczenie tekstu, a nie tylko rozpoznawać słowa.
-
Digitalizacja dziedzictwa: Przetwarzanie archiwów historycznych i literackich na formaty zrozumiałe dla sztucznej inteligencji.
-
Narzędzia dla biznesu i e-usług: Tworzenie darmowych modułów (API), które litewskie firmy mogą wpiąć do swoich systemów, aby oferować usługi w języku ojczystym.
Dlaczego Litwa to robi?
Ministerstwo, w tym wspomniany wcześniej Edvinas Grikšas, argumentuje, że bez tych inwestycji język litewski mógłby zostać „wykluczony cyfrowo”. Jeśli globalne firmy technologiczne nie będą miały dostępu do wysokiej jakości danych językowych z Litwy, ich produkty będą działać tam gorzej. Tworząc własne otwarte bazy danych (jak LIEPA-3), państwo litewskie daje swoim firmom narzędzia do konkurowania z gigantami z Doliny Krzemowej.
Comments
Leave a Comment