Press enter to see results or esc to cancel.

Litwa w ramach KPO wydaje 34 mln EUR na zachowanie tożsamości cyfrowej języka litewskiego w erze AI w modelu open-source

Projekty o łącznej wartości około 34 mln euro (często podawane jako 32–35 mln euro w zależności od fazy finansowania) stanowią fundament litewskiej strategii zachowania tożsamości cyfrowej języka litewskiego w erze AI.

Większość z tych środków pochodzi z unijnego Funduszu Odbudowy i Odporności (plan “Naujos kartos Lietuva”). Choć pełna lista 16 projektów obejmuje wiele szczegółowych baz danych, można je pogrupować w kluczowe bloki inwestycyjne:

1. Projekt LIEPA-3 (Sztandarowy projekt głosowy)

  • Budżet: ok. 4 mln euro.

  • Cel: Stworzenie największego na Litwie słownika mowy (10 000 godzin nagrań) z opisem (anotacją).

  • Zastosowanie: Umożliwienie urządzeniom (asystentom głosowym, robotom, systemom nawigacji) poprawnego rozumienia poleceń wydawanych po litewsku.

W trakcie realizacji projektu powstanie składnik wartości niematerialnych – 10 tysięcy godzin opatrzonych adnotacjami nagrań audio w języku litewskim (w tym: 5000 godzin nagrań w stylu czytanej mowy, 4900 godzin nagrań w stylu mowy spontanicznej, 100 godzin nagrań w różnych dialektach). Nagrania audio będą przechowywane w formacie swobodnie dystrybuowanym/otwartym. Nagrania audio będą udostępniane na co najmniej dwóch platformach o otwartym dostępie (np. „Hugging Face”, CLARIN lub innych) oraz na litewskim portalu otwartych danych (data.gov.lt) i będą dostępne bezpłatnie.

2. Cyfrowe zasoby języka litewskiego dla AI (ok. 2,45 mln euro na start)

W lutym 2025 r. Ministerstwo Gospodarki i Innowacji ogłosiło finansowanie 5 specyficznych projektów realizowanych przez Agencję Rozwiązań Cyfrowych (VSSA):

  • Medyczny korpus mowy (520 tys. euro): Zbiór nagrań medycznych do automatycznego spisywania notatek lekarzy.

  • Medyczny korpus tekstowy (240 tys. euro): Teksty jedno- i równoległe do trenowania AI w terminologii medycznej.

  • Korpus syntezy mowy (680 tys. euro): Dane do tworzenia „głosów neuronalnych”, które brzmią naturalnie jak człowiek.

  • Korpus obronny i bezpieczeństwa (240 tys. euro): Specjalistyczne teksty dla sektora wojskowego i cyberbezpieczeństwa.

  • Korpus par pytań i odpowiedzi (770 tys. euro): Dane do trenowania chatbotów i asystentów w udzielaniu precyzyjnych informacji.

3. Pozostałe projekty w ramach puli 34 mln euro

Reszta funduszy (ok. 27 mln euro) jest rozdzielona na inicjatywy wspierające:

  • Automatyczne tłumaczenie maszynowe: Tworzenie systemów tłumaczących dokumenty urzędowe i prawne z zachowaniem litewskiej składni.

  • Analiza semantyczna (Semantika.lt): Rozwój algorytmów rozumiejących kontekst i znaczenie litewskich tekstów, a nie tylko słowa kluczowe.

  • Otwarte dane językowe: Budowa platformy, z której litewskie startupy mogą bezpłatnie pobierać zbiory danych, aby nie musiały kupować ich od zagranicznych korporacji.

  • Digitalizacja dziedzictwa: Przetwarzanie starych rękopisów i nagrań archiwalnych na formaty cyfrowe, które mogą posłużyć do trenowania modeli AI.

Projekty obejmują szerokie spektrum zbierania i przetwarzania danych dla AI:

  • Zbiory tekstowe: Tworzenie ogromnych baz danych tekstów pisanych (od dokumentów urzędowych po literaturę), aby trenować modele typu LLM (jak ChatGPT) w poprawnym pisaniu po litewsku.

  • Tłumaczenie maszynowe: Rozwój narzędzi do automatycznego tłumaczenia, które uwzględniają specyficzną gramatykę i kontekst kulturowy Litwy.

  • Dane semantyczne: Projekty takie jak Semantika.lt (rozwijane w ramach LKSSAIS), które pozwalają komputerom rozumieć znaczenie tekstu, a nie tylko rozpoznawać słowa.

  • Digitalizacja dziedzictwa: Przetwarzanie archiwów historycznych i literackich na formaty zrozumiałe dla sztucznej inteligencji.

  • Narzędzia dla biznesu i e-usług: Tworzenie darmowych modułów (API), które litewskie firmy mogą wpiąć do swoich systemów, aby oferować usługi w języku ojczystym.

Dlaczego Litwa to robi?

Ministerstwo, w tym wspomniany wcześniej Edvinas Grikšas, argumentuje, że bez tych inwestycji język litewski mógłby zostać „wykluczony cyfrowo”. Jeśli globalne firmy technologiczne nie będą miały dostępu do wysokiej jakości danych językowych z Litwy, ich produkty będą działać tam gorzej. Tworząc własne otwarte bazy danych (jak LIEPA-3), państwo litewskie daje swoim firmom narzędzia do konkurowania z gigantami z Doliny Krzemowej.

Piotr Mieczkowski

Helping innovation & digital to grow. TMT expert & advisor.

https://tmt.expert