Získávání velkých textových dat pro jazyky s nedostatečným množstvím jazykových zdrojů

oddělení 5804 - Národní koordinace finančních mechanismů

←
→

Vydáno 10. 11. 2014

Aktualizováno 23. 12. 2014

23. 12. 2014změna kraje

Projekt
Kraj	Celostátní působnost
Název programu	CZ09 - Česko-norský výzkumný program
Název projektu	Získávání velkých textových dat pro jazyky s nedostatečným množstvím jazykových zdrojů
Číslo projektu	7F14047
Příjemce	Masarykova univerzita www.muni.cz
Partner	Norges teknisk-naturvitenskapelige universitet
Popis projektu	Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim), který se bude věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije svých již existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem. Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce prostřednictvím kooperace s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.
Schválený grant	24 468 000 CZK
Doba realizace projektu	Datum zahájení: 15.7.2014, Datum ukončení: 30.4.2017

Autor

oddělení 5804 (odbor 58)

Připravuje ve spolupráci s MZV základní koncepční a mezinárodně smluvní dokumenty pro přípravu a realizaci mezinárodních programů a jejich projednání se zahraničními partnery... více

Kalendář akcí

« ◄ červenec 2026 » ►
Po	Út	St	Čt	Pá	So	Ne
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31