Skip to content Skip to navigation

Тематична мрежа: Балкански регионални информационни центрове за повишаване на осведомеността и за стандартизация на лингвистичните ресурси

Увод

Предлагаме на вашето внимание информация за един от наскоро приключилите проекти в областта на компютърната лингвистика, с което се надяваме да бъдем полезни в намирането на информация, дублирана на английски и български език, за всички интересуващи се от очертаната по-нататък проблематика.

1. Участници

Факултетът по Славянски филологии беше един от участниците в международен проект Тематична мрежа: Балкански регионални информационни центрове за повишаване на осведомеността и за стандартизация на лингвистичните ресурси и средства за напреднали приложения за обработка на естествен език - договор № IST - 2000-26454 по Пето рамково споразумение на Комисията на Европейската общност, Директорат за информационно общество с продължителност 18 месеца от 01.09.2001 до 28.02.2003 г., разделени на 3 шестмесечни периода.

Оригиналното название на проекта е Thematic Network: BALkan Regional Information Centers for Awareness and Standartisation of Linguistic Resources and Tools for Advanced HLT Applications и цялата информация по него е поместена на адрес http://www.larflast.bas.bg/balric/ с абревиатура на проекта BALRIC-LING. Интернет страницата ще бъде поддържана поне още 10 години, като периодично ще бъдат добавяни нови материали в тази област, за да може да бъде използвана от всички заинтересовани.

1.1.Партньори по проекта

България (СУ "Св.Кл.Охридски", Факултетът по Славянски филологии и Централната лаборатория по паралелна обработка на данни, БАН), Румъния (Факултетът по компютърни науки и Филологическият факултет на Букурещкия универсистет), Гърция (Институт за обработка на език и реч, Атина) и Великобритания (Факултетът по компютърни науки, Университет в Шефийлд).

 

 

Участниците от ФСлФ бяха следните:

  1. Красимира Александрова Петрова. Гл. ас. д-р, Катедра по руски език, Факултет по славянски филологии. Научен отговорник на проекта; WordNet, лингвистични ресурси, създаване на паралелния речник с термини, участие в изготвянето на трите бюленина, междините и крайния отчет, за координацията между партньорите.
  2. Красимира Славчева Алексова. Гл. ас. д-р, Катедра по български език, Факултет по славянски филологии. Морфологчен анализ, дискусия на системата от маркери, тестване и усъвършенстване на морфологизатора за български език; участие в паралелен речник на термините, изготвяне на бюлетините.
  3. Николай Александров Вазов. Гл. ас. д-р, Катедра по руски език, Факултет по славянски филологии. Корпуси, лингвистични ресурси, изготвяне на бюлетините.
  4. Емануил Костов Костов. Докторант, Катедра по български език, Факултет по славянски филологии. Корпуси; набиране на абонати.
  5. Илиана Генчева Гаравалова.хон. ас. д-р, Катедра по български език, Факултет по славянски филологии. Морфологичен анализ на българския език, система от маркери, тестване и усъвършенстване на морфологизатора.
  6. Цветомира Георгиева Венкова.Гл. ас. д-р, Катедра по чужди езици, ФКНФ. Корпуси, паралелни корпуси, изготвяне на бюлетините.

1.2. Цели на проекта.

Основната цел на BALRIC-LING бе да повиши осведомеността на новоприсъединените балкански страни България и Румъния по отношение на потенциала на съвременните технологии за обработка на естествения език - съкратено ТОЕЕ (Human Language Technologies - HLT), както и по отношение на възможните научни и производствени приложения на съответните лингвистични ресурси.

1.3. Тематични направления

Тъй като ТОЕЕ представляват твърде обширно поле, проектът BALRIC-LING бе фокусиран върху четири тематични направления:

  • лингвистични ресурси, ориентирани към думата като основна единица, и анотиране;
  • корпуси и тагиране на корпусите;
  • релевантни за съответния език поддържащи компютърни инструменти;
  • най-съвременни ТОЕЕ и приложения на разглежданите ресурси.

1.4. Основни цели

За да се изпълни основната цел на проекта - повишаване на осведомеността на България и Румъния в набелязаната област, BALRIC-LING реализира следните три основни инициативи:

1.4.1. Регионални центрове

Изграждане на два Регионални информационни центъра (РИЦ) - в България и в Румъния (наречени в проекта съответно BULRIC и RORIC).

  • А. Тези информационни центрове изработиха интернет страници, съдържащи описание на компютърни средства за обработка на естествения език, примери от емпиричния материал, лингвистичните ресурси и прототипи за свързаните с тях поддържащи средства.
  • Б. Цялата документация беше преведенаот английски език на български (и съответно, на румънски) и е достъпна чрез интернет-страницата, защото по този начин материалите могат да достигнат до широката публика, в това число и до интересуващите се компании и изследователски групи в двете балкански страни. Беше съставен английско-български речник с тълкувания на термините от областта на обработка на естествен език, което е принос в изработването на съответната терминология на български език. Ето примерна извадка от речника по първата тема (аналогични речници са създадени по трите теми на проекта). Директна връзка с речника от екрана улеснява четенето на текстовете.

BULRIC-LING. Glossary – topic I.

The morphological dictionary as a computer application. Морфологичният речник като компютърен продукт
Synset Синонимно множество
A synset is a set of words with the same part-of-speech that can be interchanged in a certain context. For example,

{car; auto;
automobile; machine; motorcar}

form a synset because they can be used to refer to the same concept.

Синонимното множество е набор от думи, принадлежащи към една и съща част на речта, които могат да бъдат разместени или променени в определен контекст. Например,

{кола; автомобил; машина;
лека кола}

образуват синонимно множество, защото те могат да означават един и същ концепт (понятие).

Lemma Лема
A lemma is a word invariant, which has a lots of word forms according to the expressed grammatical categories. Лемата е основната форма на думата, която има множество словоформи според изразяваните граматически категории. Основна, изходна форма в речника.
A morphological analysis Морфологичен анализ
А morphological analysis of the text is based on two operations: identification of the text unit and its classification. Морфологичният анализ на текста включва две основни операции - идентификация на текстовата единица и на нейната класификация.
Tag Таг
The summary of characteristics attributed to the text unit gives us the grammatical marker of the word, or its tag - a universally accepted term for the result of the full analysis of a word form. The information in the tags contains the results from the morphological analysis. Това е граматическият маркер на думата, който включва редицата от признаци, приписани към текстовата единица. Това е общоприет термин за резултата от пълния анализ на словоформата. Таговете - фактически резултатите от морфологичния анализ - имат различна дължина и съдържание не само в зависимост от езика, но и от концепцията на дадена обработка на текст.

  • В. Разпространяване на информация за създаването на страниците и проекта сред академичната общност и компютърните среди и реклама.
  • Г. На интернет-страниците бяха разположени информационни раздели, чрез които специалистите, участващи в консорциума по проекта, представиха прегледи на четирите основни теми в BALRIC-LING, а интересуващите се организации и отделни лица можеха да отправят своите въпроси, обвързани с тематиката на двата РИЦ.
  • Д. Бяха набрани абонати, статистика за които е представена в параграф 3 по-долу.
  • Е. Освен всичко описано, интернет страниците на двата РИЦ съдържат информация за обвързаните с тематиката на BALRIC-LING конференции, работни срещи и летни училища, провеждащи се в Европа.

1.4.2. Семинари

На интернет-страниците в България (BULRIC-LING) и в Румъния (RORIC-LING) бяха провеждани на всеки 6 месеца и виртуални семинари, базирани върху получените в двата РИЦ въпроси. Основната идея тук бе поддържанито на контактис широк кръг регистрирани абонати, които да могат да задават въпроси, засягащи всички материали, изложени на страницата на съответния РИЦ. Специалистите от консорциума по проекта подготвиха отговорите на поставените въпроси и запитвания и отговаряха веднага кратко на абоната, а подробно - веднъж на 6 месеца чрез електронната поща на всички участници във виртуалния семинар (т.е. общо 3 пъти по време на целия проект).

1.4.3. Виртуален бюлетин

Излизащите два пъти годишно виртуални бюлетини в България и Румъния бяха насочени към участниците във виртуалните семинари с цер да подпомогат широкоторазпространение на инициативите на BALRIC-LING както сред лингвистичната общност, така и сред отделни лица в двете балкански страни. Общо 125 потребители от университетските, академичните среди и индустрията са задали 205 въпроса, като са получили отговорите от членовете на екипа по електронната поща в бюлетин.

Резултати от първото шестмесечие:

59 регистрирани потребители на BULRIC, задали 87 въпроса

2-ро шестмесечие: 26 абоната 53 въпроса BULRIC

3-то шестмесечие: 40 потребители на BULRIC задали 45 въпроса

1.5. Научна кооперация

Втората основна цел на БАЛРИК-ЛИНГ бе да подпомогне балканските изследователски групи в стремежа им да бъдат още по-добре подготвени за научно коопериране на европейско ниво.

1.5.1. Обмяна на информация

Един от пътищата за улесняване на бъдещото формиране на консорциуми от изследователи по различни проекти е обмяната на информация относно съществуващите формати и стандартизация на представянето на някои налични ресурси от страна на всички партньори.

1.5.2. Стандартизация

BALRIC-LING се стреми към стандартизация на два формата на вътрешно представяне:

  • стандартизация на форматите за кодиране на моноезични и паралелни корпуси;
  • стандартизация на форматите за вътрешно представяне на граматическите речници в трите балкански страни.

1.6. Резултати

Получената най-съвременна информация беше интегрирана в университетските програми и часове, които водят участниците в проекта. Изнесени са 8 доклада като участие в международни конференции, публикувани след това в материалите от тях. Накратко изброяваме извършеното по проекта.

  • Участие в работни срещи на проектa: София - септ. 2001, Атина - март 2002, Букурещ - септ. 2002, София - февр. 2003. Представяне на разработените материали, обобщение на получените въпроси и отговорите им.
  • Представяне на придобитата информация на международни конференции и отразяването им в 8 публикации на български, руски и английски;
  • Придобиване на знания в областта на обработката на естествен език, съществуващите средства и формати
  • Установяване на връзки и разпространяване на информация за потребители от съседни Балкански страни - Сърбия, Румъния, славянски страни - Русия, Украйна, Чехия, страни, в които се изучава български език като чужд - Норвегия, Унгария, Финландия.
  • Установявено бе сътрудничество и работа в екип: за лингвистично изследване в съпоставителен план, съвместни разработки на специалисти от различни области - компютърни специалисти и лингвисти, бяха осъществени съвместни публикации на автори от различни страни.
  • Всички материали по проекта бяха предоставени на студентите от магистърска програма по Компютърна хуманитаристика във ФСФ, за повишаването на тяхната осведоменост и приобщаването им в създаването на ресурси.
  • Организиране на кръгла маса "Технологии и компютърни средства за обработка на естествен език" 8-ма международна конференция на МАПРЯЛ, 4-7 април 2002,Велико Търново, участие в международна конференция Electronic Description and Edition of Slavic Sources International Conference, Pomorie, 24-26 September 2002
  • Установени бяха връзки с други проекти за обработка на естествен език: Balkanet, Bultreebank, HOPE, групата за кодиране на средновековни текстове, ръкописи и старопечатни книги
  • Обсъдени бяха действащите учебни програми в тази област за ФМИ, ФСФ, ФКНФ.
  • Предоставени бяха материалите по проекта на университетски специалности, близки до изучаваните проблеми и от разработваните езици: специалност Балканистика, румънска и новогръцка филология
  • Бяха актуализирани и обогатени учебните програми, в които преподават участниците в проекта.

 

2. Описание на темите

По-подробното тематично описание на съдържанието на сайта на BALRIC ще подпомогне ориентацията и намиранито на необходимата информация. Описание на целите, задачите, тематиката, патньорите по проекта, както и съдържание на страницата могат да бъдат намерени на адрес:http://www.larflast.bas.bg/balric/index/index.htm

 

3.Морфология

3. По тема 1. Морфологични ресурси заинтересованите могат да намерят материали за това, какво е компютърен морфологичен анализ (виж по-подробно за информация сайта в увода и дискусията за дълбочината на и точността на морфологичния анализ в зависимост от маркерите в речника от Елена Паскалева).

3.1. Морфологичен речник

Морфологичният речник като компютърнo лексикографско пособие е рожба на съюза между старата научна дисциплина - лексикография и супернова технология, или традиционно известен като граматически речник. Филологически е изяснено създаването на морфологичния речник като представителна съвкупност от лексемите (или основните форми на думите) на даден език, придружени с техните граматически характеристики ( т.е. нейното формообразуване). По-нататък се проследява историята на българските граматични речници, основните издания, основните им предимства и недостатъци. Определя се мястото на морфологичния речник в семейството на традиционните лексикографски продукти - това на хибрид между речник и граматика, съчетаващ данни и процедури. Сведенията за българското формообразуване, заложени в система за обработка на база данни, фактически представляват база от знания за българската граматика. По този начин речникът може да бъде използван като учебно помагало на всички равнища на усвояване на българската лексика и граматика - изследване както на лексикални особености, така и на граматични закони. Електронната му форма на речник-програма (база от данни) позволява бързи справки не само за отделна дума, но и за групи от думи, което ни предоставя фактически различни срезове на българската граматика и лексика . Това прави речника неоценимо пособие за различните видове работа с езика - от обучителен процес до езиковедско изследване. При това диапазонът на обхващаните данни за езика е максимално пълен - достатъчно представителен глосарий и цялата граматика, описваща неговите единици.

Морфологичния речник като технологичен компонент е свързан с развитието на информационните технологии - за нуждите на всички информационни системи в областта на правото и администрацията, WEB търсачките, на синтезиращия компонент на системи за машинен превод и мн. др.

3.2. Морфологичен анализатор

С демо-версия на един от първите морфологически анализатори за българския език и илюстрирана главната цел на морфологичния речник - да извърши морфологичен анализ на текста, определя и двете му основни операции - на идентификация на текстовата единица и на нейната класификация. С други думи функциите му са - идентификационна и класификационна - родовата принадлежност (лемата) и свойствата на вида (словоформата). Подробно е коментирана системата за маркиране на анализирания резултат с използванита на демонстрационен речник. Дадени са редицата от признаци, приписани към текстовата единица, които ни дава граматическия маркер на думата, нейния таг (tag), общоприет термин за резултата от пълния анализ, процедурата на определяне на този маркер - граматично маркиране, или тагиране (tagging), а анализаторите на текст често се наричат тагери (taggers).

На сайта са дадени две извадки от примерeн лексикон за български и английски език.

Използваният в демонстрацията лексикон на български словоформи сьдьржа 10 000 основни форми около 100 000 словоформи. Всички маркери са разшифровани в таблица на маркерите, използвани в демонстрационния речник, със ськратени и пьлни наименования, за да бъде улеснено разчитането на резултатите от морфологичния анализ, представен в таблица и за представяне на формообразуванито на българския език.

Ето кратка извадка от този речник:

а,а.CONJ

абонамент,абонамент.N+M:s

абонамента,абонамент.N+M:sh:c

абонаменти,абонамент.N+M:p

абонаментите,абонамент.N+M:pd

абонаментът,абонамент.N+M:sl

3.3. Морфологичен анализ на българския език

След дискусията за дълбочината на и точността на морфологичния анализ в зависимост от маркерите в речника от Елена Паскалева е представена демонстрация на морфологичен анализ на български език. Кратки обяснения дават инструкции за стъпките в използването й. Анализът може да бъде извършен в съкратин или в пълен вариант, с маркери на български или английски език, в зависимост от избора на потребителя.

След натискане на съответния линк влизате в страницата за стартиране на анализатора с даден текст. На тази страница:

  • отбелязвате кои части на речта искате да бъдат разпознати в анализирания текст чрез избор на квадратчето преди названието;
  • имате възможност да въведете собствен текст с разумна дължина за да не се забави процедурата по анализа или да заредите демонстрационен текст, като използвате бутоните; след натискането на бутона "Анализирай" изчаквате обработката на текста;

3.4. Резултати от морфологичния анализ

След обработката се появявя с направения "елементарен" морфологичен анализ от най-ниско ниво. Това е задължителният първи етап на основен морфологичен анализ на текста, при който целта е всеки низ - отделна словоформа, да се разгледа и разпознае като се определи лемата (основната му форма) с нейните характеристики (колони 2 и 3), а кьм тях се прибавят индивидуалните характеристики на тази словоформа (колона 4). Думите (т.е. низовете от кирилски букви) от текста се налагат върху списъка от думи в речника (лексикона), което е основната операция при морфологичния анализ на най-ниско ниво. По този начин всяка софтуeрна система за обработка на езика разпознава със сигурност само онези думи, които фигурират в речника й. Речникът в този случай е сравнително малък по обем, съдържа 10 000 основи на лексеми, които са най-често употребяваните в българските вестници според събран и обработен корпус за проекта ELAN. Това обяснява и липсата на някои често срещани думи от ежедневната реч, например числителни, показателни и въпросителни местоимения и т.н. (подробно разяснение е дадено на сайта).

 

3.5. Снемане на граматична многозначност (POS-disambiguation)

Освен информацията за морфологичен анализ, граматичен речник и демонстрацинната част, материалите по първата тема представят и инфармация за това, какво е снемане на граматическата многозначност (POS-disambiguation) с въведение от Милена Янкова, демонстрация за английски език с използване на тагера на Mark Hepple от системата GATE и други POS-тагери за френски и английски, базирани на правила, разработени от групата на E. Wehrli и за немски и английски POS-тагер, базиран на статистика, разработен от T. Brants. Дадени са съответните връзки към тези средства за ТОЕЕ.

 

4. Лексика

Втората тематична област на BALRIC е свързана с описанието на лексикални ресурси в интернет (http://www.larflast.bas.bg/balric/index/index.htm ). В обширен текст Вим Петерс от факултета по компютърни науки на Университета в Шефийлд представя езиковите ресурси според тяхната природа и функции: от обикновените списъци до сложни ресурси с различни типове езикова информация, свързана с езиковите единици или елементи. Те могат да се подразделят на различни видове: списъци от думи, електронни речници, тезауруси, онтологии, тематични речници, алайнери, бази данни с термини, фонетични транскрипции, множества с изображения, видеоматериали, звукови записи и др. Езиковите ресурси се използуват широко в езиковото и в когнитивното инженерство. Както в моноезикова, така и в многоезикова среда езиковите ресурси играят важна роля за подготовката, обработката и управлението на информацията и познанията, необходими на хората и на компютрите. Сред важните изследователски области са компютърната лингвистика, компютърната лексикография и езиковото инженерство. Компютърната лингвистика и езиковото инженерство осигуряват методологията за подготовката, записването, обработката и повторното използване на езиковите ресурси.

4.1. Формати за представяне

Представени са форматите за представяне на лингвистични ресурси (SGML, XML и RDF със съответните препратки), стремежа към създаване на международни стандарти - Text Encoding Initiative (TEI), дадени са примерни извадки от различни стандартни ресурси и проекти. В стремежа към стандартизация на лексикалните описания се създават ресурси от метаданни за лексикални описания (инициативи като OLIF и ISLE - вж. съответните препратки). В таблица са представени и сравнине по използваните в тях метаданни ресурсите от Longman Dictionary of Contemporary English (LDOCE), The Celex database, WordNet и the Cambridge International Dictionary of English (CIDE) (със съответните адреси на достъп).

4.2. WordNet

Подробно е представена лекскалната база данни WordNet - онтология и тезаурус, съчетани на базата на психолингвистични принципи, както и продължението на работата по EuroNet, BalkaNet със съответните препратки към техните сайтове. Накратко са проследени първите стъпки в създаванета на български WordNet, сътрудничеството на компютърни специалисти и лингвисти в тази посока. Дадени са полезни връзки по темата, както и публикации на членове от екипа по темата.

4.3. Лексикони и морфосинтаксис

В следващия раздел по втората тема на проекта са описани лексиконите The PAROLE-SIMPLE, морфосинтактичния пласт (PAROLE), семантичния пласт (SIMPLE), структурата на единиците в лексиконите PAROLE-SIMPLE, както и краткото им синоптично описание с подробна библиография по темата. Дава се подробна информация за приноса на работната група за многоезични лексикони (Working Group for Multilingual Lexicons) по проекта EAGLES/ISLE.

 

5. Корпуси и обработка на естествения език

Третата тема е посветена на корпуси и технологии за обработка на естествения език и съвременни тенденции в обработването и анотирането на корпусии е разработена от Вула Гюли и Стелиос Пиперидис от Института за обработка на език и реч Атина, Гърция

Като лингвистични ресурси корпусите са широко използвани в рамките на изследователските групи по езиково инженерство през последните десетилетия за целите на машинното обучение, тестуването и стандартизацията. Изграждането и поддържането на корпусите е скъпоструваща и отнемаща немалко време задача, чиято значимост в изграждането и оценката на системите за обработка на корпуси е обвързана с понятията многократна използваемост и стандартизация. Основните въпроси, дискутирани в този раздел са: дефиниции и типология на корпусите, понятие за Корпус - Субкорпус - Специализиран корпус, за структуриране и събиране на корпуси, за използване им в областта на технологиите за обработка на естествен език, проблеми на стандартизацията им и възможност за многократно използване, анотиране на корпуси (структурно, лигвистично анотиране на едноезични корпуси, равнища на лингвистично анотиране, средства и анотирани корпуси). Представени са Гръцкия национален корпус (HNC) и общодостъпните анотирани корпуси в Института за обработка на език и реч, Атина, Гърция. Разглежда се проблема за лингвистично анотиране на паралелни корпуси.

В края на всеки раздел има връзки по темата - в случая на речник, състоящ се от понятия от корпусната лингвистика.

 

6. Бюлетини

На сайта на BALRIC могат да бъдат прочетени бюлетините, разпратени до всички абонати, да се намери полезни информация за тематично свързани сайтове и събития, да се влезе в контакт с участниците в проекта.

 

7. Румънските участници

Част от материалите, поместени в сайта на румънските участници в проекта RORIC ( http://phobos.cs.unibuc.ro/roric/index.html ) е идентична с българската. Темите, разработени от румънските партньори са свързани с:

7.1. Граматични формализми

Граматични формализми и прилаганито им към румънски език, създаването на съответни средства за обработка на румънски език. Представени са основите на депендентна граматика и HPSG, приложени към румънски език, както и анотатор за румънски език, построен върху тази теоретична база (http://phobos.cs.unibuc.ro/roric/topic1.html ).

7.2. Генериране на синонимни множества

По втората тема е представена система за полуавтоматично генериране на синонимни множества румънски WordNet за съществителни и прилагателни. В теоретични статии на участниците се разглеждат както лингвистични проблеми, така и програмното осигуряване на задачата. Предоставя се възможност за непосредствено генериране от потребителя чрез димо-версия на продукта. Системата беше тествана и с български мини-речници и даде положителни резултати.

Подробно е представена теоретичната основа за компютърно морфологично моделиране на румънския език, което бе направено за пръв път в рамките на проекта. Демо-версия показва автоматичното генериране на парадигмите на съществителни имена в румънски език. (http://phobos.cs.unibuc.ro/roric/topic3.html ).

7.3. Бюлетини в румънския сайт

Аналогично на българския сайт, в румънския са дадени трите бюлетина, разпратени до румънските абонати на проекта. И по трите теми сътрудничеството между екипите от двете страни-партньори, интегрирането на знанията и опита беше особено интензивно.

 

 

8. Оценка на проекта

Работата по проект BALRIC-LING беше оценена много високо от представителите на Европейската комисия от Люксембург - наблюдатели на проекта Ървин Валентини и Тамаш Варади. В заключението се посочва, че "проектът напълно е изпълнил програмата, като дори е постигнал повече от очакваното и заявеното в техническия анекс. Обобщаващите материали са с високо качество. Стратегията за разпространение на знания е ясно определена и добре фокусирана." Изказана е препоръка за разпространението на резултатите от проекта към по-високите ешелони на публичната администрация и информационната индустрия, както и на широката публика. Пожелава се продължаването на проекта и разширяването на страните – партньори, както и на тематиката.

 

9. Публикации на членове от екипа на проекта BALRIK-LING

Първи стъпки в създаването на лексикална база данни (тезаурус и онтология) - български WordNet

Предложения за използването на WordNet като източник за психо-, социо- и трасдиционни лингвистични изследвания:

WordNet като средство за чуждоезиково обучение

Приложения на корпусната лингвистика в езиковедските изследвания

Обзор на електронни ресурси на славянските езици:

 

Представяне на проекта на 4-та международна конференция "Formal Approaches to South Slavic and Balkan languages", 15-17 ноември 2002, Софийски университет

Година: 
2004
Том: 
1
Книжка: 
1
Рубрика в списание Littera et Lingua: