Електронни ресурси в хуманитаристиката – 1 част

 

Специалност: Докторантско училище на ФСлФ

Образователно-квалификационна степен : Доктор

Вид обучение: редовно, задочно, на самостоятелна подготовка

 

30 ч. лекции

Кредити – 10

Форма на заключителен контрол – курсова работа

 

Анотация

Курсът запознава с методиката за проучване на езика с помощта на корпуси. Той предоставя данни в няколко свързани области: 1) Общ увод: какво е корпус, какво е корпусна лингвистика, с какво се отличава тя от други методики за езиков анализ; 2) Как се събират и оформят езиковите корпуси; 3) Как се трансформират данните от езиковите корпуси и по какъв начин се търси в тях; 4) Как се публикуват и представят пред читателите и публиката езиковите корпуси и/или техните данни; 5) Как да използваме корпусите за научните изследвания.

Курсът е подходящ както за докторанти в областта на лингвистиката, така и за тези, които са насочили своите интереси в полето на литературните и историческите текстове.

 

Форми и методи на оценяване:

  1. При формирането на оценката се отчита:

-         отговор на допълнителни въпроси от програмата на курса;

-         степента на участие на докторанта в работата по време на семинарните занятия, изпълнението на зададените домашни упражнения, резултатите от текущия контрол.

2. Курсова работа

 

Очаквани резултати:

Придобиване на умения у докторантите да ползват специализирана научна литература; да създават научен текст; да работят в екип по проблеми от сферата на научно-изследователската им работа; да разсъждават в по-широк интердисциплинарен контекст.

Предварителни изисквания: докторанти, преминали курсове по граматика и лексикология в рамките на изучавана филологическа дисциплина

 

Съдържание на дисциплината:

Основната част на курса включва аналитично осмисляне на избрани теоретични текстове и техното прилагане в практически разработки.. Критериите при подбора на текстовете са: информативност, проблемност, репрезентативност. Очаква се мотивирането на докторантите да участват с дискусии и да излагат мнението си по научни хипотези и различни гледни точки.

 

Лекции и семинарни упражнения

Тема №

Наименование на темата

Хорариум

1.

Определения, твърдения и разграничения. Корпуси и бази от данни. Корпуси, електронни публикации и електронни издания.

2 ч.

2.

Езиковият корпус и лингвистичните данни. Различният поглед на корпусната лингвистика. Мястото на корпусната лингвистика сред останалите езиковедски дисциплини. Няколко примера: фонетика и фонология; граматика; лексикология и семантика.

2 ч.

3.

Видове корпуси. История на корпусната лингвистика.

2ч.

4.

Дизайн на корпуса. Критерии.

Лингвистични данни и лингвистична анотация. Формална рамка на лингвистичната анотация. Интуиция и анотация. Видове лингвистични анотации. Анотациите в компютърна форма. Анотациите и маркиращите езици.

2 ч.

5.

Видове маркиращи езици. Кратка история на маркиращите езици. Основни принципи и техники. XML и съвременните маркиращи езици. Постепенен увод в семейството на XML. Анотация и маркиране в документите. Формални правила и маркиране на езикови данни.

2 ч.

6.

Анотиране на различни езикови явления. Стандарти и добри практики. Разлики между анотация на текст и анотация на устна реч. Анотация на лексика и семантика. Анотация на граматични явления. Анотация на фонетични и фонологични сегменти. Анотация на текстови и речеви цялости.

Корпуси от устна реч. Структура и приложение

2ч.

7.

Мултимедийни корпуси. Мултимодални корпуси.

Корпуси от текстове и изучаването на езиците като чужди.

Корпусната лингвистика в помощ на историята на езика.

Корпуси на повече от един език и паралелни корпуси.

2 ч.

8.

Видове бази от данни и XML.

Начини за търсене в електронните документи.

2 ч.

9.

Техники на търсене. Специализирано търсене

2 ч.

10.

Регулярни изрази. Езици за търсене.

2 ч.

11.

От XML към публикацията.

2ч.

12.

Начини за трансформация на XML документа. Езици за трансформация.

2 ч.

13.

XML и форматите за електронните публикации. XML и HTML. XML и PDF. XML и ePub.

2 ч.

14.

Приложение на езиковите корпуси при доказването (апробирането, верифицирането) на научни хипотези.

2 ч.

15.

Българският изследовател – между фиша и корпуса.

2 ч.

 


Литература:

 

Този списък засяга само общите теми на курса. При разглеждането на отделните теми ще бъде представена допълнителна литература. Представени са заглавия, достъпни в българските библиотеки или в интернет пространството.

 

1. Уводни курсове:

1) Wynne, Martin (ed.) 2004. Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books. Available online from http://ahds.ac.uk/linguistic-corpora/ [Accessed 2014-10-09].

2) McEnery, Tony and Andrew Wilson. Corpus Linguistics.http://www.lancaster.ac.uk/fss/courses/ling/corpus/

3) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London and New York: Routledge

4) Biber, Douglas; Susan Condrad & Randi Reppen. 2007. Corpus linguistics : investigating language structure and use. 2nd ed. Cambridge: Cambridge University Press

5) McEnery, Tony,Andrew Hardie. 2012. Corpus linguistics : method, theory and practice. Cambridge: Cambridge University Press

6. Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.

 

2. Сборници

1) Svartvik, Jan (ed.). 1992. Directions in corpus linguistics (Trends in linguistics Studies and monographs № 65). Berlin etc. : De Gruyter

2) Straniero Sergio, Francesco; Caterina Falbo (eds.). 2012. Breaking Ground in Corpus-based Interpreting Studies (Linguistic insights ; 147). Peter Lang.

3) English Corpus Linguistics: Studies in Honour of Jan Svartvik. Longman, 1991.

4) Garside, Roger. 1987. The Computational Analysis of English : A Corpus-Based Approach. Longman.

5) Debates in the Digital Humanities. 2012. University of Minnesota Press.

3. Поредици:

Teubert, Wolfgang and Ramesh Krishnamurthy (eds.) 2007. Corpus linguistics. Critical Concepts in Linguistics. London; New York: Routledge. (6 volumes)

4. Наръчници

1) О'Keeffe, Anne, Michael MacCarthy (eds.). 2010. The Routledge handbook of corpus linguistics. (Routledge handbooks in applied linguistics)

2) Aston, Guy. 1998. The BNC Handbook - Exploring the British National Corpus with SARA. Edinburgh University Press.

3) Mitkov, Ruslan (ed.) 2004. The Oxford handbook of computational linguistics. Oxford University Press.

5. Статии

1) Коева, Св., Ив. Стоянова. 2009. Български национален корпус. – Български език, 2009, № 3: 137-145.

2) Коева, С., Д. Благоева, С. Колковска. 2011. Проектът Български национален корпус – резултати и перспективи. – Български език, 58, 2011, № 3: 34-53.

3)Симов, К., П. Осенова. 2005. Корпус от синтактични описания на българския език – BulTreeBank. Семинар, СУ "Св. Климент Охридски". София, 28. 01. 2005 г. http://www.bultreebank.org/bgpapers/BTBSeminar050128.pdf

4) Тишева, Й. 2006. Българската разговорна реч в интернет. Паисиеви четения. Научни трудове 44 (1), сб. А. Пловдив: УИ “Паисий Хилендарски”. 277-288. http://bgspeech.net/publications/Tisheva_razg_rech_internet.pdf

5) Тишева, Й., М. Джонова. 2010. Електронни ресурси за българската разговорна реч (инициативата BgSpeech). – Littera et Lingua, лято 2010, Доклади от научната конференция „Ресурси за електронно обучение“, Факултет по славянски филологии, СУ “Св. Климент Охридски”, 23 февруари 2010 г. at http://slav.uni-sofia.bg/naum/node/1735.

6) Тишева, Й., М. Джонова. 2011. Корпус с устна българска реч – специфика и структура. – Български език, 58, 2011, № 3: 54-71.

7) Atanasov, A. 2006. Encoding Bulgarian Colloquial Speech Using TEI Specification. Computer Applications in Slavic Studies. “Boyan Penev” Publishing Centre, Sofia. 233-240. http://bgspeech.net/publications/atanasov_tei.pdf

8) Koeva, S., Blagoeva, D., Kolkovska, S. 2010. Bulgarian National Corpus Project. – Proceedings of LREC-2010. Valletta, ELRA, 2010: 3678-3684.

9) Koeva, S., I. Stoyanova, S. Leseva, T. Dimitrova, R. Dekova, E. Tarpomanova. 2012. The Bulgarian National Corpus: Theory and Practice in Corpus Design – Journal of Language Modelling, 2012, Vol. 0, No. 1: 65-110.

10) Navarretta, C., E. Ahlsén, J. Allwood, K. Jokinen, P. Paggio. 2011. Creating Comparable Multimodal Corpora for Nordic Languages. – Proceedings of the 18th Nordic Conference of Computational Linguistics. Riga, Latvia, May 11-13 2011, 153-160.

11) Schmidt, T. 2011. A TEI-based Approach to Standardising Spoken Language Transcription. – Journal of the Text Encoding Initiative (1), June 2011.

12) Schmidt, T., K. Elenius, P. Trilsbeek. 2010. Multimedia Corpora (Media encoding and annotation). Draft submitted to CLARIN WG 5.7. as input to CLARIN deliverable D5.C-3 Interoperability and Standards. at http://www.exmaralda.org/files/CLARIN_Standards.pdf

13) Simov, Kiril, Petya Osenova. 2004. BTB-TR04: BulTreeBank Morphosyntactic Annotation of Bulgarian Texts. BulTreeBank Project Technical Report № 04. http://www.bultreebank.org/TechRep/BTB-TR04.pdf

14) Tisheva, Y., M. Dzhonova. 2006. Colloquial Bulgarian on the Web. Computer Applications in Slavic Studies. Sofia: “Boyan Penev” Publishing Centre. 217-232. http://bgspeech.net/publications/TishevaDzhonova_colloquialBg.pdf

6. Посочки към материали по корпусна лингвистика в Интернет:

1) David Lee's Corpus-based Linguistics Links: http://tiny.cc/corpora (Съдържа връзки към: Сбирки от корпуси и архиви от данни; Курсове, информации, електронни списъци; Стандарти; Софтуер и компютърни средства за изследване; Помагала, енциклопедии, статии, списания; Връзки в помощ на преподаването; Koнференции и проекти)

2) Text Corpora and Corpus Linguistics: http://www.athel.com/corpus.html (Съдържа връзки към различни корпуси, корпуси и изучаване на езици; софтуер за правене на корпуси; конкорданси, курсове в интернет; библиография; полезни сайтове)

7. Български корпуси:

Български национален корпус: http://www.ibl.bas.bg/BGNC_bg.htm

Българския референтен корпус – BulTreeBank: http://www.webclark.org/

Корпус на българската политическа и журналистическа реч: http://www.political.webclark.org/

Корпуси от българска разговорна реч – http://folk.uio.no/kjetilrh/bulg

Корпус от устна българска реч – http://bgspeech.net/bg/resources/spoken.html

Корпуси от българска разговорна реч – http://folk.uio.no/kjetilrh/bulg

Мултимедиен корпус на българската устна реч – http://bgspeech.net/bg/resources/multimediacorpus.html

8. Свързани проекти в България:

          Bultreebank: http://www.bultreebank.org/

 

Съставили програмата: проф. д-р Йовка Тишева, доц. д-р Андрей Бояджиев, доц.

д-р Марина Джонова