Корпуси
Корпусът е база данни, която включва възможно най-богат набор от текстове на даден език, подбрани не заради художествената им стойност, а като илюстрация на състоянието на езика през определен период на неговото развитие. Всяка словоупотреба в текстовете е подложена на граматичени семантичен анализ.
Обикновено корпусите предлагат широк спектър от лингвистични справки с възможност за търсене по ключова дума, словоформа, словосъчетание, граматимчни категории, семантични гнезда и т.н. получената информация може да се филтрира по автор, жанр, стил, време и място на създаване на текста.
За повечето славянски езици в интернет има корпуси, които са на различен етап от разработването си.
Корпуси от старобългарски и църковнославянски текстове
Corpus Cyrillo-Methodianum Helsingiense
http://www.slav.helsinki.fi/ccmh/
Корпус от старобългарски текстове - Мариинско евангелие. Супрасълско евангелие, Житие на Кирил, Житие на методий. В процес на подготовка - Зографско евангелие, Асеманиево евангелие, Савина книга. Връзки към други сайтове.
Corpus of Slavic texts from the 11th century
http://rosa.hf.ntnu.no/hf/slavic_corpus/
Съдържа текста на остромировото евангелие, Изборниците от 1073 и 1076 г., Архангелското евангелие, Туровското евангелие, Пандектите на Антиох и др.
http://www.ceu.hu/medstud/ralph/obsht.htm
Кирилски и глаголически ръкописи и първопечатни книги - текстове и изследвания. На английски език.
БОСНЕНСКИ
Korpus bosanskih tekstova na Univerzitetu u Oslu
http://www.tekstlab.uio.no/Bosnian/korpus2.html
Проект на Отдела за източноевропейски и ориенталски изследвания и на лабораторията за обработка на текстове на университета в Осло. Около 1,5 милиона словоупотреби.
БЪЛГАРСКИ
HPSG-based Syntactic Treebank of Bulgarian
http://www.bultreebank.org/
http://www.bultreebank.org/veda/index.html
BulTreeBank corpus. Електронен архив от български диалектни текстове от фолклорни източници. Съдържа информация за подобни проекти и на други езици.
ГОРНОЛУЖИШКИ
Hornjoserbski tekstovy korpus
http://sibz.whyi.org/cgi-bin/corpus/
Горнолужишките текстове - художествена литература, публицистика, научна литература, религиозни текстове и др.
ПОЛСКИ
Korpus IPI PAN
http://korpus.pl/
300 милиона словоформи. Проект на Полската академия на науките.
Korpuse jezykove PELCRA
http://www.uni.lodz.pl/pelcra/corpora-pl.htm
130 милиона словоформи. Проект на Университета в Лодз.
Korpus jezyka polskiego Wydawnictwa Naukowego PWN
http://korpus.pwn.pl/
Пълната версия е платена. Безплатен достъп - над 7 милиона словоформи.
РУСКИ
Национальный корпус русского языка
http://ruscorpora.ru/
50 милиона словоупотреби /планиран обем -200 милиона/. Проект на Руската академия на науките.
Компьютерный корпус текстов русских газет конца ХХ-ого века
http://www.philol.msu.ru/%7Elex/corpus/
Над 200 000 словоупотреби /под обработка са още около 1 милион/. Проект на лабораторията по обща и компютърна лексикология и лексикография.
Russian Corpora in Tubingen - Tюбингенские корпусы русских текстов
http://www.sfb441.uni-tuebingen.de/
Проект на научноизследователския център SFB 441
The Uppsala Corpus - Упсальский корпус русских текстов
http://www.slaviska.uu.se/ryska/
600 руски текста. Проект на Университета в Упсала.
СЛОВАШКИ
Slovensky narodny korpus
http://korpus.juls.savba.sk/
СЛОВЕНСКИ
Korpus slovenskega jezika FIDA
http://www.fida.net/slo/index.html
Проект на Филологическия факултет на Университета в Любляна и на института "Йозеф Стефан". 100 милиона словоупотреби.
Beseda
http://bos.zrc-sazu.si/
Проект на Института за словенски език "Фран Рамош". 148 милиона словоупотреби
СРЪБСКИ
The corpus of Serbian language
http://serbian-corpus.edu.yu/
Проект на Института за експериментална фонетика и патология на речта - Белград. 11 милиона словоупотреби - текстове от ХСС в. до съвременността. Сайтът е на английски. Сръбската версия е в процес на изработване.
http://www.staff.amu.edu.pl/~sipkadan/korpus.html
Сръбски и хърватски текстови корпуси
ЧЕШКИ
http://ucnk.FF.cuni.cz/
Cesky Narodni Korpus
http://www.slav.helsinki.fi/ccmh/
Електронен корпус на старославянски църковни текстове към университета в Хелзинки. Линкове към сайтове с подобно съдържание. Не е довършен и не всички линкове работят.
http://www.bmanuel.org/
Сайтът предлага информация за корпуси на различни езици, не само славянски, но голяма част от линковете не се отварят.
http://www.ceu.hu/medstud/ralph.htm
Сайт, изготвен от професор Ралф Клеминсън от университета в Портсмут
Тук ще откриете материали, отнасящи се към средновековните славистични изследвания и компютърни програми за изследване на славянски средновековни ръкописи
http://www.hr/darko/etf/et04.html
Croatian Cyrillic Script
http://korpus.juls.savba.sk/
Словашки национален корпус
Словашки национален корпус е база данни от съвременни текстове на словашки език, обхващаща широк спектър езикови стилове заедно и ефикасна система за търсене.
http://www.hnk.ffzg.hr/
Хърватски национален корпус
|