Національний університет «Острозька академія» — наступник першого вищого навчального закладу східнослов’янських народів — Острозької слов’яно-греко-латинської академії. Сьогодні виш визнано одним із найпрестижніших вищих навчальних закладів України.

Університет
Вступ

Усю корисну інформацію про вступ до Національного університету «Острозька академія» абітурієнти можуть знайти у цьому розділі.

Національний університет «Острозька академія» має статус самоврядного (автономного) дослідницького національного вищого навчального закладу. В університеті функціонують наукові центри, лабораторії, спеціалізовані вчені ради із захисту кандидатських дисертацій.

Наука
Освіта

Мета НаУОА – надання якісних освітніх послуг, які дозволяють студентам здобути знання та вміння, затребувані на сучасному ринку праці. Усю інформацію, яка стосується освітнього процесу в НаУОА, ви зможете знайти в цьому розділі.

Проект створення корпусів текстів

Керівник проекту - Коцюк Леся Миколаївна

АНОТАЦІЯ ПРОЕКТУ

Проект передбачає роботу над створенням корпусів текстів:

а) корпус української англійської мови – пошук та впорядкування усних та письмових (друкованих) текстів, представлених англійською мовою українцями (учнями шкіл, студентами, перекладачами, підручники для навчання англійської мови та ін.) у вигляді корпусу;

б) корпус міжнародної української мови - пошук та впорядкування усних та письмових текстів, представлених українською мовою іноземцями-не громадянами України (росіянами, поляками, канадцями та ін.) у вигляді корпусу;

с) корпус спеціалізованого наукового мовлення (напрямку «Філологія») - пошук та впорядкування у вигляді корпусу наукових статей, надрукованих у збірниках, затверджених ВАК України як фахові з напрямку «Філологія»;

 

ПРОБЛЕМАТИКА ДОСЛІДЖЕННЯ (РОЗРОБКИ):

Об’єктом розробки є усні та письмові (друковані) тексти, представлені: англійською мовою українцями (напрямок а), українською мовою іноземцями-не громадянами України (напрямок б); наукові статті, надруковані у збірниках, затверджених ВАК України як фахові з напрямку «Філологія» (напрямок с).

Предметом розробки є корпусні технології представлення мовної системи.

Проблема, що вирішується: створення перших в Україні корпусів текстів, які стануть автентичним джерелом для подальших наукових досліджень сучасної української мови, англійської мови як іноземної, спеціалізованого наукового мовлення.

 

МЕТА І ОСНОВНІ ЗАВДАННЯ ПРОЕКТУ

Метою проекту є впровадження корпусних технологій представлення різних текстів сучасної української та англійської мови, а також створення лексикографічного продукту з використанням корпусних технологій.

Практичні задачі, на вирішення яких спрямовано проект: створення корпусів текстів:

а) Корпус Української Англійської Мови (КУАМ) – пошук та впорядкування усних та письмових (друкованих) текстів, представлених англійською мовою українцями (учнями шкіл, студентами, перекладачами, підручники для навчання англійської мови та ін.) у вигляді корпусу;

б) Корпус Міжнародної Української Мови (КМУМ) - пошук та впорядкування усних та письмових текстів, представлених українською мовою іноземцями-не громадянами України (росіянами, поляками, канадцями та ін.) у вигляді корпусу;

с) Корпус Спеціалізованого Наукового Мовлення (КСНМ) (напрямку «Філологія») - пошук та впорядкування у вигляді корпусу наукових статей, надрукованих у збірниках, затверджених ВАК України як фахові з напрямку «Філологія»;

Значимість проекту для розв’язання економічних і соціальних проблем: оскільки лінгвістичне дослідження не залежно від історичного періоду і рівня розвитку мовознавчої науки ґрунтується на мовному матеріалі, а корпусні методики уможливлюють збір, опрацювання, зберігання великих за обсягом текстових масивів та забезпечують межову швидкість екстрагування лінгвальної інформації з них, то побудова спеціалізованих електронних корпусів текстів для національної мови є не лише бажаною, але й необхідною для здійснення як класичних досліджень мови на базі кількісно іншого мовного матеріалу, який забезпечує корпус, так і вивчення, аналіз, опис мови у контексті нових напрямків. Важливо, що корпусно-базовані дослідження мови через обсяг аналізованого матеріалу (мільйони слововживань) і технічні можливості корпусного інструментарію здатні виявити такі мовні реалії, про які донедавна вчені навіть не підозрювали. Лексикографічні ж дослідження, базовані на корпусах, приносять користувачам словників факти про реальне функціонування мови.

СУЧАСНИЙ СТАН ПРОБЛЕМИ

У межах класичної лінгвістичної традиції збір мовних даних завжди був і залишається складним технічним завданням, оскільки йдеться про ручне довготривале опрацювання письмових текстів, опитування інформаторів, анкетування, створення традиційних лексичних картотек тощо. Існують також інші проблеми, пов’язані з традиційним збором мовного матеріалу, зокрема його поновлення, пошук необхідних одиниць у кількамільйонних картотеках, віддалений доступ, або взагалі відсутність його у, так званих, неелектронних базах. Комп’ютерні технології, прийшовши у лінгвістику, запропонували свої технічні можливості для оформлення, зберігання і пошуку мовного матеріалу на машинних носіях, який може бути організований як база даних, машинний фонд або, останнім часом, корпус текстів. Про популярність та інтенсивність розвитку корпусної лінгвістики свідчить як чимале число теоретичних і технологічних праць, підручників так і самих корпусів. Йдеться про праці Х. Кучери (Francis, Kucera 1979), У. Френсиса (1983), Д.Байбера (Biber 1990, 1992) Дж. Синклера (Sinclair 1994), В. Тойберта (Teubert 2000), Ґ. Кеннеді (Kennedy 1998), Н. Іде (2000), М. Банька (Bańko 1994-1996; 2003), T. Ерявця (Erjavec 2001), Й. Гаїча (Hajič 1998), А. Баранова (2001), С. Шарова (2002), В. Рикова (2001а, 2001б), Л. Ричкової (2002, 2003) та ін. Для лінгвоукраїністики побудова корпусів перебуває на початковому етапі розвитку та базується як на теоретичних положення, розроблених для інших національних мов, зокрема для англійської (Brown Corpus, British National Corpus), французької (FRANTEXT), чеської (Českэ Nбrodnн Korpus), польської (Korpus Państwowego Wydawnictwa Naukowego) та російської (Большой корпус русского языка, Национальный корпус русского языка), так і на працях українських комп’ютерних лінгвістів, які розглядають проблеми співзвучні з проблематикою корпусного мовознавства, Т. Грязнухіної (1983), Н. Дарчук (2000), Є. Капріловської (2003), Н. Клименко (1990), В. Перебийніс (1981) В. Русанівського і Н. Клименко (1995),  Пещак (1999) та ін. Українським мовно-інформаційним фондом НАН України під керівництвом О. Демської-Кульчицької вже створено Український національний корпус та у тестовому режимі працює Корпус текстів української мови. Створення корпусу української англійської мови є вкладом до міжнародного проекту International Corpus of Learner English, який діє при Центрі англійської корпусної лінгвістики, Бельгія. На даний час представлено підкорпуси 19 різних країн (E2 French, E2 German, E2 Swedish… ), серед яких української англійської не має.

 

МЕТОДИ, ЗАСОБИ, ПІДХОДИ, ІДЕЇ, РОБОЧІ ГІПОТЕЗИ, ЯКІ ПРОПОНУЮТЬСЯ ДЛЯ ВИРІШЕННЯ ЗАВДАНЬ ПРОЕКТУ

Планується, що стосовно обсягу Корпус Української Англійської Мови (КУАМ), Корпус Міжнародної Української Мови (КМУМ) та Корпус Спеціалізованого Наукового Мовлення (КСНМ) будуть середніми і при їх побудові виконуватиметься така стратегія укладання: 1) нижня статистична межа кожного з їх підкорпусів в 200 тис. слововживань; 2) можливість перманентного поповнення корпусів текстовими даними; 3) без обмежень на верхню статистичну межу. За структурою пропоновані корпуси матимуть вигляд „генеральний корпус – система підкорпусів”. Для КУАМ вважаємо за доцільне спеціалізувати підкорпуси за хронологією, усним чи писемним представленням. Для КМУМ підкорпуси спеціалізуватимуться за географічним принципом та хронологією, для КСНМ – за сферами науки. Усі пропоновані корпуси характеризуватимуться як: а) дослідницькі: орієнтовані на широкий клас лінгвістичних завдань; б) фрагментні: будуються з текстових фрагментів, тобто уривків текстів, відібраних за попередньо детермінованими засадами відбору текстових даних до корпусу; в) мішані: передбачено введення текстових фрагментів обидвох варіантів реалізації мовної системи – писемних і усних (за винятком КСНМ, де представлятимуться тільки друковані фрагменти); г) динамічні: передбачають константне поповнення множини корпусних текстів; ґ) синхронно-діахронні: охоплює текстовий матеріал, організований як система підкорпусів генерального; д) специфічного мовлення: з урахуванням територіальної специфіки та сфер застосування; е) мономовні: тексти, що увійшли до корпусу є результатом мовної діяльності носіїв однієї мови; є) морфологічно анотовані: усі текстові дані розмічені до рівня слова і кожне слово передбачає маркування частиномовної належності та відповідних морфологічних значень.

 

ОЧІКУВАНА НАУКОВА ТА НАУКОВО-ТЕХНІЧНА ПРОДУКЦІЯ:

В результаті роботи планується отримати корпуси, призначені для таких сфер застосування: а) морфолого-синтаксична, де передовсім визначатимуться квантитативні характеристики слів з різним лексико-граматичним значенням в українській мові як іноземній та українському варіанті англійської мови мові як синхронно (аналіз одного певного підкорпусу), так і діахронно (аналіз підкорпусів різних періодів); вивчити структуру і лексико-граматичну семантику різних частин мови; встановити максимальну vs мінімальну vs оптимальну довжину речень, порядок слів у реченні, дослідити функціонування активних і пасивних конструкцій в динаміці та ін; б) лексикографічних – де факто лексикографія детермінувала корпусний принцип організації даних природної мови, але лише поява машиночитаних корпусів реально уможливила швидке виконання лексикографічних завдань, про що, зокрема, говорять Т. Макенрі й А. Вилсон: „лінгвіст, який має до своєї диспозиції корпус або інше машиночитане зібрання текстів, може викликати всі приклади на всі необхідні слова або фрази з багатомільйонних текстових корпусних ресурсів впродовж кількох секунд” (McEnery, Wilson 1996, 43), що дозволяє укладання словників і їх перегляд набагато швидше, ніж у, так званий, докорпусний період, і таким чином, подання сучасної інформації про мову. Крім того, виходячи з корпусних можливостей, можна поглибити або розширити словникові дефініції, оскільки корпус забезпечує значно більше число реальних мовних прикладів, які можна легко пересортовувати і об’єднувати у групи для здійснення того чи іншого аналізу. Не кажучи уже про можливість, за умови використання даних моніторного корпусу, фіксувати терміни та неологізми, розширювати або звужувати значення слова або баланс між вживанням лексичних одиниць, залежно від стилю і жанру конкретного тексту;

в) контрастивний аналіз варіантів української та англійської мов (наприклад, діаспорний варіант української мови та українська мова, вивчена поза межами країни), що може зумовити його використання у мовному пануванні, формуванні мовної політики, організації антинівеляційного захисту сучасної української мови.

г) методики викладання української та мови як іноземної та методики викладання англійської мови для українців, де корпусні дані та можливість швидкого різнорівневого пошуку забезпечать дидактичний матеріал для аналізу і засвоєння граматичних та лексичних знань учнями і студентами, а, крім того, завдяки здатності викликати комбінації слів, а не індивідуальні слова, учень або студент має змогу детальніше вивчити синтагматичні реляції між різними мовними одиницями.

Загалом, як засвідчують досягнення корпусно-базованих досліджень у англо-саксоністиці, романістиці, германістиці, частині славістики, корпусно-базовані дослідження мають ряд переваг щодо класичних, реалізованих без корпусу текстів і корпусного інструментарію. Це, по-перше, швидкість екстрагування та сортування / пересортування великої за обсягом лінгвальної інформації. По-друге, великі обсяги інформації. По-третє, набір даних, які уможливлюють дослідження як мовної системи, так і її реалізації у достатньо широкому синхронно-діахронному спектрі. По-четверте, можливість багатократного звертання до корпусу з найрізноманітнішими запитами за інтра- та екстралінгвальною інформацією про українську мову. І, по-п’яте, забезпечення межової точності та надійності зберігання всієї інформації, яку містить текст.

 

ОЧІКУВАНЕ ВИКОРИСТАННЯ ОТРИМАНИХ РЕЗУЛЬТАТІВ:

Створені корпуси стануть автентичним джерелом проведення вибірки у загальних та контрактивних лінгвістичних дослідженнях, дослідженнях з методики викладання мови, лексикографії та термінознавства на всіх рівнях написання наукових робіт: від випускних бакалаврських до докторських дисертацій. Також вони слугуватимуть основою різноманітних досліджень при підготовці публікацій у вітчизняних виданнях, у виданнях з Переліку ВАК України, у виданнях, що входять до наукометричних баз даних (Scopus та інші); при підготовці монографій (в тому числі вітчизняних, академічних чи закордонних видавництв), підручників та навчальних посібників (в тому числі з грифом МОН України). Теоретичні засади та методика створення корпусів стануть у пригоді при розробці та впроваджені нових циклів лабораторних робіт, нових лекційних курсів тощо в навчальному процесі.

 

Стан виконання проекту (2010 р.):

  • Розпочато збір студентських есе (40 шт.). Вони внесені до бази даних з метою створення корпусу української англійської.
  • Налагоджено співпрацю з Центром Англійської Корпусної Лінгвістики, (Бельгія) та обговорено етапи роботи та вимоги до корпусу української англійської мови, який увійде до Міжнародного Корпусу Студентської Англійської (ICLE). У межах цього проекту відбувається співпраця з Лабораторією комп’ютерної лінгвістики Київського лінгвістичного університету.