Принцип аналогії в морфології
Химия

Принцип аналогії в морфології


Завантажити доповідь: Принцип аналогії у морфології

У роботі Бєлоногова Г. Г. та Зеленкова Ю. Г. описується принцип побудови алгоритму морфологічного аналізу текстів на основі принципу аналогії. Цей принцип використовується у системах орфографічного контролю російських текстів, системах автоматичного індексування документів та системах машинного перекладу текстів з російської мови на англійську та з англійської мови на російську. Продуктивність програми на комп’ютері з процесором від 386 і від становить близько 400 слів/с.

Під час автоматичної обробки тексту виникає проблема “нових” слів. Для синтаксичного аналізу та синтезу необхідно знати граматичні характеристики слів. Якщо слова у словнику немає, то морфологічний аналіз може бути виконаний, отже що неспроможні бути визначені граматичні характеристики слова.

Щоб визначити граматичні характеристики слів без словника, Белоногов запропонував принцип аналогії. Він заснований на тому, що існує сильний кореляційний зв’язок між граматичними характеристиками слів та літерним складом їх кінців. Наприклад: організація, приватизація, концентрація мають ж. р., ім. п. та од. ч.; працюють, розуміють, приваблюють — це дієслова у третій особі мн. ч. і т.д.

Принцип аналогії перевірявся на ряді індоєвропейських мов: (російська, болгарська, латиська, іспанська, англійська) і виявився ефективним. Спочатку він застосовувався визначення граматичних параметрів слів, не включених у машинний словник. Потім виникла ідея під час проведення морфологічного аналізу відмовитися від машинного словника.

Якщо за текстами великого обсягу скласти словник словоформ і призначити кожній словоформі деякі граматичні ознаки, та був перетворити даний словник на зворотний словник словоформ, можна виявити, що багато словника мають однакові набори ознак.

Зворотний словник словоформ є список словоформ з такими характеристиками як ознака довжини граматичного закінчення, номер флективного класу (типу словозміни) і числовий індекс, що характеризує такі ознаки як “дієслівність”, “місцевість”, “порівняльний ступінь”. Наприклад:

масштабу 01/001/01

служба 01/056/01

що виникли 02/105/10

батальйон 00/021/01

розраховуючи 00/152/10

Зворотний словник використовується для автоматичного морфологічного аналізу текстів, якщо складові словоформи їх ототожнювати зі словоформами словника і приписувати їм граматичну інформацію, зазначену в словнику. Словоформ тексту, які перебувають у словнику, можна приписувати граматичну інформацію тих словоформ словника, кінці яких максимально збігаються з кінцями цих нових словоформ тексту.

Об’єм зворотного словника можна скоротити, якщо на всіх його ділянках залишити по дві словоформи: початкову та кінцеву. Більше того з цих двох словоформ можна залишити лише одну, і якщо словоформа тексту не збігається з жодною словоформою зворотного словника, їй приписується інформація безпосередньо попередньої словоформи цього словника.

Цей скорочений словник можна скоротити, якщо виключити з нього початкові літери словоформ, які впливають результати морфологічного аналізу. При цьому в кожної пари словоформ, що стоять поруч, залишаються праворуч збігаються кінцеві буквосполучення і ще по одній літері, які не збігаються. Наприклад:

аба 01/001/01

еба 01/044/01

неба 01/071/01

алі 02/105/10

тальйон 00/021/01

Тива 00/152/10

Після виконання всіх операцій обсяг словника скорочується у 8 разів. На точність спочатку включених у словник словоформ це вплине, а точність аналізу інших словоформ російської буде досить високої.

Для морфологічного аналізу текстів на основі методу аналогії достатньо мати зворотний словник кінців слів. Але автори розробки зробили ще «Словник службових та коротких слів». У цей словник були включені спочатку прийменники, займенники, частки, союзи та короткі слова до 5 літер. Потім у нього увійшли також словоформи, які методом аналогії аналізувалися неправильно. В результаті, цей словник збільшився до 11 тисяч словоформ.

Отже, у процесі морфологічного аналізу словоформи шукаються у словнику “Службових і коротких слів”, та був у словнику кінців словоформ. Результати аналізу, отримані за першим словником, вважаються надійнішими, і словоформи, знайдені у цьому словнику, подальшої обробки не піддаються.

В даний час можливість правильного аналізу слів при обробці текстів будь-якої тематики перевищує 99%.

У розробці даної системи поряд з авторами цієї статті брали участь наукові співробітники відділу лінгвістичних досліджень ВІНІТІ: А. П. Новосьолов, Є. Ю. Рижова, С. А. Самоделкіна, Ал-др А. Хорошілов, Ал-сей А. Хорошилов, Є. Г. Дружініна.

© Реферат плюс



Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *