- Зв'язковість текстової інформації
Химия

— Зв’язковість текстової інформації


Завантажити реферат: Зв’язок текстової інформації

Зв’язність одна із важливих властивостей текстової інформації. Будь-яка інформація є набір тих чи інших фактів, причому частина їх обов’язково пов’язана між собою. Вочевидь, що з передачі цієї інформації у текстовому вигляді необхідно знайти спосіб зберегти зв’язку. Якщо цього зробити, ми отримаємо адекватного ставлення до зовнішнього середовища, лише окремі її фрагменти, які дають цілісної картини. Яким чином реалізується зв’язність?

Найбільш очевидним та логічним способом реалізації зв’язності текстової інформації є повтор. Суть його полягає в наступному: якщо пропозиція А пов’язана з пропозицією Б, то ці дві пропозиції містять деяку однакову частину, що повторюється інформацію, яка і показує наявність зв’язку між А та Б. Таким чином, доводиться жертвувати одним із найважливіших принципів організації мовного матеріалу – відсутністю Надмірність, але ця жертва необхідна для коректної передачі інформації про зовнішнє середовище.

Далі виходитимемо з того, що складність тексту зберігається в межах одного абзацу.

Щоб уможливити виявлення зв’язків, кожна пропозиція абзацу розбивається на дві частини: координати та власне інформацію. Координати — та сама загальна частина, що служить для зв’язку з іншими пропозиціями. Решта містить унікальну, нову інформацію, передачі якої і служить у тексті цю пропозицію. Існує три типи зв’язності, що відрізняються схемами побудови координатних залежностей:

Опис «вглиб» (1). У цьому випадку зв’язність реалізується послідовним ланцюжком, тобто пропозиція 1 пов’язана з 2, 2 з 3 і т.д.

Опис «вшир» (2). У цьому випадку зв’язок реалізується за паралельним принципом, коли всі пропозиції 2, 3 і т. д. пов’язані з пропозицією 1.

Лінгвістичний процесор може вирішувати два завдання, що стосуються зв’язності:

Завдання аналізу. І тут метою є виявлення всіх зв’язків між пропозиціями деякого тексту.

Завдання синтезу. Мета цього завдання — побудова тексту, який описує певний фрагмент довкілля із збереженням зв’язків між об’єктами.

Далі буде розглянуто алгоритм розв’язання задачі аналізу.

Перед тим, як описувати алгоритм програмної реалізації завдання аналізу, необхідно зробити одне зауваження. Для якісного розв’язання завдання потрібна наявність досить великої бази даних, у якій зберігалися відомості про різні морфологічні уявлення слів, і навіть, ще повнішої картини, відповідності між словами-синонімами. У цій роботі завдання реалізації такої бази даних не розглядається. Описуваний алгоритм визначає зв’язку в тексті тільки шляхом пошуку слів, що повторюються.

Робота алгоритму відбувається в наступній послідовності:

Попередній аналіз тексту з метою розбиття його на окремі речення. Пропозиція вважається закінченою, як тільки виявлена ​​точка, причому за точкою слід або велика літера, або нічого, якщо кінець речення одночасно є кінцем тексту.

Аналіз речень з метою виділення окремих слів. Передбачається, що слова поділяються пробілами або іншими роздільними символами.

Створення двовимірного масиву, у якому одна координата визначає порядковий номер речення, а інша — порядковий номер слова у цій пропозиції.

Пошук зв’язків для кожного текстового слова. Цей пошук відбувається у циклі і складається з таких етапів:

читання наступного слова та його перевірка. Слова довжиною менше трьох символів не аналізуються, щоб унеможливити помилкові зв’язки зі спілок, приводів тощо;

пошук у тексті слів, у яких збігається з цим словом не менше 3 перших символів та не менше 3/4 від його довжини. Таким чином враховується можливість наявності у слів різних закінчень, що повторюються. Можна також обмежувати глибину пошуку, тобто кількість пропозицій після поточного, в яких потрібно шукати зв’язки. Якщо здійснювати пошук лише в одному наступному реченні, то будуть знайдені лише зв’язки за схемою (1);

запам’ятовування координат знайдених зв’язків у масиві. При цьому створюється таблиця, в якій записується для кожного набору координат. Якщо працювати тільки за схемою (1), то ці записи будуть пари.

Після закінчення циклу може бути побудована схема, що демонструє всі зв’язки у тексті.

Можна також розбити текст на абзаци: початком нового абзацу вважається пропозиція, в якій немає жодного зв’язку з будь-яким із слів попередньої частини тексту.

Алгоритм не дає гарантії правильності одержаного результату. Зокрема, можливі такі помилки:

знаходження неіснуючих зв’язків по допоміжним частинам мови;

знаходження неіснуючих зв’язків за подібними до написання, але не однокорінними словами;

втрата зв’язків за короткими словами.

Уникнути цих помилок можна, як говорилося, лише за доповненні програми базою даних.

© Реферат плюс



Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *