Меню
  Список тем
  Поиск
Полезная информация
  Краткие содержания
  Словари и энциклопедии
  Классическая литература
Заказ книг и дисков по обучению
  Учебники, словари (labirint.ru)
  Учебная литература (Читай-город.ru)
  Учебная литература (book24.ru)
  Учебная литература (Буквоед.ru)
  Технические и естественные науки (labirint.ru)
  Технические и естественные науки (Читай-город.ru)
  Общественные и гуманитарные науки (labirint.ru)
  Общественные и гуманитарные науки (Читай-город.ru)
  Медицина (labirint.ru)
  Медицина (Читай-город.ru)
  Иностранные языки (labirint.ru)
  Иностранные языки (Читай-город.ru)
  Иностранные языки (Буквоед.ru)
  Искусство. Культура (labirint.ru)
  Искусство. Культура (Читай-город.ru)
  Экономика. Бизнес. Право (labirint.ru)
  Экономика. Бизнес. Право (Читай-город.ru)
  Экономика. Бизнес. Право (book24.ru)
  Экономика. Бизнес. Право (Буквоед.ru)
  Эзотерика и религия (labirint.ru)
  Эзотерика и религия (Читай-город.ru)
  Наука, увлечения, домоводство (book24.ru)
  Наука, увлечения, домоводство (Буквоед.ru)
  Для дома, увлечения (labirint.ru)
  Для дома, увлечения (Читай-город.ru)
  Для детей (labirint.ru)
  Для детей (Читай-город.ru)
  Для детей (book24.ru)
  Компакт-диски (labirint.ru)
  Художественная литература (labirint.ru)
  Художественная литература (Читай-город.ru)
  Художественная литература (Book24.ru)
  Художественная литература (Буквоед)
Реклама
Разное
  Отправить сообщение администрации сайта
  Соглашение на обработку персональных данных
Другие наши сайты
Приглашаем посетить
  Путешествия (otpusk-info.ru)

   

Автоматизація реферування

Автоматизацiя реферування

План

Вступ

1. Реферат i його цiльове призначення

2. 2 Вiтчизняне реферування та видання реферативної iнформацiї

3. Автоматизацiя реферування

3. 2 Мiжфразовi зв’язки

3. 7 Експерименти

3. 10 Перспективи

Висновки

Список використаної лiтератури


Вступ

Значення даної курсової роботи полягає у тому, щоб показати яке є реформування в загальному автоматизованому i наскiльки воно розвинуте в нашiй країнi.

Структура роботи полягає: по перше в описi що таке реферат i його цiльове призначення, також функцiї реферату, по друге в охарактеризуваннi реферування як процесу згортання первинної iнформацiї а також вiтчизняного реферування, тобто наскiльки воно розвинуте в нашiй країнi, по третє це опис автоматизованого реферування яке подiляється на даннi пiдпункти: теоретичнi аспекти мiжфразового аналiзу, мiжфразовi зв’язки, тощо.


1. 1 Реферат у державнiй системi науково-технiчної iнформацiї

Вiдповiдно до самого загального визначення реферат – це короткий виклад змiсту наукового документа (вiд латинського referre – повiдомляти, доповiдати).

Служба реферування в нашiй країнi початку створюватися в першi роки пiсля перемоги Жовтневої революцiї. Радянський уряд звернув увагу на необхiднiсть використання досягнень свiтової науки i технiки в iнтересах становлення народного господарства i розгортання соцiалiстичного будiвництва. Викладаючи програму нового журналу «Пiд прапором марксизму», В.І. Ленiн писав: «Треба уважно стежити за усiєю вiдповiдною лiтературою на всiх мовах, переводячи або, принаймнi, реферуючи (пiдкреслене мною.–У. С.} усi скiльки-небудь коштовне в цiй областi» (Ленiн В.І. Полн. собр. соч., т. 45, с. 25).

За рiшенням Комунiстичної партiї i Радянського уряду в перiод з 20-х до 50-х рр. у країнi видавався ряд реферативних журналiв i збiрникiв– «Науково-технiчний вiсник», «Повiдомлення про науково-технiчнi роботи в Республiцi», «Наукова лiтература СРСР» («Індекси»), «Новини технiчної лiтератури», «За оволодiння технiкою» i iн.

Розвиваючись по емпiричному шляху, реферування одержувало усе бiльш широке поширення. Назрiвала необхiднiсть осмислити i проаналiзувати практичний досвiд.

У 20-i рр. активним пропагандистом iдей органiзацiї реферативної i бiблiографiчної роботи i розвитку системи документацiї був Б. С. Боднарский. У 30-i рр. стали з'являтися публiкацiї, у яких обговорювалися актуальнi питання пiдготовки, видання i використання матерiалiв реферативної iнформацiї (А. Я. Подземский, В. Лазарєв, К. Р. Симон, Ф. Яшунская й iн.). Незабаром пiсля Великої Вiтчизняної вiйни вийшов ще ряд робiт (Н. П. Зибiна i О. А. Лицкевич, К. Р. Симон i Г. М. Кричевский, А. В. Кременецька й Е. В. Васильєва).

Кiнець 40-х i початок 50-х рр. можуть розглядатися як новий етап у розвитку служби реферування. Складання, редагування рефератiв, пiдготовка i випуск реферативних видань стають складовою частиною науково-iнформацiйної дiяльностi, що одержує швидкий розвиток i здобуває органiзацiйне оформлення аж до державного рiвня. У СРСР приймаються заходи для формування єдиної державної системи науково-технiчної iнформацiї. На початку 50-х рр. був органiзований центр по реферуванню науково-технiчної лiтератури – Інститут наукової iнформацiї (нинi Всесоюзний iнститут наукової i технiчної iнформацiї Державного комiтету СРСР по науцi i технiцi й Академiї наук СССР-ВІНІТІ). Пiдсилюється увага до вивчення процесу реферування i самого реферату. Виходять у свiтло роботи Д. Ю. Теплова, Д. Ю. Панова, А. И. Михайлова, А. А. Фомiна, Р. С. Гиляревського, М. Л. Колчинського, В. А. Полушкiна, Л. Л. Балашова, В.І. Горьковой, Т. В. Муранiвського, Г. С. Ждановой, С. Я. Фокiна й iн., у якi розглядаються питання теорiї i практики пiдготовки i видання рефератiв; розробляються офiцiйнi iнструкцiї з реферування,з публiкацiй Г. Борко, І. Коблитца, Ш. Ранганатана, Кэндзо Хираями, Б. Уейла й iн. стає усе бiльш вiдомим закордонний досвiд в областi реферування.

З кiнця 1960-х рр. iнтерес до реферату i реферативних видань пiдсилився настiльки, що проводяться дослiдження на рiвнi дисертацiйних робiт в областi книгознавства й iнформатики.

розповсюджених iнформацiйних документiв. Тiльки ВІНІТІ публiкує бiльш 1 млн. рефератiв у рiк. Цей найбiльший у свiтi iнформацiйний центр проводить централiзоване реферування усiєї свiтової науково-технiчної i природничо-наукової лiтератури i здiйснює обмiн рефератами в мiжнародному масштабi, у тому числi i насамперед у рамках країн – членiв СЭВ. Щорiчно у ВІНІТІ надходить близько 150 тис. джерел iнформацiї з 130 країн свiту на 66 мовах; вони включають до 2 млн. публiкацiй–80–90% свiтового потоку лiтератури по природних i технiчних науках. Видаваний ВІНІТІ реферативний журнал має 204 найменування; крiм того, з рефератiв складаються реферативнi картотеки, на основi рефератiв видаються експрес-iнформацiї. У ВІНІТІ сформований великий колектив позаштатних референтiв, що включає до 20 тис. фахiвцiв рiзних профiлiв.

науково-iнформацiйних iнститутiв.

рубежем», кожний з яких складається з ряду серiй. Інститут випускає також реферативнi збiрники й iншi види iнформацiйних видань. Усесоюзний науково-дослiдний iнститут патентної iнформацiї (ВНІІПІ) пiдготовляє i публiкує реферативну iнформацiю з описiв винаходiв. Усесоюзний науково-технiчний центр (Унтiцентр) випускає реферативнi видання, що iнформують про науково-дослiднi, дослiдно-конструкторськi роботи i захищенi дисертацiї.

Створена в нашiй країнi державна система науково-технiчної iнформацiї (ДРНТІ) включає всесоюзнi, центральнi галузевi органи НТІ, республiканськi iнститути, мiжгалузевi територiальнi центри i близько 12 тис. вiддiлiв (бюро) НТІ з науково-технiчними бiблiотеками на промислових пiдприємствах, у науково-дослiдних iнститутах, проектних, конструкторських i iнших органiзацiях. Таким чином, ДРНТІ – це розвита мережа iнформацiйних органiв, що мають безпосереднє вiдношення до складання, поширенню i використанню рефератiв. Реферати складаються й у видавництвах.

Ступiнь оволодiння методикою реферування багато в чому залежить вiд знання законiв загальної логiки i, зокрема, логiки наукового дослiдження. Критичний аналiз змiсту реферируемого документа, наукова оцiнка референтом i редактором новизни i корисностi iнформацiї неможливi без глибоких спецiальних знань у вiдповiднiй областi науки i технiки.

Реферування-праця нелегкий i досить вiдповiдальний. Одним з перших, хто звернув увагу на це, був М. В. Ломоносов. Вiн писав: «Хто береться повiдомляти публiцi змiст нових творiв, повинний наперед зважити свої сили, тому що вiн починає працю важкий i досить складний, котрого цiль не в тiм, щоб передавати речi вiдомi й iстини загальнi, але щоб умiти схопити нових i iстотне у творах, що належать iнодi людям самим генiальним...» .

І референт i редактор тим компетентнiше виконують свої обов'язки, чим тiснiше вони зв'язанi зi споживачами iнформацiї, чим краще знають їхнi запити. Очевидно, що i референт i редактор повиннi володiти не тiльки рiдним, але й iноземним без знання iноземної мови неможливе реферування закордонних джерел iнформацiї. Редакторовi не обiйтися, крiм того, без знання стилiстики i теорiї редагування, основ сучасної полiграфiчної технiки i технологiї, а також питань економiки видавничої справи.

Виступаючи органiзатором процесiв складання i видання рефератiв, редактор здiйснює пiдбор референтiв, при цьому враховується тематика реферируемой лiтератури, квалiфiкацiя референтiв i вартiсть виконаної роботи. Приклад експериментального рiшення такої задачi стосовно до галузевої автоматизованої системи НТІ . При проведеннi експерименту заданi обмеження зводилися до того, щоб обробити можливо бiльша кiлькiсть тим найменшим числом референтiв при мiнiмальнiй вартостi реферування. Отриманi результати дозволили зробити наступний висновок: кращим рiшенням, з погляду мiнiмальної вартостi реферування, є таке, коли один референт веде обробку матерiалiв не бiльш нiж по трьох темах.

Таким чином, широке використання рефератiв у державнiй системi НТІ, важлива роль, виконувана цим документом, зобов'язують i референта i редактор вiдповiдально пiдходити до його пiдготовцi, причому вирiшальне слово тут належить редакторовi.

1. 2 Функцiї реферату

Цiльове призначення документа найбiльше повно розкривається при розглядi його функцiональних властивостей. Самою iстотною, вiдмiтною функцiональною властивiстю реферату є iнформативнiсть. З усiх вторинних документiв нi анотацiя, нi бiблiографiчний опис не розкривають так повно основний змiст першоджерела, як реферат.

що читання рефератiв може заощадити до 90% часу, необхiдного для прочитання первинних документiв. Бiльш того, нерiдко реферати замiняють первиннi документи. Насамперед це стосується розширених рефератiв, типу публикуемых в експрес-iнформацiї ВІНІТІ, реферативних журналах ІНІОН i т. п., а також коротких рефератiв статей, що мiстять опис виробiв, технологiчних процесiв, результатiв експериментiв. Часто споживачi обмежуються читанням рефератiв, коли потрiбна їм iнформацiя вiдноситься не до основної теми їхньої роботи, а до сумiжних питань, або коли первинний документ опублiкований iноземною мовою i число його екземплярiв у країнi незначно. В останньому випадку споживач не завжди може скористатися оригiналом, позначаються психологiчнi, язиковi й органiзацiйнi причини. Звiдси випливає, що реферати необхiднi як засiб поширення iнформацiї про новi досягнення закордонної науки i технiки. Вони є засобом подолання язикових бар'єрiв, сприяють наукової комунiкацiї в мiжнародному масштабi, iнакше кажучи, виконують комунiкативну функцiю.

функцiя реферату, а також функцiя довiдкова, оскiльки iнформацiя, що витягається з реферату, багато в чому становить довiдковий iнтерес. Довiдковi можливостi рефератiв доцiльно враховувати при комплектуваннi довiдково-iнформацiйних картотек, при органiзацiї цiлеспрямованого iнформування i т. д.

Завдяки цiй найважливiшiй властивостi реферат застосовується нинi для поточного i ретроспективного пошуку документiв у ІПС iз використанням ручних, механiчних i автоматичних засобiв.

Ефективнiсть iнформацiйного пошуку багато в чому залежить вiд семантичної адекватностi й еквiвалентностi рефератiв первинному документовi i вiд їхньої лексичної i язиково-стилiстичної якостей. Щоб реферат виконав пошуковi функцiї, вiн повинний характеризувати джерело, що реферується, не тiльки змiстовно, але й описово (iнодi в рефератi обмежуються назвою або перерахуванням окремих питань змiсту). Це ще одна властивiсть реферату, що прийнято називати индикативностью. У цiлому реферат, виконуючи iндикативну функцiю, указує на iснування, наявнiсть вiдповiдного документа (наприклад, депонованої рукопису); разом з тим реферат описово характеризує окремi елементи змiсту i передає бiблiографiчнi ознаки. Точним бiблiографiчним описом первинного документа одночасно досягається i те, що реферат здатний виконувати адресну функцiю, без чого, природно, неможливий документальний iнформацiйний пошук.

Такий пошук неодмiнно зв'язаний з переглядом рефератiв, що можуть бути систематизованi в реферативному журналi, у картотецi або в iнших зборах. Замiчено, що чим ближче пошуковий апарат до фонду первинних документiв, тим менше значення має iнформативнiсть реферату, тому що споживач може звернутися безпосередньо до первинного документа. І, як уже вiдзначалося, iнакше обстоїть справа, якщо споживач обмежений у можливостях скористатися безпосередньо первинним документом.

У цьому випадку важливу роль грає реферативний журнал, публiкуючи реферати, що вiдбивають первиннi документи, що не. обов'язково знаходяться в одному фондi i мiсце збереження яких не фiксовано i вiддалено вiд споживача. Без реферативного журналу споживачi були б позбавленi великої кiлькостi потрiбної iнформацiї, насамперед по закордоннiй науцi i технiцi. Представляючи собою систематизованi збори рефератiв, журнал зберiгає i почасти збiльшує значення їхнiх окремих функцiональних властивостей, особливо iнформативних i довiдкових.

Реферативний журнал у цiлому i, отже, що входять у нього реферати виконують сигнальнi функцiї, повiдомляючи про вихiд у свiтло i про наявнiсть первинного джерела iнформацiї. Сигнальнi функцiї рефератiв виявляються, коли з їхньою допомогою здiйснюється оперативне iнформування про плани випуску лiтератури, про iснування неопублiкованих, у тому числi депонованих робiт. Для науково-iнформацiйної дiяльностi важливо, щоб реферати пiдготовлялися i доводилися до споживача, випереджаючи вихiд у свiтло первинних документiв. У конкретних установах (НДІ, вузах) реферати можуть бути використанi для сигнального оповiщення про новi надходження лiтератури у фонд бiблiотеки.

Дiапазон використання рефератiв дуже широкий. Так, реферати описiв винаходiв не тiльки оповiщають про новi технiчнi рiшення, доносять до споживача суть цих рiшень, допомагають пошуковi патентної документацiї. Зiбранi воєдино, вони можуть бути використанi при попереднiй експертизi заявок на винаходи. Реферативна iнформацiя про НІР i ОКР спрямована на те, щоб виключити паралелiзм i дублювання при проведеннi наукових дослiджень i конструкторських розробок. Публiкацiя рефератiв по завершеннi НІР i OKP або їхнiх окремих етапiв сприяє успiшному впровадженню отриманих результатiв, а також пiдвищенню темпiв i якостi проведених робiт.

Реферат придатний для рiшення ще однiєї важливої задачi. Вiн може бути використаний для iндексування змiсту тексту первинного документа, що iстотно (у 2–4 рази) скорочує витрати часу i працi в порiвняннi з витратами на виконання цiєї роботи безпосередньо по першоджерелу. У зв'язку з цим реферування й iндексування варто розглядати як двуединый процес розкриття змiсту первинного документа. Тому що реферування передує iндексуванню, важливо,. щоб у рефератi знайшли вiдображення тi ключовi слова, що складають ядро тексту первинного документа.

вiдбивають новiтнi зведення, їхнiй можна використовувати (не прибiгаючи до первинних документiв) при рiшеннi задач прогнозування.

Таким чином, реферат є багатофункцiональним вторинним документом. Йому властивi функцiї: iнформативного, iндикативного, науково-комунiкативного, довiдкового, пошукового, адресного, сигнального, прогностична, iндексування.


2. 1 Реферування як процес згортання первинної iнформацiї

1. Основнi вимоги до процесу реферування..

2. Основнi етапи реферування.

для основних видiв iнформацiйних документiв.

Розгляд цих особливостей розпочнемо з реферування як процесу, в якому вiдображенi методи, що лежать в основi ІАД.

Отже, процес реферування – це процес згортання первинної iнформацiї, що мiститься у вихiдному документi. До створення реферату пред’являються певнi вимоги, що обумовленi особливостями реферату як iнформацiйної моделi документа:

• повнота вiдображення iнформацiї;

• об’єктивнiсть вiдображення iнформацiї;

• змiстовнiсть передачi iнформацiї;

• зрозумiлiсть (читабельнiсть) тексту реферату.

Реферат має не тiльки багато рiзновидiв, а й свою

лiтературну форму.

1. Заголовочна частина / вiдомостi про документ, що

реферується/;

3. Довiдкова частина / шифри, iндекси первинного документа, вiдомостi про таблицi, схеми, iлюстрацiї, списки лiтератури, наявнi у первинному документi, а також прiзвище референта /.

Обсяг реферату:

оптимальний обсяг друкованого реферату – 200 слiв. Згiдно з вимогами стандарту 7. 9 – 77 "Рефераты и аннотация" обсяг реферату має вiдповiдати таким нормам:

для замiток та коротких повiдомлень – 500 др. знакiв;

укладача реферату є максимум iнформацiї у мiнiмальному обсязi. 2. Основнi етапи реферування.

Другим основним правилом для укладача реферату слiд вважати таке: написання тексту реферату нiколи не розпочинають одночасно iз читанням тексту вихiдного документу.

Референт повинен розпочинати роботу по складанню реферату iз загального ознайомлення iз текстом першоджерела, щоб охопити основний змiст первинного документу:

1 етап – загальне ознайомлення з вихiдним документом

(першоджерелом).

2 етап – читання вихiдного документа та видiлення

iнформативних фрагментiв.

3 етап–аналiз iнформативних фрагментiв та вiдбiр основної iнформацiї.

5 етап – написання тексту реферату.

вихiдного документа, титульнi елементи, видавничу анотацiю, передмову, пiслямову, структуру глав.

На третьому етапi визначається основна iнформацiя з кожного iнформативного фрагменту, неiнформативнi вiдомостi вiдкидаються.

iнформацiї референт складає робочий план реферату.

На п’ятому етапi складається текст реферату. Референт повинен при цьому дотримуватися вимог структури та обсягу реферату..

Методи реферування.

Щоб створити реферат, адекватний первинному документу, потрiбно зберегти в процесi АСОД семантичнi характеристики вихiдного документа. Їх потрiбно вiдшукати у первинному документi, перенести в iнформацiйний документ та вiдобразити у пошуковому образi первинного документа. Саме цi змiстовнi ознаки потрiбнi споживачевi, вiн шукає їх у масивi iнформацiї.

Такими ознаками можуть бути основнi аспекти змiсту. Їх потрiбно вiдобразити у рефератi.

аспекти єдинi для рiзних галузей знань, хоча й вiдрiзняються за своїм змiстом та формою. За допомогою цих схем проводять iнформацiйний аналiз документа. Референт їх використовує на 2, 3 етапах реферування.

Поаспектний метод може слугувати основою для формалiзацiї процесiв складання рефератiв, зменшує вплив суб’єктивного фактора на процес реферування.

Розрiзняють три основних методи викладу iнформацiї у рефератi: екстрагування, перефразування, iнтерпретацiя.

Екстрагування – це побудова реферату на основi витягу iз вихiдного тексту речень, що мiстять змiстовi аспекти. Тобто текст реферату будується з речень тексту первинного документа. Цi речення визначаються за зовнiшнiми ознаками, т. з. маркерами (словесними клiше, мовними зразками). Найчастiше цей метод викладу iнформацiї застосовується при автоматизацiї реферування.

Перефразування – це побудова реферату на основi передачi змiсту вихiдного документа у перефразованому виглядi. При такому методi допускається замiщення, сумiщення та узагальнення текстових речень. Текст реферату лише частково спiвпадає з вихiдним документом.

Ще слiд зупинитися на формуваннi початку реферату. Початок реферату не повинен мiстити зайвої iнформацiї, загальновiдомих положень. Слiд уникати дублювання назви вихiдного документа. Початок реферату має встановити межу, з якої починається виклад нової iнформацiї. 3. Особливостi пiдготовки рефератiв з суспiльних наук.

Дослiдження в суспiльних науках, їх результати, узагальнення, висновки використовують для викладу певних iдеологiчних поглядiв та полiтичних доктрин. Тому при реферуваннi документiв з суспiльних наук потрiбно проаналiувати свiтогляд та переконання автора. Важливо також враховувати конкретнi iсторичнi умови, мiсце й час розвитку подiй.

В цiй галузi використовується переважно розширений реферат, тому що джерела реферування мають великий обсяг та своєрiдний стиль викладу. Обсяг реферату вважається оптимальним, якщо вiн становить не бiльше 1/10 обсягу вихiдного документу. Реферат на такi документи повинен мiстити iнформацiю про автора первинного документа. Реферат має широку читацьку адресу, вiн багатьом замiнює читання першоджерела. Для забезпечення найбiльшої iнформативностi реферату в ньому викладаються кiнцевi висновки, результати та iнша фактографiчна iнформацiя автора, його погляди.

Замiсть примiток користуються оцiночними зворотами типу, "автор справедливо стверджує", "автор вважає" тощо.

Практично всi розвинутi країни свiту мають реферативнi служби, що готують та видають реферативну iнформацiю з рiзноманiтними покажчиками, як на паперi, так i на мiкро- та машинних носiях.

США володiють найстарiшою i добре розвинутою системою реферування НТІ, яка побудована на галузевому та тематичному принципах. Реферативнi служби об’єднанi в Нацiональну федерацiю служб реферування та iндексування. Ще з 1963 року цiєю федерацiєю видається "Повний покажчик науково-технiчних реферативних та бiблiографiчних видань свiту", в якому в систематизованому виглядi наводяться данi про перiодичнi видання вторинної iнформацiї 40 країн свiту. У 1966 роцi в США створено Комiтет з науково-технiчних зв’язкiв, а також державнi центри з документацiї, на якi покладенi завдання з органiзацiї дiяльностi реферативних служб країни.

У Великiй Британiї при Мiнiстерствi освiти та науки ще 1965 року створено Управлiння з науково-технiчної iнформацiї, на яке покладено функцiї координацiї дiяльностi реферативних служб у країнi, стимулювання дослiдних робiт в галузi iнформацiйного обслуговування, в тому числi реферативною iнформацiєю.

В Японiї функцiонує Нацiональна служба реферування з природничих наук та технiки на базi Японського центру науково-технiчної iнформацiї. Виходять 9 серiй реферативного журналу "Поточна бiблiографiя з науки та технiки" в традицiйнiй формi та на машиноносiях.

реферативних служб, робота яких органiзується за централiзованою та децентралiзованою схемами. Так, в рядi країн, наприклад у Францiї, Японiї, Росiйськiй Федерацiї, Румунiї, Угорщинi, функцiонує лише один iнформацiйний орган, шо охоплює реферування всiєї лiтератури в галузi науки та технiки.

У Росiї протягом бiльш 40 рокiв функцiонує реферативна служба на базi ВІН1ТІ, яка готує та видає реферативну iнформацiю з вiтчизняних та зарубiжних публiкацiй. У ВІН1ТІ щорiчно оброблюється бiля 13 тис. зарубiжних журналiв ЗО країн свiту 60 мовами. У реферативнi журнали (РЖ) ВІН1ТІ щорiчно включається бiля 1 млн рефератiв. У 1995 роцi було видано 27 зведених томiв РЖ, до яких увiйшли 204 випуски з найбiльш актуальних проблем науки та технiки.

Децентралiзована пiдготовка та видання реферативної iнформацiї спецiалiзованими службами реферування прийнята у Нiмеччинi, США та в iнших країнах. Такi служби створюються за тематичним принципом у залежностi вiд тематичної направленостi самих служб. Однак треба вiдзначити, що децентралiзацiя реферативної дiяльностi приводить до значного дублювання як в нацiональному, так i в мiжнародному масштабах.

Тому виникла iдея створення всесвiтньої служби реферування, яка об’єднувала б реферативнi служби рiзних країн. У межах такої всесвiтньої служби окремi iнформацiйнi органи повиннi дiяти на принципах координацiї та взаємодiї. Кожна реферативна служба зобов’язується обробити лiтературу своєї країни для центрального або мiжнародного реферативного центру. З свого боку центральна служба поставляє мiсцевим службам свої видання i БД та забезпечує їх iншими видами обслуговування. Тепер функцiї спецiального органу, що вiдає дiяльнiстю реферативних i бiблiографiчних служб окремих країн, покладенi на Реферативне бюро Мiжнародної ради наукових спiлок (РБ МРНС).

Згiдно з Законом України "Про науково-технiчну iнформацiю" одним з основних завдань нацiональної системи НТІ України е реферування опублiкованих та неопублiкованих на територiї України джерел науково-технiчної та економiчної iнформацiї.

та документацiї – це своєрiдний облiково-реєстрацiйний механiзм охоплення всього масиву вiтчизняних публiкацiй, що видаються на теренi України.

рукописних робiт. Свою систему облiку та державної реєстрацiї мають патентна та нормативно-технiчна документацiя. Бiблiографiчний облiк вiтчизняних публiкацiй, у тому числi в галузi науки i технiки, веде Книжкова палата України. Проте вiдсутнiсть в Українi реферативних джерел приводить до втрат iнформацiї, перешкоджає якiсному обслуговуванню споживачiв iнформацiї, а також участi України в мiждержавному обмiнi НТІ. Необхiдно також вiдзначити, що реферативнi журнали (збiрники) у тих країнах, що їх видають, входять до складу обов’язкового набору iнформацiйних продуктiв даної держави, без яких неможливе нормальне функцiонування нацiональної системи НТІ.

В Українi вже здiйснюються спроби пiдготовки та видання реферативної iнформацiї. Так, Черкаський центр iнформацiї з хiмiчної промисловостi видає реферативнi збiрники, що являють собою фактично збiрники коротких оригiнальних статей з проблем хiмiї та хiмiчної промисловостi або ж мiстять виробничий досвiд. "Медицинский реферативний журнал", який видає з 1994 року Республiканський центр наукової медичної iнформацiї Мiнiстерства охорони здоров’я України, мiстить реферати зарубiжних медичних перiодичних видань. Інститут проблем реєстрацiї iнформацiї НАН України з 1995 року видає український реферативний журнал "Джерело" (чотири рази на рiк). Журнал мiстить авторськi реферати статей, що публiкуються лише у перiодичних виданнях НАН України. Реферування кожного журналу здiйснюється нетематично, незважаючи на те, що багато статей має мiжгалузеве значення В журналi вiдсутнiй довiдково-пошуковий апарат. Усе це не дозволяє вважати журнал повноцiнним реферативним виданням.

Отже, в Українi вже тепер можна застосовувати систему реферування за двома схемами: децентралiзованою та централiзованою. Однак при застосуваннi децентралiзованої схеми в системi реферування буде задiяно багато рiзних мiнiстерств та вiдомств, що викличе труднощi в координацiї цiєї роботи. Тому доцiльно застосовувати централiзовану систему реферування.

"Про видавничу справу" видання реферативних журналiв покладається на Книжкову палату. Враховуючи те, що Книжкова палата України одержує обов’язковий примiрник всiєї друкованої продукцiї, має власну видавничо-полiграфiчну базу, можна стверджувати, що вона має всi пiдстави стати провiдною органiзацiєю у сферi реферування.

З метою пiдвищення оперативностi та якостi пiдготовки реферативних журналiв та збереження бюджетних коштiв було б доцiльним застосовувати авторський реферат, який в обов’язковому порядку повинен супроводжувати рукопис документа, що видається.

України. На неї повиннi бути покладенi такi функцiї:

• одержання вiд видавництв, реєстрацiя та обробка рефератiв i формування бази даних рефератiв;

• контроль за виконанням вимог нормативно-методичних документiв щодо системи реферування;

• здiйснення в установленому порядку мiждержавного обмiну реферативного iнформацiєю.

Пропозицiї щодо фiнансово-господарського механiзму функцiонування системи реферування складаються з вимог поширення чинностi законодавства України, що стосується державної пiдтримки перiодичних видань засобiв масової iнформацiї, на реферативнi видання. Це дасть можливiсть одержати пiльги та звiльнення вiд податку на додану вартiсть на папiр, картон та iншi полiграфiчнi матерiали вiтчизняного виробництва, а також на послуги пiдприємств полiграфiї, зв’язку та транспорту.

Пiдготовка, видання та розповсюдження реферативних журналiв ведеться на безприбуткових засадах. Саме фiнансування робiт з пiдготовки та видання реферативної iнформацiї повинне здiйснюватись iз держбюджету за державним замовленням та за рахунок коштiв вiд розповсюдження реферативних видань.


3. Автоматичне реферування

Одним з класичних завдань комп’ютерної лiнгвiстики є побудова систем автоматичного реферування наукових, технiчних, полiтичних, дiлових текстiв. Актуальнiсть цього завдання значно зростає у зв’язку з появою на iнформацiйному ринку повнотекстових баз даних. Цi бази мiстять у виглядi документiв не реферати, а тексти наукових статей. У свiтлi сказаного в Главi 2 стає очевидною необхiднiсть вияву в кожному з таких текстiв найбiльш iнформативних речень, iнакше якiсть пошуку буде невисокою. Якщо ж iдеться про iншомовнi бази, то треба, очевидно, прагнути до побудови систем, якi iнтегрують 3 основнi функцiї: пошук, переклад i реферування. Розробка системи автоматичного реферування є можливою на основi експериментально-семантичного дослiдження мiжфразової структури тексту, з наступною реалiзацiєю IС, що володiють спроможнiстю гiперсинтаксичного “розумiння” текстiв.

Одне з найважливiших лiнгвiстичних явищ - рiзне значення мовних одиниць в iзольованому станi та в бiльш складному мовному цiлому. Ще А. А. Потебня вiдзначав, що значення будь-якої граматичної форми проявляється по зв’язку з iншими формами в мовi та текстi [Потебня, 1958]. Звiдси можна зробити висновок, що принципову важливiсть має аналiз граматичних i семантичних явищ у контекстi, тобто моделювання їх поводження у текстi. При цьому очевидно, що контекст, взагалi кажучи, може вийти за рамки речення, так що внутрiшньофразовий опис вiдповiдних одиниць буде заздалегiдь помилковим. Мiжфразовi зв’язки реалiзуються в текстi двома засобами: експлiцитно та iмплiцитно. При розробцi систем автоматичної переробки тексту необхiдно враховувати цi розбiжностi у вiдносинах мiж реченнями; зрозумiло, що для їхнього моделювання необхiднi рiзнi апарати. З iншого боку, не треба розглядати вивчення цих зв’язкiв як принципово рiзнi завдання: для вияву в текстi iмплiцитних мiжфразових вiдносин необхiдно спочатку навчитися виявляти експлiцитнi вiдносини. Очевидно, що автоматизована система, що враховує при переробцi тексту тiльки експлицитнi вiдношення мiж реченнями, неминучо минає деякi мiжфразовi вiдносини лише тому, що вони не мають формального вираження. Велика кiлькiсть промислових iнформацiйних систем (наприклад, системи iндексування, перекладу), використовуючи тiльки “поверхнi” мовнi явища, як ми бачили, тим не менше, є досить ефективними. В данiй главi описуються теоретична база та реалiзованi на її основi автоматизованi системи, що аналiзують тексти на мiжфразовому рiвнi. Створення таких систем переслiдувало двi цiлi: практичну та теоретичну. Перша полягає в автоматизацiї процесу реферування текстiв у промислових iнформацiйних системах, друга - у перевiрцi правильностi лiнгвiстичних гiпотез про структуру тексту й розподiл iнформацiї в ньому.

3. 2 Мiжфразовi зв’язки

їх смисловi зв’язки. У виглядi прикладу такого пiдходу можна навести теорiю семантичної еквiвалентностi Е. Агриколи [Agricola, 1977], який вважає, що основною формою об’єднання речень є семантична еквiвалентнiсть - явнi чи неявнi смисловi вiдносини рiзноманiтного типу мiж словами, якi входять у речення. Рiзновидом такого пiдходу є всiлякi модифiкацiї (явного) лексично-семантичного повтору, прибiчники якого дотримуються погляду, що смисловий зв’язок речень у текстi проявляється в смисловiй близькостi слiв, котрi входять до їх складу, вважаючи, очевидно, що смислова близькiсть слiв гарантує або принаймнi прогнозує смислову близькiсть речень.

Роботи цього напрямку походять вiд вiдомого дослiдження О. В. Падучевої [Падучева, 1965], яка, вивчивши об’єктивнi характеристики тексту, ввела поняття прямої та непрямої домiнацiї, пiзнiше iнтерпретованi як лексичний i семантичний повтор [Рылова, 1969; Бэлза, 1971; Гиндин, 1971; Бондаренко, 1975]. Розумiючи, що явища прямої i непрямої домiнацiї становлять одну з характерних особливостей тексту, цi дослiдники пiшли, на наш погляд, “шляхом найменшого опору”, вважаючи саме повтор механiзмом зв’язностi. Це, в свою чергу, дозволяло поставити питання про достатнiсть використання семантичних словникiв [Гиндин, 1972] для вияву зв’язкiв мiж реченнями тексту, правда, без наступної iнженерно-лiнгвiстичної перевiрки цiєї гiпотези. Iнакше кажучи, при такому пiдходi практично вiдпадає необхiднiсть утворення особливої граматики мiжфразового рiвня мови, тому що вся iнформацiя, необхiдна для опису мiжфразових вiдносин, може бути апрiорно зафiксована в словнику. Проте, незвжаючи на спокусливу простоту, при бiльш глибокому розглядi цей пiдхiд починає викликати заперечення. З одного боку, методологiчно невиправданим було б розглядати текст як свого роду гербарiй, елементи якого можуть бути сгрупованi за ознакою спорiдненостi. В текстi речення не повторюють, а доповнюють одне одне (див. нижче), а ступiнь їх “смислової близькостi” та “далекостi” практично неможливо вимiрити. З iншого боку, i самий iнструмент аналiзу мiжфразових зв’язкiв - семантичнi словники - виглядає надто ненадiйним i таким, що не вiдповiдає всiй гамi мiжфразових вiдносин. Реальнi семантичнi словники вiдбивають лише малу частину реально iснуючих смислових вiдносин, причому останнi часто вiдбираються для включення в словник iз суто прагматичних мiркувань: так, в iнформацiйно-пошукових тезаурусах задаються вiдносини синонiмiї, антонiмiї, родово-видовi та деякi види асоцiативних. Але цей “екстракт” жодним чином не вичерпує всiх смислових вiдносин мiж словами i, отже, не може бути й мови про достатнiсть використання словникiв для вияву в текстi непередбачених, апостерiорних вiдносин. Це вiдноситься, в першу чергу, до слiв “загального” значення, що має дуже нечiтку семантику [Блехман, 1982: Формалiзация...]. Крiм того, в текстi часто зустрiчаються випадки “просторової” близькостi об’єктiв, що не мають жодного априорного, словникового смислового зв’язку. Так, у вiдомiй англiйськiй лiчилцi


(2) Humpty-Dumpty sat on the wall. He enjoyed the state greatly and never had any trouble about it.

Якщо в першому уривку сидiння Шалтая-Болтая на стiнi розглядається як причина наступної катастрофи, то в другому - як джерело насолоди. Таким чином, для правильного, тобто такого, що вiдповiдає задуму автора, розумiння деякого речення Si неминучо потрiбно враховувати iншi речення того ж тексту, кiлькiсть яких у текстi з t речень може складати вiд 1 до t-1. Притягнення iнформацiї з iнших речень для розумiння даного I. I. Ревзiн у своїй класичнiй роботi з лiнгвiстики тексту [Ревзин, 1978] назвав “насиченням” речення. Проте, треба пiдкреслити, що саме по собi насичення, власне кажучи,є недостатнiм для адекватного розумiння речень тексту, тому що повної насичувальної iнформацiї значно бiльше: вона вiдбиває багатий досвiд, накопичений людством за тисячолiття свого iснування, вiн мiститься в багатьох тисячах усних i письмових текстiв рiзних жанрiв. Справдi, чи можна зводити, наприклад, змiст речення The cow jumped over the Moon до простої констатацiї того факту, що корова перестрибнула через Мiсяць? Лiнгвiстику ж мають цiкавити, головним чином, вiдношення мiж реченнями, якi входять в одне й те ж мовне цiле - текст, i саме тому I. I. Ревзiн запропонував абстрагу-ватися вiд позалiнгвiстичних чинникiв при аналiзi тексту. Отже, зв’язок речень у текстi має сенс розглядати не як деяку їх семантичну близькiсть (“семантичнi близькими” є всi речення тексту, оскiльки вони є частками єдиного цiлого), а як насичення одних речень iншими. Речення Si пов’язане з реченням Sk, якщо одне з них насичує iнше. (В загальному виглядi, як було сказано вище, насичуюча iнформацiя може мiститися бiльш нiж в одному реченнi тексту). Там, де немає насичення, вiдсутнiй зв’язок речень. При такому пiдходi мiжфразовий зв’язок розглядається як явище, що носить апостерiорний характер, i, природно, семантичнi повтори самi по собi не можуть розглядатися анi в якостi причини, анi у виглядi показника зв’язку речень. Тепер можна встановити, що таке насичення речень i в чому проявляється їх ненасиченiсть. Продовжуючи мiркування, якi ми почали вище, скажемо, що ненасиченiсть речення Si може бути викликана або наявнiстю в ньому деякого предмету, бiльш докладний опис якого мiститься в Sk, або деяким логiчним вiдношенням мiж Si i Sk (пор. приклад iз Шалтаєм-Болтаєм). Переходячи до аналiзу мовного оформлення зв’язкiв мiж реченнями тексту, треба визначити, що в одних випадках мiжфразовi вiдносини “попадають” у план вираження, так що їх можна назвати поверхнево-синтаксичними, в iнших же “залишаються” в планi змiсту. Експлiцитнiсть поверхнево-синтаксичних зв’язкiв зумовлена тим, що речення Si мiстить спецiальний сигнал про наявнiсть у ньому предмету, котрий визначається в деякому Sk, чи логiчного зв’язку Si з деяким Sk. Найбiльш розповсюджене найменування таких сигнальних елементiв - конектори. Особливiсть конектора полягає в тому, що вiн одночасно - i маркер, i причина ненасиченостi речення. Будемо (пор. [Берзон, Зубов, 1977]), розрiзняти безоцiнювальнi та логiчно-смисловi конектори. Рiзниця мiж ними полягає в тому, що другi безпосередньо виражають логiчнi вiдношення мiж Si i Sk. Зокрема, причинно-наслiдковi логiчно-смисловi конектори (“следовательно”, “поэтому”, “hence” тощо) не тiльки оформлюють зв’язок мiж реченнями, але й маркують її характер, а саме - причинно-наслiдковi вiдносини даних речень. Що ж стосується безоцiнкових конекторiв (“этот”, “the” тощо), то вони не несуть такого семантичного навантаження, маркуючи лише об’єктивно iснуючi в текстi суто анафоричнi (з вiдсиланням назад) i катафоричнi (з вiдсиланням уперед) речення. Це не означає, зрозумiло, що речення, формально зв’язанi безоцiнковим конектором, не можуть знаходитися в логiчних вiдносинах. Наведемо простий приклад:

Речення Si має два експлiцитних показники суто анафоричного зв’язку з реченням Si-1 - безоцiнковi конектори “ее” та “он”. У той же час, данi речення iмплiцитно пов’язанi логiчним вiдношенням наступної дiї:

Si: [Затем], надев ее, он вышел на улицу.

Цiкаво, що в переважнiй бiльшостi типiв поверхньо-синтаксичних мiжфразових зв’язкiв проявляється дiя категорiї визначеностi [Блехман, 1985] - текстове видiлення об’єкту з класу подiбних через його спiвставлення з антецедентом (“адресою” в даному класi). Справдi, бiльшiсть логiчно-смислових конекторiв можна представити у виглядi комбiнацiї анафоричної вiдсилки типу “цей” i деякого логiчного вiдношення, котре вiдповiдає типу конектора -”Результат”, “Протиставлення” тощо. (Про типи конекторiв див. [Берзон, Зубов, 1977]). Займенники ж типу “iнший” можна звести до вислову “не цей”. Iнакше кажучи, причина ненасиченостi речення Si, зв’язаного з деяким Sk, полягає в наявностi в Si явного чи неявного об’єкту, що видiляється з класу подiбних i спiввiдноситься з “адресою”, котра мiститься в Sk. Нижче ми детальнiше опишемо той роздiл ВIЛМ мiжфразового рiвня тексту, який моделює текстоутворюючу функцiю категорiї визначеностi. Виявляється, що поряд з граматично оформленими логiчними та безоцiнковими вiдносинами в текстах iснують подiбнi вiдносини, якi однак не мають спецiальних граматичних засобiв вислову. Аналiз показує, що в текстi присутнi лексичнi одиницi, котрi несуть таке ж семантичне навантаження, що й логiчно-смисловi конектори, але якi не є осередками ненасиченостi речень. Порiвняємо два речення:

(1) Например, уравнение 1 разрешимо при x=1. (2) Примером условия 3 является уравнение 7.

Витягнення речення (1) з контексту виявляє його експлiцитну ненасиченiсть, викликану наявнiстю в ньому логiчно-смислового конектору “например”, тодi як речення (2) є формально насиченим. З iншого боку, в (2) можна видiлити словоформу “примером”, яка має ту ж семантику, що й логiчно-смисловi конектори класу “Деталiзацiя”. Можна припустити, що ця словоформа в рядi випадкiв бере участь у мiжфразовому зв’язку, семантично близькому до зв’язку шляхом логiчно-смислових конекторiв “например”, “в частности” i т. iн. Назвемо такi лексичнi одиницi “квазiконекторами”. Проаналiзуємо подiбнiсть i рiзницю конекторiв i квазiконекторiв. Найважливiшою вiдзнакою конектора є те, що вiн у рiвнiй мiрi належить двом структурам - мiжфразовiй та внутрiшньофразовiй, тобто використовується у виглядi формального виразника мiжфразового зв’язку, являючись, у той же час, елементом синтаксичної структури речення, в яке входить. Особливiсть гiперсинтаксичної ролi логiчно-смислового конектора викликана його “триелементним” складом: логiчно-смисловий конектор = логiчний компонент + вiдсилочний компонент (анафоричний або катафоричний) + присудок. Ця суть логiчно-смислових конекторiв виявляється шляхом трансформацiй:

“например” = “примером этого является” “в результате” = “результатом этого является” “иначе говоря” = “перифразой этого является”.

На вiдмiну вiд конекторiв, квазiконектори не мають вiдсилочного елементу i повнiстю належать до внутрiшньофразової структури. Спроможнiсть же непрямо вказувати на мiжфразовий зв’язок мiститься в однiй лише семантицi квазiконекторiв. Iншими словами, квазiконектор -це “чистий” логiчний компонент, тобто, так би мовити, третя частина конектора, вiн самий по собi є значно бiльш насиченим iнформацiєю, нiж конектор. Саме внаслiдок вiдсутностi у квазiконекторi вiдсилочного елементу його наявнiсть у реченнi не викликає формальної ненасиченостi цього речення. Якщо читач зацiкавиться типологiєю мiжфразових зв’язкiв i їх ранжуванням у залежностi вiд мiри експлiцитностi, вiн може ознайомитися з моїм пiдходом до цiєї проблематики, висловленим у працях [Берзон, Блехман, 1981; Блехман, 1982; Блехман, 1983; Блехман, 1984; Блехман, Головинова, 1982]. Перейдемо тепер до розгляду гiперсинтаксичних угруповань, якi базуються на мiжфразових зв’язках.

3. 3 Синтаксична мiжфразова одиниця

речення тексту [Берзон, 1974; Зарубина, 1977]. Автосемантичним, або насиченим, будемо називати будь-яке речення, що не мiстить показникiв синтаксичного зв’язку з iншими реченнями; речення, котрi мають такi показники, - синсемантичними. У виглядi маркерiв синтаксичного мiжфразового зв’язку використовуються конектори. Можна видiлити такi типи ПМО : а) що складаються з одного речення:

(1) Si: Colorimeters measure the intensity of visible light. Si+1: Colorimeters made by Hach Chemicals Co continuously monitor copper, iron, and other components.

В прикладах (1) i (2) речення Si є ПМО.

б) що складаються з одного автосемантичного та одного чи декiлькох синсематичних (ненасичених) речень: (3) Si-4: The measurements of R were made with storage ring called ADONE at Frescati in Italy. Si-3: These measurements gave values of 2. Si-2: In other words, there were twice as many hadronic events as muon pairs. Si-1: Shortly thereafter theory briefly caught up with experiment. Si: Wang and Smith published details of a rather simple method...

Например, в качестве лексико-грамматических категорий могут выступать такие свойства, как “многозначность”, “вектороность” и т. п. Si: Для того чтобы задать ЛЕ, надо...

В прикладi (3) ПМО складають речення Si-1 - Si-4, а в прикладi (4) - Si-1 - Si-3. Таким чином, ПМО складає “параграф” документу, що видiляється формально, причому автосемантичне речення можна розглядати як свого роду “заголовок” цього параграфа. Для видiлення в текстах автосемантичних речень необхiдно формалiзувати розпiзнання синсемантичних речень, що експлiцитно залежать вiд контексту. Iншими словами, вирiшальне значення набувають пошук у текстi конекторiв i їх формальний аналiз. Цей аналiз можна порiвняти з синтаксичним аналiзом речення з використанням фулькрумiв [Гарвин, 1980].

3. 4 Конектори та псевдоконектори

i кiлькiсть маркерiв внутрiшньофразового синтаксичного зв’язку, є iстотно меншою, нiж загальний лексичний фонд, тому конектори можна задати списком. Проте завдання значно ускладнюється тим, що наявнiсть у реченнi лексичної одиницi, формально спiвпадаючої з конектором, не гарантує синсемантичностi даного речення. Причина тут у тому, що потенцiйний конектор використовується не для зв’язку речень, а в якiйсь iншiй функцiї, тобто є псевдоконектором. Треба розрiзняти двi ситуацiї такого роду: а) Антецедент лексичної одиницi, спiвпадаючої з конектором, знаходиться в тому ж реченнi, тобто зона дiї конектора розповсюджується тiльки на те речення Si, в яке входить конектор. Наведемо приклади:

принципа оправдывается лишь в некоторых областях. В прикладах (5, 6) слова and, then, “однако” та “этого” поєднують простi речення в межах складних i тому є псевдоконекторами.

б) Лексична одиниця є омонимiчною конектору. Тут можна провести аналогiю з ситуацiєю, коли ланцюжок лiтер у кiнцi слова омонiмичний закiнченню, наприклад, “бра”, “кофе”.

Приклади:
(7) Si: It is rather difficult to increase that rate significantly.

У прикладi (7) слово it є омонимiчним конектору. Пор.:

(8) Si-1: A properly working control system will deliver 457 milliliters per minute to reach the target pH. Si: As long as it delivers between 433 and 483 milliliters per minute...

У прикладi (8) конектор it є маркером синтаксичного зв’язку речень Si и Si-1.

(9) Si: Связь не могла быть интерпретирована, так как в таблице отсутствовало сочетание РП23 с РПО141.

(10) Si-1: Элементы текста могут нести разную информацию при переводе. Si: Так, из сказуемого можно извлечь информацию о сопутствующих именных группах.

У прикладi (10) конектор “так” маркує синтаксичний зв’язок речень Si i Si-1. До ситуацiй другого типу вiдноситься вживання такого частотного маркеру категорiї визначеностi, як визначений артикль, для оформлення узагальненого чи єдиного об’єкту, а не для зв’язку речень через спiввiдношення об’єктiв [Блехман, 1985]:

(11) Si: The nucleus consists of protons and electrons.

У прикладi (11) артикль оформлює узагальнений об’єкт nucleus и тому не є конектором. Пор.:

12) Si-k : The detector consists of an orifice for measuring pressure... Si: The pressure is proportional to the...

У реченнi Si прикладу (12) визначений артикль оформляє видiлений з класу об’єкт pressure, антецедент якого знаходиться в реченнi Si-k, тому даний артикль маркує синтаксичний зв’язок Si i Si-k. Процес розрiзнення конекторiв i псевдоконекторiв у кожнiй конкретнiй ситуацiї є обов’язковою умовою формалiзацiї поверхньо-синтаксичних зв’язкiв i розробки систем реферування. Для рiшення цього завдання була вжита спроба представити даний процес у виглядi невеликої кiлькостi стандартних операцiй. Перелiчимо цi операцiї. а) Визначення порядкового номеру потенцiйного конектора в реченнi та порiвняння його з деякою пороговою величиною. Ця операцiя використовується тому, що в мовi спостерiгається тенденцiя вживати конектори на початку речення або в позицiях, ненабагато вiддалених вiд першої. Так, дуже малою є ймовiрнiсть вживання конектора hence (“отже”) в позицiї, номер якої перевищує 7. У роботi [Берзон, 1972] наведенi пороговi позицiйнi характеристики росiйських конекторiв. Проте треба пiдкреслити, що позицiйний критерiй не може бути використаний на практицi в якостi єдиного критерiю вiдмiнностi конекторiв вiд псевдоконекторiв. Дiйсно, в реченнi

(13) Si: The usual method for such investigations is to hypothesize a particular mode of decay

також iншi операцiї аналiзу тексту, а саме: б) Пошук в оточеннi потенцiйного конектора дiагностичних лексичних одиниць. Ця операцiя є аналогiчною зняттю лексичної багатозначностi в системах машинного перекладу. Так, омонiмiя займенника such конектору може дiагностуватися наявнiстю на обмеженiй вiдстанi справа вiд нього слова as; займенника the same - слiв as або that тощо. Пор.:

employed to obtain...

У прикладi (15) the same є конектором.

займенникiв. Складнiсть цiєї операцiї викликана необхiднiстю виходу за межi речення, що мiстить потенцiйний конектор. Справдi, без притягнення екстралiнгвiстичної iнформацiї неможливо на внутрiшньофразовому рiвнi визначити, чи є конектором артикль у реченнi:

(16) The hydroxides are filtered to produce mixed oxides.

Iнакше кажучи, неясно, чи автор має на увазi деякi конкретнi гiдроксиди чи будь-якi гiдроксиди, тобто об’єкт є узагальненим - таким, що не видiляється з класу подiбних. З iншого боку, вихiд за межi цього речення дозволяє вiдповiсти на поставлене питання, не притягуючи, користуючись введеною в Главi 1 термiнологiєю, другий рiвень розумiння:

(17) Si-1: The result is hydroxides in the form of a fine slurry. Si: The hydroxides are filtered to produce mixed oxides.

У реченнi Si прикладу (17) визначений артикль є конектором, тому що оформлений їм об’єкт hydroxides видiляється з класу подiбних об’єктiв шляхом спiввiдношення з антецедентом, що знаходиться в реченнi Si-1.


3. 5 Словник i граматика систем

Опрацювання апарату аналiзу тексту на мiжфразовому рiвнi мало цiллю утворення реально дiючих автоматизованих iнформацiйних систем, якi здiйснюють реферування англiйських i росiйських текстiв. Iдея такої системи, рiвно як i концепцiя гiперсинтаксису, описанi в серiї класичних робiт В. Ю. Берзона з мiжфразового аналiзу. В найбiльш розгорнутiй формi вони наведенi в монографiї [Добрускина, Берзон, 1986]. У системi, що описується нижче, використовується два машинних словника: словник конекторiв (Ск) i допомiжний словник (Св). Перший складається з незалежних англiйської та росiйської частин. Словник кожної частини мiстить понад 100 конекторiв. У другий включенi слова та словосполучення, що є дiагностуючими ознаками. Св, як i Ск, складається з незалежних англiйської та росiйської частин, кожна з яких подiлена на секцiї. Секцiя має таку структуру: номер секцiї; її довжина; лексичнi одиницi, наприклад, англiйськi слова “загального” значення: fact, problem, result тощо. Алгоритм розпiзнання складає систему правил, застосування яких до тексту дозволяє з достатньою надiйнiстю реалiзувати пошук конекторiв. У пояснювальнiй частинi Ск при кожному конекторi мiститься вказiвка на те, за яких умов лексична одиниця є конектором. Наприклад, займенник such є конектором, якщо його порядковий номер у реченнi не перевищує 8 i одночасно справа вiд нього на вiдстанi не бiльше трьох слiв вiдсутнє слово з певної секцiї Св (as, that). Умови формулюються в термiнах: - вiдстанi конектору вiд початку речення ( в кiлькостi слiв); - дiагностуючої ознаки; - напрямку пошуку дiагностуючого признаку; - вiдстанi дiагностуючого признаку вiд конектора; - вимоги наявностi чи вiдсутностi дiагностуючого признаку. Очевидно, що описана схема перевiрки умов не залежить вiд конкретної мови. Умови перевiряються за допомогою конкретних процедур. Кожному конектору вiдповiдає один запис Ск. Спочатку фiксується його довжина, пiсля цього слiдує так званий признак конектора, що може приймати одне з трьох значень: 1 - конектор є словом (however, “однако”); 2 - конектор є словосполученням (on the other hand, “с другой стороны”); 3 - конектор є основою слова (“эт-”, “так-”). За ознакою конектора слiдують: його системний номер, власне конектор i признак кiнця конектора. В iншiй частинi запису фiксуються групи процедур перевiрки. Кожна група мiстить тип конектора [Берзон, Зубов, 1977] i набiр процедур. Тип конектора визначає смислове вiдношення мiж реченнями, що зв’язуються:

А - итог В - противопоставление С - следствие D - перечисление Е - дополнение G - соединение Н - пространство, время I - подтверждение К - уточнение L - развитие мысли (А-связь) М - пояснение N - пример Р - цитата R - вопрос S - перефразирование

Треба зазначити, що деякi конектори можуть виражати рiзнi типи смислових вiдносин. Зокрема, конектор “так” потенцiйно вiдноситься до типiв G i N. В системi реалiзовано такi процедури: 1) Визначається номер позицiї потенцiйного конектора в реченнi, i цей номер порiвнюється iз заданим в описi процедури параметром. 2) Символ, що знаходиться в словi безпосередньо за ланцюжком символiв, спiвпавших з конектором, порiвнюється з тим, що задається у виглядi параметра. 3) Символ, що знаходиться в словi безпосередньо перед ланцюжком символiв, який спiвпадає з конектором, порiвнюється iз символом, що задається у виглядi параметра. 4) Перевiряється збiг знайденого в текстi слова з конектором - основою слова - пiсля додання до останнього одного з закiнчень, котрi входять у зазначену в описi процедури секцiю Св. 5) На вiдстанi не далi n слiв лiворуч чи праворуч вiд конектора визначається наявнiсть одного зi слiв, котрi входять у зазначену в описi процедури секцiю Св. Можлива iнверсiя результату: лексична одиниця є конектором при вiдсутностi, а не наявностi зазначеного слова. 6) Перевiряється виконання необхiдних умов А-зв’язку. Перевiрка полягає у вiдшуканнi антецеденту для iменника N, оформленого потенцiйним конектором. Пiд N розумiємо будь-яке слово, яке знаходиться праворуч вiд конектора не далi, нiж на певну вiдстань, i безпосередньо передує правiй ексклюзивнiй межi iменникової групи [Волосевич, 1971]. Антецедентом визнається слово A, котре входить у ту ж ПМО, що й N, i знаходиться в одному з наступних вiдносин з N: - A i N спiвпадають; - A i N - однокорiннi; - A i N - синонiми чи значення A є “вужчим”, нiж значення N. 7) Перевiряється виконання достатнiх умов А-зв’язку [Блехман, 1985]. Перевiрка полягає в порiвняннi слiв, котрi залежать вiд N (N-слiв), зi словами, котрi залежать вiд A (A-словами). N-словом вважається будь-яке слово, що знаходиться мiж конектором i N; A-словом - будь-яке слово, що знаходиться мiж A i ближчою лiворуч межою iменникової групи. A-зв’язок встановлюється в тому випадку, якщо сукупнiсть N-слiв входить у сукупнiсть A-слiв. Якщо в сукупностi N-cлiв є “зайвi” у порiвняннi з сукупнiстю A-слiв, то цi “зайвi” не перешкоджають встановленню А-зв’язку тiльки в тому випадку, якщо вони входять у список так званих описових залежних. Якщо антецедент не знайдений, то перевiряється умова неявного А-зв’язку - N спiвпадає з одним iз слiв “загального” значення.

Опрацювання системи автоматичного реферування має чималий практичний iнтерес. Це викликано не тiльки регулярним збiльшенням обсягу документальних потокiв, але й таким важливим чинником, як запровадження в дiю промислово-орiєнтованих АСНТI з автоматичним iндексуванням i систем машинного перекладу, а також повнотекстових баз даних. При цьому реферування, будучи одним iз ключових процесiв аналiтично-синтетичної переробки текстiв, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справдi ефективним тiльки в тому випадку, якщо виконуються такi п’ять вимог: - система має формувати реферат iз речень вхiдного тексту (можливо, з деякими скороченнями за рахунок порiвняно малоiнформативних сегментiв - цитат, вiдсилок i т. iн.), а не породжувати його на пiдставi смислового аналiзу текстiв. Iншими словами, система повинна повнiстю наслiдувати термiнологiю та стиль автора, не допускаючи багатозначного тлумачення його думок. Таким чином, йдеться про розробку системи, що має перший рiвень “розумiння” тексту, - системи квазiреферування; - реферати, що формуються системою, мають мiстити не тiльки “сигнальну” iнформацiю про документ, але й дозволяти прослiдкувати хiд думок автора, тобто система повинна породжувати саме реферати, а не анотацiї; - мiра скорочення тексту, яка називається звичайно коефiцiентом редукцiї i пiд якою розумiють вiдношення кiлькостi речень у вхiдному текстi до кiлькостi їх у рефератi, має бути достатньо високою (не менше 4-5); - швидкiсть автоматичного реферування повинна бути значно вищою за швидкiсть ручного; - система має легко переналагоджуватися на обробку текстiв рiзних мов. Розглянемо тепер принципи реалiзацiї розробленої пiд керiвництвом автора системи квазiреферування[Берзон,Блехман, Захаров, Певзнер, 1984]. На першому етапi реалiзацiї принцип дiї системи полягає у формуваннi квазiреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЕС ЕОМ включає головну програму й сiм процедур. Головна програма виконує такi функцiї: - читання тексту, що реферується; - розмiщення словникiв в оперативнiй пам’ятi; - аналiз тексту по реченнях: видiлення слiв, пошук в Ск i перевiрку збiгу лексичної одиницi, що аналiзується, з одним iз конекторiв; - у разi збiгу - звернення до процедур, обчислення значення логiчної функцiї по результатах роботи процедур, прийняття рiшення про iстинiсть конектора i визначення типу речення вiдповiдно до типу конектора; - прийняття рiшення про включення чи невключення речення до квазiреферату; - друк квазiреферату на принтерi. По мiрi роботи головної програми формується таблиця речень, що є основним результатом цiєї програми. Рядок таблицi вiдповiдає одному реченню. На час звернення до процедури всi рядки, котрi мають вiдношення до попереднiх за порядком слiдування реченням, цiлком заповненi. Рядок, котрий вiдноситься до речення, пiд час аналiзу якого сталося звертання до процедури, в момент звернення заповнений частково. Рядок таблицi має таку структуру: - номер речення; - кiлькiсть символiв у реченнi; - тип речення; - автосемантичне чи синсемантичне; - номер речення, з яким дане знаходиться в синтаксичному зв’язку; - номер конектора в Ск. Кожна процедура має доступ до адрес початку тексту, початку речення, аналiзованого слова, початку таблицi речень, початку Ск, початку Св, а також до порядкових номерiв речення, аналiзованого слова в реченнi, першого символу слова вiдносно початку речення, до змiщення початку запису Ск, до значень параметрiв, зазначених в описах Ск. Як бачимо, програмне забезпечення системи не залежить вiд мови тексту, що обробляється. Для реферування текстiв на iншiй мовi достатньо органiзувати словник конекторiв i допомiжний словник на цiй мовi. Система реалiзована на мовi Асемблер пiд управлiнням ДОС i ОС ЕС ЕОМ. Документ надходить до системи у виглядi текстового файлу, в якому допускається видiлення за допомогою спецiальних службових символiв заголовкiв документiв i окремих його пiдроздiлiв, а також елементiв бiблiографiчного опису. Вся видiлена таким чином iнформацiя включається системою у квазiреферат. Результатом роботи системи є друкована копiя квазiреферату, сформованого з автосемантичних речень тексту з вказiвкою їх порядкових номерiв у вхiдному текстi. Якщо при цьому коефiцiент редукцiї вхiдного тексту виявляється менше 4, то у квазiреферат не вводяться iзольованi автосемантичнi речення [Берзон, 1972]: з послiдовностi автосемантичних речень у квазiреферат вводяться тiльки першi. Передбачений також режим, у якому до квазiреферату потрапляють не тiльки автосемантичнi речення, але й вказiвка на тип вилучених синсемантичних. Це дозволить у майбутньому органiзувати дiалог користувача з ЕОМ, запрошуючи у системи субтексти, котрi мають iнтерес для абонента (детальнiше див. [Берзон, Брайловский, 1979]).


На заключному етапi побудови ВIЛМ мiжфразової структури наукового тексту був проведений експеримент, що полягав в автоматичному реферуваннi 10 англiйських текстiв такої тематики: - металознавство - чотири тексти; - обчислювальна технiка - чотири тексти; - порошкова металургiя - два тексти. Оскiльки система не використовує тезаурусної iнформацiї (це дещо знижує її розпiзнавальну спроможнiсть), можна сказати, що тематика документу, що реферується, для неї не є iстотною. У зв’язку з тим, що при реферуваннi аналiзуються тiльки формально вираженi зв’язки мiж реченнями, а “глибиннi” вiдносини не враховуються i концептуальне подання самих речень не береться до уваги, система виявилася досить стiйкою до помилок при пiдготовцi даних: 90% помилок не впливають на якiсть реферування. Тривалiсть реферування тексту, що складається з 70 речень, - 1,5 хвилин роботи центрального процесора ЕОМ ЕС-1022. Середнiй коефiцiент редукцiї - 4. У процесi експерименту квазiреферати, якi вiдносяться до металознавства та порошкової металургiї, були пред’явленi фахiвцю-металлургу; квазiреферати з обчислювальної технiки аналiзував автор. Всi квазiреферати одержали оцiнку “4” за 7-бальною шкалою: “Реферат у цiлому задовiльний, шуму мало, але втрати найбiльш важливої iнформацiї дещо бiльше припустимого рiвня”. Отже, квазiреферат, обсяг якого в чотири рази менший за обсяг вхiдного тексту, дає досить повне уявлення про тематику документу, мiстить мало другорядних вiдомостей (отже, може бути використаний також в АСНТI для автоматичного iндексування документу), проте в ньому вiдсутня частина iстотної iнформацiї. Можна припустити, що останнє частково викликане самим принципом квазiреферування, яке не враховує, зрозумiло, того факту, що важлива, з точки зору користувача, думка може бути висловлена в деяких реченнях, серед яких можуть опинитися синсемантичнi, якi вилучаються при квазiреферуваннi. Наведемо приклад квазiреферування роздiлу статтi N. Berhood, et al. The Yield and Flow Stress of Cu-1% Cd Alloy. - Acta Metallurgica, 1980, 28, p. 1141. Цифрами позначенi порядковi номери речень у вхiдних текстах.

On the Lower Bainite Transformation

развитие мысли) 02. (L; развитие мысли) 03. In order to explain the apparent initial rise in transition temperature with an ancrease in carbon content he proposed that it gets progressively difficult to remove carbon from supersaturated bainite ferrite as the alloy carbon content increases since the conceтеration gradients in austenite will become shallower. 04. (C; следствие) 05 (B; противопоставление) 06 (E; дополнение) 07. (E; дополнение) 08. (C; следствие) 09. (L; развитие мысли) 10. (E; дополнение) 11. (L; развитие мысли) 12. In fig 2, comparison of Pickering’s data with the bainite start (bs) and marteniste start (ms) lines given by Steven and Haynes suggests that the transition temperature between upper and lower bainite or the lower bainite start temperature should also vary in a similar manner. 13. (J; подтверждение) 14. (J; подтверждение) 15. It is assumed that the lower bainite start temperature should also vary in a similar manner. 17. (J; подтверждение) 18. The following table list shows that the steels in which lower bainitic epsilon carbide has been positively identified invariably have a high carbon content. 19. (B; противопоставление) 20. (L; развитие мысли) 21. Bhadeshia [3] originally suggested that the lack of epsilon carbide in the 0,43 C alloy steel may be due to the presence of the substantial amount of manganese. 22. (B; противопоставление) 23. Kalish and Kohen [4] have shown that it is energetically favourable for carbon atoms to remain segregated at dislocation compared with their presence in the epsilon carbide lattice. 24. (C; следствие) 25. (L; развитие мысли) 26. Kalish and Kohen estimate that a dislocation density of 2110 CN will prevent epsilon carbide precipitation in steels of up to 5,28 wt% carbon.

На наступному етапi були проведенi пряма nf непряма перевiрки лiнгвiстичних гiпотез вiдповiдно до iдей, висловлених у Главi 1.

3. 8 Пряма перевiрка гiпотез

Мною була сформулювана та пiддана прямiй перевiрцi гiпотеза про текстоутворюючий механiзм категорiї визначеностi в англiйському науковому текстi. Гiпотеза була сформулювана так: 1) Механiзм спiввiдношення граматично визначеного об’єкту з антецедентом, що виступає у виглядi “адреси” цього об’єкту в класi подiбних, лежить в основi маркованого денотативного зв’язку речень англiйського наукового тексту -А-зв’язку речень. 2) Залежно вiд характеру спiввiдношення об’єкту з його “адресою” в класi подiбних, розрiзняються такi рiзновиди А-зв’язку: - експлiцитний прямий повний; - експлiцитний прямий частковий; - експлiцитний непрямий повний; - експлiцитний непрямий частковий; - тезаурусний прямий повний; - тезаурусний прямий частковий; - тезаурусний непрямий повний; - тезаурусний непрямий частковий; - списковий прямий повний; - списковий непрямий повний; - списковий непрямий частковий; - iмплiцитний прямий; - iмплiцитний непрямий. 3) А-зв’язок речень бере участь у формуваннi синтаксичної мiжфразової структури наукового тексту. Докладний виклад даної гiпотези з прикладами А-зв’язку див. у [Блехман, 1985]. З точки зору комп’ютерної лiнгвiстики, ця гiпотеза може мати силу тiльки за умови експериментальної перевiрки її iстиностi. Для здiйснення такої перевiрки був розроблений аналог дослiджуваного об’єкту - гiпотетична модель А-зв’язку [Блехман, 1985], пiсля чого ця модель була представлена у виглядi алгоритму вияву А-зв’язкiв у англiйських наукових текстах. Алгоритм був орiєнтований на функцiювання в реальнiй iнформацiйнiй системi, яка здiйснює автоматичне квазiреферування англiйських текстiв. Як ми бачили вище, ця система володiє нульовим рiвнем “розумiння” тексту й використовує морфологiчний i гiперсинтаксичний засiб “розумiння”. Алгоритм базується на формальному апаратi опису експлiцитного та спискового А-зв’язкiв i не дозволяє виявляти в текстах тезаурусний та iмплiцитний А-зв’язок. Експеримент полягав у безпосередньому аналiзi правильних i помилкових рiшень алгоритму при реалiзацiї в системi квазiреферування та у виявi причин помилок. Iнженерна реалiзацiя моделi пiдтвердила такi положення сформульованої гiпотези: 1) Механiзм спiввiдношення граматично визначеного об’єкту з антецедентом, що виступає у виглядi “адреси” цього об’єкту в класi подiбних, лежить в основi маркованого денотативного зв’язку речень англiйського наукового тексту. Дане припущення пiдтверджується тим, що реальна iнформацiйна система, котра використовує аналог лiнгвiстичного об’єкту, що моделюється, з досить високою надiйнiстю виявляє в до-вiльно взятих наукових текстах об’єктивно iснуючi в них А-зв’язки речень, причому мiра надiйностi, очевидно, може бути пiдвищена при використаннi синтаксичного та семантич-ного засобiв “розумiння” тексту, що,однак, потребує окремої експериментальної перевiрки. 2) Залежно вiд характеру спiввiдношення об’єкту з його антецедентом - “адресою” в класi подiбних об’єктiв -розрiзняються зазначенi вище рiзновиди експлiцитного, тезаурусного та спискового А-зв’язку речень. Дане припущення частково пiдтверджується тим, що використаний формальний апарат, який задає умови iснування в текстi кожного з рiзно-видiв А-зв’язку, крiм iмплiцитного та тезаурусного, дозволяє комп’ютеру розпiзнавати цi рiзновиди в реальних текстах при їх квазiреферуваннi. При цьому iнженерному моделюванню тезаурусного та iмплiцитного А-зв’язкiв має передувати поглиблене теоретичне дослiдження їх механiзмiв. 3) А-зв’язок двох речень бере участь у формуваннi синтаксичної мiжфразової структури англiйського наукового тексту. Дане припущення пiдтверджується тим, що IС, котра здiйснює квазiреферування англiйських текстiв, виявляє в процесi розпiзнавання мiжфразової синтаксичної структури текстiв, що опрацьовуються, А-зв’язки, якi задовольняють визначенню синтаксичного мiжфразового (гiперсинтаксичного) зв’язку, а саме: - А-зв’язок базується на насиченнi синсемантичного речення, що мiстить граматично визначений об’єкт, реченням, що мiстить “адресу” цього об’єкту в класi подiбних; - А-зв’язком, що виявляється iнформацiйною системою, зв’язуються речення, котрi знаходяться в логiчно-смисловому мiжфразовому зв’язку того чи iншого типу.

3. 9 Непряма перевiрка гiпотез

У попередньому роздiлi ми проiлюстрували принцип прямої перевiрки лiнгвiстичної гiпотези. Проте виявляється, що застосування цього засобу до деяких лiнгвiстичних об’єктiв є неефективним, не дозволяючи одержати надiйну оцiнку сформульованої гiпотези. Це має мiсце у тих випадках, коли моделюємий лiнгвiстичний об’єкт погано пiддається безпосередньому спостереженню. Важливо пiдкреслити, що неможливiсть прямого спостереження об’єкту, що моделюється, неминучо призводить до суб’єктивностi в описi цього об’єкту. Так, наприклад, вiдома гiпотеза про можливiсть подання значення слова у виглядi сукупностi “елементарних смислiв” потребує саме непрямої перевiрки, яка дозволила б об’єктивно оцiнити правильнiсть такого подання. Проiлюструємо тепер метод непрямої перевiрки на прикладi гiпотези про мiжфразову синтаксичну структуру англiйських текстiв iнформацiйних повiдомлень. Газетне iнформацiйне повiдомлення - це, як правило, текст довжиною вiд 3 до 20 речень, типовий для сучасної англiйської газети (пор. тексти повiдомлень VWD, гл. 2). Гiпотеза про його гiперсинтаксичну структуру була сформулювана нами в такому виглядi: 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. 2) Елементами цiєї структури є: а) речення (нижчий рiвень); б) маркованi, тобто такi, що мають спецiальний вислiв у виглядi конекторiв, мiжфразовi одиницi, якi ми назвали поверхньо-синтаксичними мiжфразовими одиницями - ПМО. 3) До складу ПМО входять: одне автосемантичне, а також, можливо, декiлька синсемантичних речень. 4) Перше, автосемантичне, речення ПМО є “головним” для всiєї одиницi, тобто мiстить головну iнформацiю даної ПМО, являючись свого роду “анотацiєю” ПМО. 5) Перше речення в ланцюжку автосемантичних речень є головним, тобто несе те ж навантаження, що й перше речення ПМО. 6) Кiлькiсть головних речень тексту складає не бiльше 25% всiх речень цього тексту. 7) З головних речень може бути складений такий новий текст, що утворить гiперсинтаксичну структуру. Цю гiпотезу покладено в основу системи автоматичного квазiреферування текстiв англiйських iнформацiйних повiдомлень, побудовану на тих же принципах, що й описана вище система квазiреферування наукових статей. Систему було реалiзовано у виглядi пiдсистеми багатофункцiональної IС, розробленої в ЛГПI iм. А. I. Герцена пiд керiвництвом Л. Н. Беляєвої [Чижаковський, Беляєва, 1983]. Для перевiрки зазначеної гiпотези була побудована формальна модель мiжфразової структури тексту, що використовує апарат конекторiв i квазiконекторiв. На пiдставi даного апарату було розроблено подiбну описанiй вище систему квазiреферування, що витягає зi вхiдного тексту головне речення i формує квазiреферати двох типiв: зi вказiвкою смислових класiв вилучених речень - РР1; без вказiвки цих класiв - РР0. Речення вважається головним, якщо не мiстить конекторiв i квазiконекторiв i є першим у ПМО або в ланцюжку автосемантичних речень. Система використовує морфологiчний i гiперсинтаксичний засоби “розумiння” тексту. Перевiрка гiпотези здiйснювалася на масивi 17 довiльно вiдiбраних газетних повiдомлень. Були введенi такi якiснi характеристики квазiрефератiв: а) повнота передачi основного змiсту документу; б) точнiсть - вiдсутнiсть у квазiрефератi речень, надлишкових для передачi основного змiсту документу; в) зв’язнiсть (у звичайному розумiннi цього слова). Були також введенi такi кiлькiснi оцiнки кожної з перелiчених характеристик квазiрефератiв: 1 - дуже погано 2 - погано 3 - задовiльно 4 - добре 5 - вiдмiнно. Квазiреферати оцiнювалися автором цiєї книги, тобто людиною, яка знає англiйську мову, але не обiзнана зi змiстом тексту, що реферується. Оцiнки виставлялися виключно з точки зору майбутнього користувача системи, в припущеннi, що квазiреферат в iдеалi повинен мати статут самостiйного документу, тобто давати користувачевi чiтке уявлення про тему вхiдного документу, iнформувати про його основний змiст, але не мiстити при цьому надлишкової iнформацiї, вiдрiзняючись тим самим вiд повного документу. Документи, що опрацьовувалися, були подiленi нами на два класи: (а) якi пiддаються iнтелектуальному реферуванню i (б) якi не пiддаються iнтелектуальному реферуванню (наприклад, перелiки спортивних результатiв).

Обсяг одержаних квазiрефератiв - вiд 1 до 3 речень; у двох випадках обсяг склав 4 речення: це були документи, котрi не пiдлягають iнтелектуальному реферуванню. Отже, експеримент дозволив зробити такi висновки. По-перше, було встановлено, що сфоромульована гiпотеза не вiдноситься до невеликої частини текстiв iнформацiйних повiдомлень, якi не пiддаються iнтелектуальному реферуванню. По-друге, на матерiалi бiльшої частини текстiв були перевiренi всi 7 пунктiв гiпотези про гiперсинтаксичну структуру текстiв iнформацiйних повiдомлень. 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. Це припущення пiдтверджується тим, що система видiлила в текстах реально iснуючi в них мiжфразовi зв’язки, що задовольняють усiм умовам синтаксичного мiжфразового зв’язку; саме цi вiдносини об’єднують текст повiдомлення в єдине цiле. 2,3) Речення цiєї гiперсинтаксичної структури об’єднуються в ПМО. Це припущення пiдтверджується чергуванням у текстi повiдомлення автосемантичних i синсемантичних речень. 4,5) Припущення про те, що автосемантичнi речення є справдi головними, оцiнюється так. Той факт, що 12 з 14 квазiрефератiв (Табл. 4. 1) мають вiдмiнну чи хорошу повноту, свiдчить про те, що в 85% текстiв речення, котрi ми назвали головними, справдi мiстять основну iнформацiю, закладену у вхiдних текстах. Крiм того, одержанi квазiреферати мiстять мало надлишкової iнформацiї, а її наявнiсть викликана в основному помилками, не пов’язаними з якiстю нашої моделi. Таким чином, включенi в квазiреферат речення мiстять, як правило, основну iнформацiю вхiдного тексту, тобто вiдповiдають визначенню головного речення. 6) Кiлькiсть головних речень, як правило, складає не бiльше 25% всiх речень цього тексту (див. Табл. 4. 1): коефiцiент стиску менше 4 одержаний тiльки для дуже коротких текстiв. 7) Припущення про те, що з головних речень може бути складений новий текст, що має власну гiперсинтаксичну структуру, частково спростовується результатами експерименту: 5 квазiрефератiв з 14 (кожний третiй) одержали низьку оцiнку по параметру “зв’язнiсть”, тобто цi квазiреферати мають вигляд скорiше штучних об’єднань речень, якi вiдносяться до однiєї теми, нiж тексту. З iншого боку, основною причиною цього були зовнiшнi для нашої моделi чинники, тому треба вважати одержаний результат попереднiм i таким, що потребує додаткової перевiрки. На закiнчення визначимо, що реферування росiйських та українських текстiв є дещо складнiшим, головним чином, iз-за вiдсутностi в цих мовах такого важливого показника мiжфразового зв’язку, як визначений артикль, наприклад:

Si-1: В статье анализируются порошки на основе алюминия. Si: Порошки отличаются тем, что...

Для вияву мiжфразового зв’язку в подiбних випадках необхiдно розробити спецiальну процедуру пошуку антецедентiв слiв, не оформлених маркером визначеностi.

3. 10 Перспективи

по тексту iстотної iнформацiї та засобах вияву синтаксичних мiжфразових зв’язкiв. Крiм того, великий iнтерес представляє опрацювання типологiї науково-технiчних текстiв на основi аналiзу типiв формально вiдбитих синтаксичних мiжфразових зв’язкiв i їх насиченостi цими зв’язками. Дуже перспективною здається також побудова класифiкацiї поверхньо-синтаксичних мiжфразових одиниць у залежностi вiд їхньої структури. Щодо практичного напрямку, то другим етапом розвитку системи квазiреферування має бути алгоритмiзация встановлення дистантних мiжфразових зв’язкiв для конекторiв усiх класiв, що дозволить реалiзувати систему ешелонованого реферування, iдея якої була запропонована В. Ю. Берзоном [Берзон, Брайловский, 1979]. Наступним етапом пiдвищення розпiзнавальної спроможностi системи є формалiзацiя деяких iмплiцитних зв’язкiв шляхом вияву конекторiв, якi зазнали елипсису. У виглядi ще одного важливого завдання треба розглядати опрацювання програми-диспетчера, що буде визначати тип тексту, що реферується, i вибирати засiб реферування. Актуальнiсть даного завдання визначається тим, що iснують тексти з переважною бiльшiстю iмплiцитних мiжфразових зв’язкiв, якi не пiддаються реферуванню описаним методом. Такими, наприклад, є описи технологiчних процесiв i устаткування. Практичну цiннiсть для абонента системи представляє автоматичне аспектне реферування [Блюменау та iн., 1981; Полонская, 1989] таких текстiв. Не менш важливим завданням треба вважати використання даної системи в єдиному комплексi засобiв автоматичної обробки наукових текстiв: такий шлях представляється єдиним засобом здобутку високої економiчної ефективностi систем реферування будь-якого типу. Нарештi, пiдкреслимо актуальнiсть реалiзацiї методiв автоматичного реферування на персональних комп’ютерах.


Висновки

розглядається в основному як частина математичної лiнгвiстики в розумiннi Н. Хомського, а монографiї, присвяченi цiй проблематицi, насиченi структурними схемами речень i умовними символами.

Фiлософiя, запропонована увазi читача даної книги, заснована на прагматичному, якщо завгодно - технологiчному поглядi на комп'ютерну лiнгвiстику. Будучи практиком, я намагаюсь будувати таку теорiю, яка допомагала б менi та моїм колегам вирiшувати конкретнi завдання, що виникають при розробцi iнформацiйних систем. Можливо, недолiком такого погляду на проблематику обробки текстiв є деяке iгнорування математичного апарату та iдей формальних граматик. У той же час, одержанi нами результати у виглядi функцiонуючих iнформацiйних систем свiдчать, очевидно, про те, що даний суто гуманiтарний пiдхiд має право на життя. Ще раз пiдкреслюю, що критерiєм якостi розроблених систем i систем, що створюються, для мене служить виключно погляд кiнцевих користувачiв, i саме вiн є стимулом до удосконалення наших продуктiв.

Можливо, мої потенцiйнi опоненти можуть закинути менi те, що я вiддаю перевагу тривалому, емпiричному "вирощуванню" систем перед апрiорною побудовою всеосяжної моделi лiнгвiстичного об'єкту. На це можна заперечити тiльки одне: нам поки що невiдомi комерцiйнi, тобто такi, якi мають реальну користь для людей, системи, побудованi iнакше, нiж за принципом "вирощування".

"вирощуванням"? Чи не опиниться вiн нескiнченним?

Гадаємо, самий дух щойно прочитаної вами книги свiдчить про те, що цей процес, на щастя i на нещастя, нескiнченний. На щастя - тому, що "вирощувати" iнформацiйну систему майже так же цiкаво, як вирощувати дитину. На нещастя - тому, що дитину кiнець кiнцем можна виростити, i вона стає дорослою, тодi як комп'ютер завжди залишиться дитиною - якою б гарною чи поганою не була теорiя "вирощування". Проте дитинство - це чудово!


Список використаної лiтератури

2. Вiсник книжкової палати №3. -К.:1998 рiк. с. 25.

3. Вiсник книжкової палати №10. -К.:1998 рiк. с. 6.

5. Сiркова Г. В. Основи iнформацiйно-аналiтичних дослiджень. Рiвненський iнститут слав’янознавства Київського слов’янського унiверситету. -К.:1998 рiк. с. 24-28.