Стартовая страница G l o s s a r y   C o m m a n d e r

Служба тематических толковых словарей

glossary.ru
park.glossary.ru
Служебная библиотека
 н а  п р а в а х  р е к л а м ы 

 Теория: 1  | 2  | 3  | 4  | 5  | 6  | 7  | 8  | 9  | 10  | 11  | 12  | 13  | 14  | 15
 
Соловьев С.Ю.
СХЕМА И ФОРМУЛА ГЛОССАРИЯ
Москва, 2008.   >>  Точная ссылка


 
Введение

Целью проекта "Служба тематических толковых словарей" является конструирование единой системы определений терминов научной и деловой лексики. Объектом исследования Проекта являются определения терминов, а результатом исследования - семантическая сеть, именуемая "Универсальное терминологическое пространство" (УТП) [1]. Простейшая попытка сделать объектом исследования само УТП приводит к необходимости
-1- уметь расчленять УТП на фрагменты (окрестности);
-2- уметь представлять фрагменты в наглядном виде; и
-3- уметь оценивать увиденное с точки зрения типичности.

Задача расчленения УТП на фрагменты однозначно решается методикой его построения.

Задача представление фрагментов УТП в наглядном виде оказывается практически неразрешимой в классе традиционных графоподобных схем. Поэтому для визуализации фрагментов предлагается несколько иной подход, обеспечивающий компактность, обозримость и необходимую стандартизацию схем.

Задача оценки типичности сводится к задаче обнаружения на множестве фрагментов устойчивых классов по признакам структурного сходства элементов этих классов. Расчеты позволяют вполне надежно выявить несколько таких классов. Открытыми остаются отдельные вопросы интерпретации классов.
 
Универсальное терминологическое пространство

Концептуально УТП представляет собой фрагмент научной картины мира. Формально же УТП можно рассматривать как граф
  • вершинами которого являются электронные карточки с определениями терминов; а
  • множество ориентированных ребер задается бинарными отношениями
            это-есть(<Вершина>,<Понятийная-вершина>) или
    относится-к(<Вершина>,<Понятийная-вершина>), где
    • <Вершина> - в узком смысле - определение некоторого термина;
    • <Вершина> - в широком смысле - понятие, заданное определением;
    • <Понятийная вершина> - вершина графа, в которую входит хотя бы одно ребро;
    • это-есть(A,B) - родовидовое отношение, в котором:
      • B - родовое понятие для A; а
      • A - подвид понятия B;
    • относится-к(A,B) - бинарное отношение, в котором:
      • B является областью применения для A; а
      • A выступает аксессуаром для B;
        содержательно A может быть частью, свойством или аспектом B, A может так же выступать в качестве фигуранта в определении понятия B и т.д.
УТП - расширяющаяся структура, насчитывающая на начало 2008 года 37 выпусков, последний из которых
  • содержит 52225 вершин-определений, в том числе 7351 - понятийных;
  • содержит 70880 ребер-отношений, в том числе
    • 33021 - связи "это-есть"
    • 37859 - связи "относится-к";
  • охватывает 177 тем, в том числе терминологию по астрономии, биологии, банковскому делу, географии, демографии, информатике, искусству, истории, маркетингу, психологии, почвоведению, социологии, страхованию, строительству, управлению, физике, экономике и др.
Построение УТП - это научно-редакторская работа, рассчитанная на использование интеллектуального потенциала человека-способного-к-обучению. Связи между понятиями устанавливаются редактором по результатам сравнения их определений.

В УТП все понятийные вершины имеют дополнительные уникальные имена. Обычно дополнительное имя является производным от термина понятийной вершины. Например, термину "Кредит" соответствует дополнительное имя "Кредиты", термину "Кредитор" - дополнительное имя "Кредиторы".

Особый статус понятийных вершин связан с тем, что их "встраивание" в УТП можно считать законченным хотя бы в первом приближении. По этой же причине понятийные вершины рассматриваются как центры формирования специализированных глоссариев [2]. Собственно говоря, дополнительное имя понятийной вершины и есть имя глоссария.
 
Окрестности понятийных вершин

Введем классификацию вершин, находящихся в окрестности некоторой (понятийной) вершины t. Четыре основных класса вершин P(t), S(t), A(t) и B(t) определяются бинарными отношениями:
P(t) = { x | это-есть(t,x) } - родовые понятия для t;
S(t) = { x | это-есть(x,t) } - подвиды t;
A(t) = { x | относится-к(x,t) } - аксессуары t;
B(t) = { x | относится-к(t,x) } - области применния t.

Кроме того, интерес представляют производные классы вершин:
BP(t) = B(t) + P(t) - область цитирования t;
AS(t) = A(t) + S(t) - состав понятия t;
L(t) = { x из BP(y) | для нек. y из AS(t) } \ {t} - смежные
с t понятия, состав которых пересекается с составом t,
L(t) = { x | AS(x) * AS(t) <> empty } \ {t}
- альтернативное определение L(t);
s(t) = { x из S(t) | BP(x) = {t} } - собственные подвиды,
не задействованные в других понятиях;
a(t) = { x из A(t) | BP(x) = {t} } - собственные аксессуары,
не задействованные в других понятиях.

Помимо ребер, непосредственно заходящих в вершину t, в окрестности, вообще говоря, имеется некоторое количество ребер УТП, соединяющих вершины из AS(t) с вершинами из L(t). Эти ребра - с точностью до типов связей - образуют множество W(t).

В дальнейшем изложении будем полагать, что
  • понятийные вершины задаются своими дополнительными именами, а остальные вершины могут задаваться своими именами;
  • множества P(t), S(t), A(t), B(t), L(t) s(t) и a(t) содержат соответственно P, S, A, B, L, s и a элементов.
Например, для понятийной вершины t = "Стоимость объектов недвижимости"
P(t) = { "Стоимость имущества" },
S(t) = { "Потребительская стоимость недвижимости",
"Стоимость замещения объекта недвижимости",
"Рыночная стоимость недвижимости",
"Эстимативная стоимость",
"Цена земли" },
s(t) = { "Потребительская стоимость недвижимости",
"Стоимость замещения объекта недвижимости"},
A(t) = { "Бут",
"Стартовая цена объекта недвижимости",
"Базовая стоимость строительства",
"Цена объекта недвижимости",
"Методы оценивания объектов недвижимости" },
a(t) = { "Бут",
"Стартовая цена объекта недвижимости" },
B(t) = { "Объекты недвижимости" },
L(t) = { "Строительные работы",
"Договоры купли-продажи недвижимого имущества",
"Оценки объектов недвижимости",
"Процедуры оценки имущества",
"Землевладение",
"Рынки недвижимости" }.

Соответственно P = 1, S = 5, s = 2, A = 5, a = 2, B = 1, L = 6.
W(t) = { ("Базовая стоимость строительства"  →  "Строительные работы"),
("Цена объекта недвижимости"  →  "Договоры купли-продажи недвижимого имущества"),
("Методы оценивания объектов недвижимости"  →  "Оценки объектов недвижимости"),
("Методы оценивания объектов недвижимости"  →  "Процедуры оценки имущества"),
("Эстимативная стоимость"  →  "Оценки объектов недвижимости"),
("Цена земли"  →  "Землевладение"),
("Рыночная стоимость недвижимости"  →  "Рынки недвижимости") }.

Стандартный глоссарий на основе понятийной вершины t [2] состоит из совокупности определений
{ t } + AS(t) + P(t).
При этом понятийные вершины из B(t) + L(t) используются для навигации по УТП.
 
Схемы окрестностей

Для человека точное описание окрестности понятийной вершины удобно представлять в виде схемы. Композиционно такую схему предлагается строить вокруг прямоугольника, который символизирует раскрываемое понятие. Области над и под прямоугольником отводятся связям "это-есть", а области справа и слева - связям "относится-к". Детали образного представления понятийной вершины t зафиксированы в семи следующих принципах:
-1- вершина t представляется прямоугольником, в котором размещается наименование вершины и ребра из W(t);
-2- ребра из W(t):
  • начинаются внутри прямоугольника на его границах;
  • имеют вид линий, плавно меняющих направление;
  • выходят за пределы прямоугольника через его левую границу;
  • заканчиваются стрелками "справа-налево";
-3- родовые понятия из P(t) размещаются над прямоугольником и соединяются с ним стрелками "снизу-вверх";
-4- подвиды из S(t) размещаются под прямоугольником и соединяются с ним стрелками "снизу-вверх", причем собственные подвиды s(t) размещаются левее остальных элементов S(t);
-5- аксессуары из A(t) размещаются справа от прямоугольника и соединяются с ним стрелками "справа-налево", причем собственные аксессуары a(t) размещаются выше остальных элементов A(t);
-6- области применения из B(t) размещаются слева от прямоугольника и соединяются с ним стрелками "справа-налево";
-7- элементы множества L(t) размещаются слева от прямоугольника под элементами B(t).

Изложенные принципы достаточно технологичны, на их основе реализована программа визуализации [3], позволяющая изучать строение УТП. Схема для окрестности понятийной вершины "Стоимость объектов недвижимости" приведена на рисунке 1.
 
Рис. 1 Схема "Стоимость объектов недвижимости"

Структурные свойства окрестностей

Синтаксическую конструкцию "P + S/s + A/a + B + L", в которой на местах переменных стоят конкретные числовые значения для понятийной вершины t, будем называть формулой глоссария t. Формула глоссария "Стоимость объектов недвижимости" имеет вид
1 + 5/2 + 5/2 + 1 + 6.

Схема детально описывает окрестность понятийной вершины. Формула глоссария существенно беднее, она сводит многообразие связей к кортежу из семи чисел, но эти кортежи можно сравнивать. Для каждой законченной версии УТП кортежи легко вычисляются и сводятся в таблицу (см. таблицу 1).
 
Таблица 1. Формулы понятийных вершин
Номер  P   S   s   A   a   B   L   Понятийная вершина 
1. 1 1 0 4 1 1 4 CGI-приложения
...
5826. 1 5 2 5 2 1 6 Стоимость объектов недвижимости
...
7351. 1 4 4 4 3 0 2 Ячеистые бетоны

Анализ таких таблиц позволяет находить интересные закономерности в строении интегрированного знания, нерасчлененного на науки и сферы бизнеса. Объективный подход к изложению этих закономерностей предполагает ряд оговорок.

Во-первых, закономерностью считается только такое свойство, которое стабильно подтверждается на всех выпусках УТП, насчитывающих более 4000 понятийных вершин. На начало 2008 года насчитывается 16 таких выпусков, и они содержат соответственно 4096 (апрель 2003), 4565, 4686, 4950, 5247, 5378, 5664, 5842, 6014, 6240, 6658, 6799, 6885, 7098, 7270 и 7351 понятийных вершин.

Во-вторых, все закономерности выявляются на принципиально ограниченном материале, неизбежно несущем отпечаток субъективности и содержащем непреднамеренные ошибки. Поэтому
  • будем полагать, что закономерности еще не переросли рамки гипотез; и
  • будем формулировать комментарии к закономерностям в виде вопросительных предложений.
Гипотеза-закономерность No.1. Почти все (93%) понятия содержат некоторое количество собственных подвидов или собственных аксессуаров.
Основание. По результатам расчетов условию a + s > 0 удовлетворяют 93% формул.
Вопрос. Можно ли полагать, что каждое понятие в своем составе имеет несколько уникальных подвидов/аксессуаров, отличающих его от других понятий?
Вопрос. Можно ли использовать это свойство в поисковых системах?
Вопрос. Что из себя представляют 7% понятий, не удовлетворяющих закономерности?

Гипотеза-закономерность No.2. Часто (68%) понятие одновременно содержит и подвиды, и аксессуары.
Основание. По результатам расчетов:
  • условию (A > 0) & (S > 0) удовлетворяют 68% формул.
  • условию (A = 0) & (S > 0) - понятия без аксессуаров - удовлетворяют 16% формул.
  • условию (A > 0) & (S = 0) - понятия без подвидов - также удовлетворяют 16% формул.
Вопрос. Можно ли считать 32% понятий, не удовлетворяющих основной закономерности, незаконченными фрагментами УТП или темами будущих исследований?

Гипотеза-закономерность No.3. Почти у половины (46%) понятий область цитирования состоит ровно из одного понятия. Другими словами, 46% понятий являются собственными подвидами/аксессуарами некоторых других понятий (см. No.1).
Основание. По результатам расчетов условию P + B = 1 удовлетворяют 46% формул.

Гипотеза-закономерность No.4. Существенная часть (21%) понятий имеют сильно востребованный состав.
Основание. По результатам расчетов условию L+1 >= A+S удовлетворяют 21% формул.
Вопрос. Можно ли считать, что свойство кумулятивности информации [4] существенно нарушается в 21% случаев?

Гипотеза-закономерность No.5. Заметная часть (12%) понятий вообще не имеет смежных понятий.
Основание. По результатам расчетов условию L = 0 удовлетворяют 12% формул.
Вопрос. Можно ли считать, что свойство кумулятивности информации в его "чистом виде" проявляется лишь в 12% случаев?

Гипотеза-закономерность No.6. Только малая часть (10%) понятий имеет строение общего вида.
Основание. По результатам расчетов 10% формул удовлетворяют условию
(0 < P) & (0 < s < S) & (0 < a < A) & (0 < B) & (0 < L).
Вопрос. Можно ли считать научную картину мира совершенной только на 10%?
 
Заключение

С точки зрения визуализации обобщение полученных результатов на случай более богатых связей между понятиями [5] возможно в ограниченных пределах. Для двух типов отношений понятийная вершина представляется прямоугольником, для трех типов - шестиугольником, для четырех - восьмиугольником, а в остальных случаях нужны другие подходы. С точки зрения типологии структур переход на более богатые типы связей может уточнить закономерности, связанные с понятиями-аксессуарами.

Результаты исследования, включая схемы окрестностей, таблицы форум, а также результаты подтверждающих расчетов выложены на сайте www.glossary.ru.
>> cкачать.zip 1051К
 
 
Список литературы
  1. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство // Труды Международного семинара Диалог'2002 "Компьютерная лингвистика и интеллектуальные технологии", т.1. - М.: Наука, 2002, с.266 -277.

    www.park.glossary.ru/serios/theory01.php

  2. Мальковский М.Г., Соловьев С.Ю. Методы формирования глоссариев в универсальном терминологическом пространстве // Труды Международного семинара Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии". - М.: Наука, 2003, с.438-440.

    www.park.glossary.ru/serios/theory02.php

  3. Соловьев С.Ю. Образные представления терминологической сети. // Сб. Прикладное программное обеспечение. - М.: Изд-во МИРЭА, 2008, c.55-69.

    www.park.glossary.ru/serios/theory06.php

  4. Володина М.Н. Термины как средство специальной информации. - М.: Изд-во МГУ, 1996. - 80с.
  5. ГОСТ 7.25-2001. Тезаурус информационно-поисковый. Правила разработки, структура, состав и форма представления. - М.: ИПК Изд-во стандартов, 2001. - 36c.


--------- * ---------

 

Точная ссылка: Соловьев С.Ю. Схема и формула глоссария
// Сб. Трудов XXI национальной конференции по искусственному интеллекту
с международным участием. Т. 2. - М.: ЛЕНАНД, 2008. С.157-164


П|р|о|д|о|л|ж|е|н|и|е ►



Copyright ©
2000-2022
Web-and-Press


webadmin@glossary.ru