Фактографическая модель представления данных в хранилище системы "Электронный университет", используемой для подготовки IT-специалистов

Автор: Мельников Андрей Витальевич 1, доктор технических наук, профессор
Научный руководитель: Вохминцев Александр Владиславович 2, кандидат технических наук
1 ФГБОУ ВПО "Челябинский государственный университет", 2 ФГБОУ ВПО "Челябинский государственный университет"
ФАКТОГРАФИЧЕСКАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ДАННЫХ В ХРАНИЛИЩЕ СИСТЕМЫ «ЭЛЕКТРОННЫЙ УНИВЕРСИТЕТ», ИСПОЛЬЗУЕМОЙ ДЛЯ ПОДГОТОВКИ IT-СПЕЦИАЛИСТОВ

 

ВВЕДЕНИЕ

В сегодняшнем постиндустриальном обществе концепция электронного университета становится стандартной составляющей системы образования по всему миру в свете растущей потребности в незави­симости учащегося и нехватке подходящих традици­онных очных образовательных программ, например в США взрослые учащиеся электронного отделения составят около 75% всего университетского приема. В концепции Электронного университета (аналог Виртуальный университет) ключевую роль играют информационные ресурсы, поэтому основной зада­чей при его организации становиться проектирова­ние хранилища данных электронного контента.

 

1. СОСТОЯНИЕ ВОПРОСА

Данная работа посвящена проблеме построения концептуальных семантических моделей. Актуаль­ность данной проблемы связана с необходимостью создания моделей и методов для интеллектуального анализа данных в системах поддержки принятия ре­шений и информационно-аналитических системах. Традиционным приложением данных интеллекту­альных систем являлась область финансового учета и анализа управления организациями, оперативно-розыскная деятельность и информационно-аналитическая деятельность компаний и государст­венных организаций.

Однако в последнее время появилась новая об­ласть приложения данных систем - это электронное обучение, e-learning. Сама по себе идея электронного обучения не нова и появилась в США в начале 80-х годов с развитием телекоммуникаций, в результате чего появились первые электронные дистанционные университеты - Открытый университет Великобри­тании (UKOU), Национальный Технологический Университет (NTU), Технологический Университет штат Массачусетс, Стэнфордский Университет), в которых компьютерные сети использовались как средство доставки информации между студентами и преподавателями. Стремительное развитие инфор­мационных технологий в последнее время позволило принципиально изменить формат обучения и его качество, прежде всего это связано с появлением систем интерактивного общения в форме видеокон­ференций. web-инаров. (CiscoWebEx. AdobeAcrobatConnectPro, Wimba). В результате деятельности электронного университета постоянно генерируется информационные ресурсы в мультимедийной и пол­нотекстовой форме, для эффективного использова­ния которых требуется создание хранилища данных образовательного контента.

 

2. ПОСТАНОВКА ЗАДАЧИ

На современном уровне развития информацион­ных технологий предъявляются все более высокие требования к хранилищам данных, которые являются основой для построения систем поддержки принятий решений. При постоянном росте размеров хранилищ данных для эффективной аналитической обработки становиться не достаточно существующих методов поиска в реляционных, полнотекстовых и мультимедийных базах данных, требуются новые средства организации доступа к информации, многие из кото­рых должны быть отнесены к задачам искусственно­го интеллекта. Основной недостаток существующих методов связан с тем, что при поиске информации не учитывается смысловая характеристика, которую несет информация. [1]. Вследствие чего поиск по реляционным атрибутам, вхождению слов (тем) в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя, так как необходимо точно знать предметную область, терминологию и четко определить границы своих интересов.

Для организации поиска по хранилищу данных, который бы учитывал семантику отношений между объектами и атрибутами, требуется:

•   создать хранилище метаинформации - храни­лище, описывающее все информационные ресурсы организации, хранящуюся в них информацию и спо­собы доступа к ней;

•   унифицировать структуру объектов и их атри­бутов в хранилище данных.

 

3. МЕТОДИКА ИССЛЕДОВАНИЯ

 

При построении хранилища метаданных отно­шения между объектами и связями должны быть представлены на естественном языке, что позволит избежать указанных ранее недостатков при поиске информации. Для организации эффективного поиска в хранилище метаданных целесообразно применять фактографический анализ информации.

Основными элементами фактографического ана­лиза являются следующие сущности:

•    факты, описания которых ищут в тексте;

•    объекты мониторинга для сбора фактов;

•    атрибуты объектов, к которым относятся фак­ты;

•    досье, где собирается информация обо всех найденных фактах [2].

Технология фактографического поиска основана на представлении содержания текста в форме семанти­ческой сети. Семантическая сеть содержит значимые слова и словосочетания, упоминавшиеся в тексте, кото­рые связанны друг с другом различными типами синтактико-семантических связей. Элементарная семанти­ческая сеть представляет результат синтаксического анализа и постсинтаксических трансформаций дерева синтаксических зависимостей между словами в от­дельном предложении. Полная семантическая сеть тек­ста есть совокупность отдельных семантических сетей, соответствующих предложениям.

 

Приведемпримерсемантическойсетидляпредложения: In November, 2003 Ivanov had been ac­complished the transaction on purchase of actions of Lukoil at Petrov.

 

Семантическая модель предложения

Рис. 1. Семантическая модель предложения

 

На рис. 1 условным обозначениям объектов се­мантической сети соответствуют следующие описа­ния:

•    АО: Name ="make" and Semantic Type="Verb":

•    Al:  Name="transaction"  and  SemanticTvpe="Event";

 

•  A2: (Name-'Purchase" or Name-'Purchase of the action" or Name="purchase of actions of Lukoil") and SemanticType="Event";

•  A3: Name='Tvanov" and SemanucType-'PersonName";

•  A4: Name="Petrov" and SemanticType="Person Name";

•  A5: (Name-'action" or Name="actions of Lu­koil") and SemanticType="Event";

•  A6: Name = "In November 2003" and Semantic -Type="Time";

•  A7: Name="Lukoil" and SemanticType= "Organ­ization;

•  Rl: RelationName ="argument" and Relation-Case="V";

•  R2: RelationName-'argument" and Relation-Case= "and" and RelationRole="subject";

•  R3: RelationName-'circurnstance";

•  R4: RelationName="argument" and Relauon-Case="D" and RelationConnector="on";

•  R5: RelationName-'argument" and Relario-nRole="subject";

•  R6: RelationName = "argument" and Relation-Case= "R" and RelationConnector="at;

•  R7: RelationName ="argumeni" and Relanon-Case="R" and RelationRole-'object";

•  R8: RelationName-'Accessory" and Relation-Case ="R".

 

Представление содержания текста в форме се­мантической сети позволяет абстрагироваться от многих особенностей его коммуникативной органи­зации [3]. Такая сеть инвариантна к синтаксической структуре предложений и порядку слов с точностью до структуры пропозиции, выбранной автором для описания ситуации. Например, конструкциям «Ива­нов купил акции» и «акциях, купленных Ивановым» будут соответствовать одинаковые сети.

Модель факта задается множеством лингвисти­ческих описаний - шаблонов, каждый из которых описывает множество изоморфных семантических сетей, соответствующих некоторому типовому спо­собу описания ситуации в тексте. Основными эле­ментами лингвистических описаний являются:

•    целевые фигуранты;

•    вспомогательные фигуранты;

•    схема ситуации.

Поиск факта есть поиск в семантической сети текста такой подсети, которая изоморфна одному из шаблонов. Если подсеть найдена факт считается установленным, после чего производится извлечение сущностей и их маркировка ролями, заданными в соответствующих узлах лингвистических описаний.

 

Таким образом, результатом поиска является имя (типа) факта и набор указателей на сущности семантической сети с указанием соответствующих им ролей в лингвистическом описании.

Информационными ресурсами хранилища дан­ных образовательного контента являются:

•   интерактивные лекции и семинары;

•   видеоархив;

•   контрольные мероприятия (тесты, задачи);

•   обратная связь (чаты, форумы, почта);

•   электронная доска;

•   библиотека (книги, учебно-методические комплексы, презентации);

•   документы электронного деканата, электрон­ный журнал;

•   личный кабинет студента;

•   оффлайн контент.

 

5. ПРИЛОЖЕНИЕ РЕЗУЛЬТАТОВ

Фактографическая модель данных была приме­нена при проектировании хранилища данных обра­зовательного контента в корпоративной образова­тельной среде «Виртуальный университет», совместном проекте Челябинского государственно­го университета и компании ОАО «Уралсвязьинформ» (iit.csu.ru) [4]. В данном проекте образова­тельный процесс основан на использовании совре­менных дистанционных технологий, которые обес­печивают живое общение преподавателей и сту­дентов, вне зависимости от их местоположения, через сеть Интернет. Такой опыт получения обра­зования давно и достаточно широко применяется в ведущих университетах мира. В России данные образовательные проекты только начинаются вне­дряться, а Челябинский государственный универ­ситет стал одним из первых вузов в России и пер­вым в Уральском Федеральном округе, кто запус­тил подобный проект.

Студенты и преподаватели университета могут организовывать эффективный поиск информации в хранилище данных контента, потому что в запросах используется семантическая информация об объекте исследований. На сегодняшний день запросы в системе формируются в конструкторе, а результаты возвращаются в виде отчетов в таблич­ной форме.

Обучение студентов проходит в рамках образо­вательного стандарта третьего поколения, с исполь­зованием систем электронного обучения e-Learning, которое дает следующие пре­имущества студентам:

•    обучение в режиме видеоконференции без отрыва от работы;

•    привлечение для чтения лекций и семинаров лучших профессоров и специалистов из ИТ-отрасли;

•    удобное время и место для обучения;

•    получение практических знаний на вирту­альных стендах;

•    прочное усвоение знаний;

•    постоянный контакт с преподавателем;

•    индивидуальный график обучения;

•    экономия времени и денег.

В процессе обучения используются следующие информационные системы:

1) AdobeAcrobatConnectPro(система организации видеоконференций);

2) Электронный деканат;

3) Moodle(электронный каталог и средства аттестации студентов);

4) Личный кабинет студента.

В связи с развитием телекоммуникационной инфраструктуры и снижением стоимости интеллектуальных систем для анализа и визуализации ин­формации, таких как VisuaLinksи i2 Analyst'sNotebookпредставляется целесообразным исполь­зовать данные системы в ближайшем будущем в качестве универсального средства поиска в храни­лище данных образовательного контента.

 

ВЫВОДЫ

1.  Разработана фактографическая модель дан­ных.

2.  На основе фактографическая модели данных построено хранилище данных образовательного контента.

Список использованных источников
  1. Вохминцев А. В. Технология конвертации гете¬рогенных баз данных в хранилище данных с фактографической моделью поиска и обработки метаданных / А. В. Вохминцев, А. В. Мельников, // Информационно-математические технологии в экономике технике и обра¬зовании : сб. науч. тр. Екатеринбург: УГТУ-УПИ, 2008. С. 222-224.
  2. Ермаков А. Е. Поиск фактов в тексте / А. Е. Ер¬маков. Москва: Мир ПК, 2005.- N 2.
  3. Voxmintsev А. V. Fact-based search technology in data warehouse with heterogeneous structure/ A. V. Vox-mintsev, A. V. Melnikov, // 9 International Workshop on Computer science and information technologies CSIT'2007: сб. науч. тр. Ufa: UGATY, 2007. С. 31-33.
  4. Voxmintsev A. V. Problems of construction of con¬ceptual models of the virtual world/ A. V. Voxmintsev, A. V. Melnikov // 11 International Workshop on Computer science and information technologies CSIT'2009: сб. науч. тр. Crete, Greece, 2009. С. 128-130.
Тип выступления  Устное выступление и публикация
Уровень образования  Послевузовское профессиональное