Задачи интеллектуального анализа данных в курсе «Информационные технологии»

Авторы: Гальченко Максим Иванович 1
Майоров Анатолий Павлович 2, к.т.н., доцент
Гущинский Александр Геннадьевич 3, к.т.н., доцент
1 Санкт-Петербургский Государственный Аграрный Университет, 2 Санкт-Петербургский Государственный Аграрный Университет, 3 Санкт-Петербургский Государственный Аграрный Университет
Рассматривается возможность введения в курс "Информационные технологии" тем, связанных с интеллектуальным анализом данных. Анализируются положительные эффекты от использования такого рода задач в курсе, а также программное обеспечение, используемое для обучения data mining.

 

Если отталкиваться от определения информационных технологий, то курс должен содержать информацию о применении средств вычислительной техники при выполнении функций сбора, хранения, обработки, передачи и использования данных. Классический курс информационных технологий в инженерном ВУЗе предполагает углубленное изучение работы в текстовом процессоре, электронных таблицах, изучение принципов создания БД и работы с ними и относительно небольшой блок, посвященный работе в математических пакетах. Этот подход охватывает все перечисленные функции, но не создает целостностной картины.

С учетом того, что в нашем случае курс «Информационные технологии» базируется на курсе «Информатика» и является его продолжением имеет смысл использовать в нем задачи, в которых студент не просто изучал бы какие-либо пакеты, а участвовал в решении комплексной задачи от ее постановки до формирования отчета, используя вычислительную систему как инструмент для достижения цели. Такой подход может быть успешно использован в задачах, подразумевающих использование Data Mining.

Любая задача, сводящаяся к аналитической деятельности, состоит из четырех связанных подзадач: сбор данных, их хранение, обработка и представление.

Сравнение определения информационных технологий и этапов анализа данных дает фактически полное совпадение. Таким образом, задача анализа данных максимально соответствует критерию комплексного подхода к обучению информационных технологий.

Каждая из подзадач предполагает развитие определенного набора навыков, что позволяет вести обучение различными методами: первый — каждый из студентов группы реализует свою задачу полностью; второй — организация командной работы студентов. Второй путь представляется более логичным, так как позволяет учесть индивидуальные особенности студентов, создать условия для развития навыков командной работы.

Исходные данные для работы могут быть получены как от предприятий и организваци, так и добыты в открытых источниках. Так, например, сайт data.gov.uk предоставляет большой пласт статистической информации о Великобритании, в том числе и «сырую», пригодную для целей Data Mining (мы использовали данные о потреблении электроэнергии, воды и газа департаментами правительства).

В качестве инструментов могут быть использованы различные инструменты: SPSS, Statistica, R language, RapidMiner, KNIME. Стоит отметить тот факт, что использование электронных таблиц для этой цели нежелательно [1]. В нашей практике хорошо себя показал KNIME [2]: достаточно простой интерфейс инструмента сочетается с богатым функционалом, а также возможностью использовать при обработке скрипты на Java, Python, R language. Дополнительным плюсом системы можно считать простой, но достаточно мощный редактор отчетов с возможностью экспорта результатов в различные форматы.

Таким образом, использование задач на анализ данных позволяет дать комплексное видение процесса использования информационных технологий и стимулировать интерес к изучению предмета.

Список использованных источников
  1. IBM White Paper, The Risks of Using Spreadsheets for Statistical Analysis // http://public.dhe.ibm.com/common/ssi/ecm/en/imw14297usen/IMW14297USEN.PDF
  2. Michael R. Berthold, Nicolas Cebron, Fabian Dill and others, KNIME: The Konstanz Information Miner // Studies in Classification, Data Analysis, and Knowledge Organization (GfKL 2007), Springer, 2007
Тип выступления  Устное выступление и публикация
Уровень образования  Высшее профессиональное
Ключевые слова  data mining, KNIME