Кластерный анализ - Мои статьи - Каталог статей

Меню сайта

Категории раздела

Мои статьи [6]

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Главная » Статьи » Мои статьи

Кластерный анализ

В настоящее время известны стандартные методики расчета и исследования различных показателей учебного процесса. Однако некоторые показатели до настоящего времени остаются скрытыми либо продолжают нести в себе субъективность оценки. Поэтому представляется весьма интересной тема выявления и использования скрытой информации в педагогической практике при помощи современных математических методов анализа данных и компьютерных технологий. Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д. Метод K средних. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. Например педагог-исследователь может иметь "подозрение" из своего практического опыта, что его ученики в основном попадают в три различные категории. Далее он может захотеть узнать, может ли его интуиция быть подтверждена численно, то есть, в самом ли деле кластерный анализ K средних даст три кластера учащихся, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, ученики в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.). С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Методы, представленные в модуле Обобщенные методы кластерного анализа программы STATISTICA схожи с алгоритмом k-средних, включенным в стандартные настройки модуля Кластерный анализ, и вы можете просмотреть раздел Кластеризация k-средних для основного обзора этих методов и их приложений. Назначение этих методов в основном определять кластеры в наблюдениях (или переменных), и для назначения этих наблюдений кластерам. Действие 1. Названия переменных переносятся в поля переменных программы STATISTIKA, где они нумеруются. Другими словами, кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы (классы) схожих между собой объектов. Под кластером обычно понимают группу объектов, обладающую свойством плотности (плотность объектов внутри кластера выше, чем вне его), дисперсией, отделимостью от других кластеров, размером, формой. Сложность задач кластерного анализа состоит в том, что реальные объекты являются многомерными, и, следовательно, объединение объектов в группы проводится в пространстве многих измерений, что весьма сложно. Кроме того, данные могут носить нечисловой характер. Действие 2. Осуществляется перенос данных, соответственно именам переменных. Предлагаем следующую постановку задачи. В качестве объектов рассматриваются результаты условий и результаты деятельности образовательных учреждений. (Результаты получаем по разработанной системе рейтингования ОУ). Действие 3. Выбор действия – кластерный анализ, метод к-средних. Задача — разбить совокупность учреждений на несколько групп, в которых они мало отличаются друг от друга оценками по выбранным направлениям (в нашем случае: оснащенность, методическая работа, инновационная деятельность, образовательная деятельность). В исследовании используется итеративный метод группировки k-средних — k-means clastering. В методе k-средних объект относится к тому классу, расстояние до которого минимально. Принципиально метод k-средних «работает» следующим образом: вначале задается некоторое разбиение данных на кластеры (число кластеров определяется пользователем); вычисляются плотности кластеров; происходит перемещение точек: каждая точка помещается в ближайший к ней кластер; вычисляются плотности новых кластеров; шаги 2, 3 повторяются, пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем. Итоговая конфигурация является искомой. Действие 4. Подтверждение выбора метода к-средних. Действие 5: Выбор условий: данные в столбцах; На первом этапе работы учитываются все доступные параметры-оценки. После автоматических вычислений на экране появится несколько электронных таблиц (столько, сколько групп заранее объявлено) с ОУ, отнесенных к определенным кластерам. В строках таблиц указывается класс (ниже нормы, норма, выше нормы, критический уровень) . Действие 6. Задается количество кластеров. Действие 7. Запрос итогового результата. Действие 8. Результат. В первом столбце имена переменных (номера школ, например, или имена учеников), далее порядковый номер этой переменной, кластер и расстояние до центра кластера. Для работы необходимы знания Excel – заполнение таблиц и транспонирование матриц . Результаты подобного кластерного анализа легко интерпретируются. Данный метод может стать хорошим подспорьем в педагогических исследованиях, а главное, он позволяет выявить скрытую информацию и избежать определенной доли субъективности при оценке учебного процесса. Школы, получившие оценку процесса «выше нормы» заслуживают поощрения, а попавшие в класс оценки процесса «ниже нормы» - по крайней мере – дополнительного мониторинга внутренних процессов. Отдельно об оценке процесса. Процесс оценивается по двум составляющим – классу условий и классу результата (см. таблицу 2) определяя несколько уровней «норма». Мы мотивируем это следующим образом. Глупо ожидать высокий результат в школе с изначально низким уровнем условий, однако, при недостатке материальных или информационных ресурсов педагогический состав своими действиями (организацией процесса) смог добиться показателей на уровень класса выше, чем уровень класса условий. Разумеется, нельзя не учитывать уровень развития учащихся. И в школе с низким уровнем условий могут учиться сильные ученики. Поэтому в системе оценки достижений учитывается удельный вес отличников и учащихся, имеющих особые достижения в образовательном процессе.
1 2 3 4 5 Категория: Мои статьи \| Добавил: Girba (04.01.2011)
Просмотров: 4480 \| Рейтинг: 3.3/3

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Форма входа

Поиск

Друзья сайта