Быстрые ссылки: Перейти на главную | Список курсов | Расписание | Заявка на курс | Ответы на вопросы экспертов | Ищите что-то конкретное? | Контакты ↓ |
☎ +7 (7172) 46 97 51
☎ +7 (777) 241 72 98 ☎ +7 (747) 716 21 22 nataciscotrain.kz asemciscotrain.kz infociscotrain.kz raushanciscotrain.kz Казахстан, г. Астана, ул. Иманбаевой 8
|
Data Science: Анализ данных, визуализация и моделирование в R город Астана
Данный курс является необходимым для получения практических навыков работы с программой R при анализе больших данных и моделировании. R – бесплатный язык программирования для статистической обработки данных, визуализации данных и моделирования. Пройдя данный курс Вы освоите основы программирования в пакете R. Узнаете, как загружать, сохранять и преобразовывать данные, создавать графики и проводить базовый статистический анализ. Научитесь проводить углубленный статистический анализ и строить статистические модели в зависимости от поставленных бизнес-задач. Слушатели получат системное теоретическое представление об основных классах моделей Data Mining, а также практический опыт их построения. Курс практический, все темы иллюстрируются практическими примерами реализации в пакете R.
Аудитория
1. IT-специалисты по работе с большими данными, желающие повысить свою квалификацию и стать аналитиками;
2. бизнес-аналитики, желающие систематизировать свои знания по статистическому анализу и моделированию, а также освоить новый инструмент для анализа данных – R;
3. руководители, желающие получить расширенную теоретическую и практическую подготовку по использованию программы R для аналитических расчетов и моделирования.
Предварительная подготовка
· Знание программы R не требуется
· Практический опыт работы с данными
· Желательно знание основ статистики
· Желательны навыки программирования Содержание курса
Программа
Тема 1. Основы методологии статистического анализа данных и моделирования – 2 ак.ч.
Тема 2. Введение в работу в среде R – 2 ак.ч.
Тема 3. Основы программирования в среде R – 2 ак.ч.
Тема 4. Ввод и организация данных для анализа в среде R – 1 ак.ч.
Тема 5. Графические возможности R – 1 ак.ч.
Тема 6. Подготовка и исследование данных перед моделированием – 2 ак.ч.
Тема 7. Статистические тесты выявлений различий в выборках – 2 ак.ч.
Тема 8. Оценка взаимосвязи между переменными – 4 ак.ч.
Тема 9. Моделирование связи с помощью дисперсионного анализа – 4 ак.ч.
Тема 10. Линейный и нелинейный регрессионный анализ – 4 ак.ч.
Тема 11. Бинарный классификатор на основе логистической регрессии – 4 ак.ч.
· Понятие модели бинарного выбора
· Модель логистической регрессии
· Достоинства и недостатки логистической регрессии
· Алгоритм построения логистической регрессии
· Оценка коэффициентов логистической регрессии методом максимального правдоподобия
· Проверка обоснованности модели логистической регрессии
· Логарифм правдоподобия и проверка значимости уравнения
· Оценки коэффициента детерминации
· Критерий Хосмера-Лемешева
· Проверка значимости коэффициентов и их интервальные оценки
· Интерпретация коэффициентов при количественных и категориальных предикторах
· Методы отбора предикторов
· Прогноз зависимой переменной
· Таблица классификации
· Чувствительность и специфичность модели
· ROC-анализ
· Показатели качества классификации: AUC, Джини
Тема 12. Методы многомерной кластеризации –4 ак.ч.
· Обзор методов многомерной кластеризации
· Понятие и области применения кластерного анализа
· Задачи и методы кластерного анализа
· Преимущества и недостатки кластерного анализа
· Этапы кластерного анализа
· Исходные данные в многомерном анализе
· Меры различия между количественными данными
· Меры различия и сходства между количественными данными
· Меры различия и сходства между бинарными данными и их оценка
· Меры различия между частотными данными и их оценка
· Анализ качества классификации
· Особенности иерархического кластерного анализа
· Алгоритм иерархических методов кластерного анализа
· Меры расстояния между кластерами
· Графическое представление результатов иерархического кластерного анализа
· Сущность и особенности метода k-средних
· Алгоритм метода k-средних
· Графическое представление результатов
Тема 13. Изучение структуры данных методом факторного анализа – 4 ак.ч.
· Понятие факторного и компонентного анализа
· Цель и задачи факторного анализа
· Этапы реализации методов снижения размерности
· Алгоритм компонентного анализа
· Алгоритм факторного анализа
· Предпосылки применения факторного и компонентного анализа
· Сравнение факторного и компонентного анализов
· Правила отбора факторов
· Выбор метода факторного анализа
· Проблема вращения факторов
· Матрица нагрузок и ее интерпретация
· Диаграмма «каменистой осыпи» и отбор факторов на ее основе
· Получение значений факторов на объекте и работа с ними
Тема 14. Классификация и предсказание на основе деревьев решений – 4 ак.ч.
· Цель метода деревьев решений
· Терминология деревьев решений
· Задачи построения деревьев решения
· Преимущества и недостатки метода деревьев решений
· Методы деревьев решений
· Описание метода CHAID
· Особенности метода исчерпывающий CHAID
· Особенности метода CRT
· Проблемы построения деревьев решений
· Бэггинг
· Градиентный бустинг
· Метод случайного леса
|