Основы анализа данных в Python: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 88: Строка 88:
  
 
=== Введение в машинное обучение ===
 
=== Введение в машинное обучение ===
 
  
 
Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация, <br>снижение размерности.
 
Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация, <br>снижение размерности.
 
Метод k ближайших соседей и его использование для задач классификации.  
 
Метод k ближайших соседей и его использование для задач классификации.  
  
* '''Лекция 7.1.''' Задачи машинного обучения ([https://www.dropbox.com/scl/fi/ro7n130skg2s0bzk6ihzy/07.pdf?rlkey=u16oohb8nuwbkni3qijerjkwt&dl=0 слайды]).
+
* '''Лекция 8.1.''' Задачи машинного обучения ([https://www.dropbox.com/scl/fi/ro7n130skg2s0bzk6ihzy/07.pdf?rlkey=u16oohb8nuwbkni3qijerjkwt&dl=0 слайды]).
* '''Лекция 7.2.''' Знакомство с методом k-ближайших соседей ([https://www.dropbox.com/scl/fi/lfudxs7ygf7ugzkudyj8n/08-k.pdf?rlkey=y7xf1m42noh70gldl3vlquhk6&dl=0 слайды]).
+
* '''Лекция 8.2.''' Знакомство с методом k-ближайших соседей ([https://www.dropbox.com/scl/fi/lfudxs7ygf7ugzkudyj8n/08-k.pdf?rlkey=y7xf1m42noh70gldl3vlquhk6&dl=0 слайды]).
 
* '''Практикум 8.1.''' Метод k ближайших соседей: работаем с изображениями ([https://github.com/allatambov/PyDat23/blob/main/practice_knn_images.ipynb читать], [https://www.dropbox.com/scl/fi/lqri0ur5x0q3r76v4e6rw/practice_knn_images.ipynb?rlkey=bbsonkdw8z3is1ps1chcj4e8s&dl=0 ipynb], [https://www.dropbox.com/scl/fo/v4ugdpn7qg3qvc9xe70dv/h?rlkey=idw5svfv0kcfv2oi4wgqm52ev&dl=0 данные]).  
 
* '''Практикум 8.1.''' Метод k ближайших соседей: работаем с изображениями ([https://github.com/allatambov/PyDat23/blob/main/practice_knn_images.ipynb читать], [https://www.dropbox.com/scl/fi/lqri0ur5x0q3r76v4e6rw/practice_knn_images.ipynb?rlkey=bbsonkdw8z3is1ps1chcj4e8s&dl=0 ipynb], [https://www.dropbox.com/scl/fo/v4ugdpn7qg3qvc9xe70dv/h?rlkey=idw5svfv0kcfv2oi4wgqm52ev&dl=0 данные]).  
 
* '''Практикум 8.2.''' Метод k ближайших соседей: работаем с числовыми данными ([https://github.com/allatambov/PyDat23/blob/main/practice_knn_dataframes.ipynb читать], [https://www.dropbox.com/scl/fi/yev8hihxbw99p317fb41r/practice_knn_dataframes.ipynb?rlkey=ob78mckmoubmhmrkpyhycbusw&dl=0 ipynb], [https://www.dropbox.com/scl/fi/8i4nhes7hs2dze14md70x/penguins.csv?rlkey=ito269dqjrczjpfg8e5x50e6v&dl=0 penguins.csv]).
 
* '''Практикум 8.2.''' Метод k ближайших соседей: работаем с числовыми данными ([https://github.com/allatambov/PyDat23/blob/main/practice_knn_dataframes.ipynb читать], [https://www.dropbox.com/scl/fi/yev8hihxbw99p317fb41r/practice_knn_dataframes.ipynb?rlkey=ob78mckmoubmhmrkpyhycbusw&dl=0 ipynb], [https://www.dropbox.com/scl/fi/8i4nhes7hs2dze14md70x/penguins.csv?rlkey=ito269dqjrczjpfg8e5x50e6v&dl=0 penguins.csv]).
 +
 +
=== Линейная регрессия ===
 +
 +
* '''Лекция 9.''' Парная линейная регрессия.
 +
* '''Практикум 9.1''' Парная и множественная линейная регрессия с точки зрения машинного обучения ([https://www.dropbox.com/scl/fi/2mooeja43n16pr33ligf9/practice-lm-01.ipynb?rlkey=481cgdrxtipjlna97epdi0ly8&dl=0 ipynb], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]).
 +
 +
Дополнительно:
 +
 +
* '''Практикум 9.2''' Парная и множественная линейная регрессия с точки зрения классической статистики.
 +
  
 
=== Домашние задания ===
 
=== Домашние задания ===

Версия 02:37, 8 декабря 2023

Дорогие студенты!

Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры и план курса

  • Программа курса, организационная презентация.
  • Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
  • Подробный план курса, с примерными датами.
  • Сопровождающий онлайн-курс «Сбор и анализ данных в Python».

Программное обеспечение

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Установка Anaconda и запуск Jupyter Notebook:

  • Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
  • Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
  • Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
  • Набор текста в Jupyter (видео, ipynb).

Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.

Материалы

Введение в выборочные обследования

Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок.
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).

Дополнительно:

Описание данных

Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики.
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.

  • Лекция 2. Описательные статистики (слайды).
  • Практикум 2. Описательные статистики, группировка и агрегирование в pandas (читать, ipynb, c.xlsx), решения (читать, ipynb).

Визуализация данных

Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.

Выборочное оценивание

Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего.
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.

  • Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
  • Иллюстрация действия статистических законов (читать, ipynb).

Дополнительно:

  • Вычисление числовых характеристик случайных величин и вероятностей с scipy.stats (читать, ipynb).

Проверка статистических гипотез

Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость.
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.

Поиск связей в данных

Оценка связи между двумя признаками в количественной шкале: коэффициенты корреляции Пирсона и Спирмена.
Оценка связи между двумя признаками в качественной шкале: таблицы сопряженности и хи-квадрат критерий согласия Пирсона.

Введение в машинное обучение

Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация,
снижение размерности. Метод k ближайших соседей и его использование для задач классификации.

  • Лекция 8.1. Задачи машинного обучения (слайды).
  • Лекция 8.2. Знакомство с методом k-ближайших соседей (слайды).
  • Практикум 8.1. Метод k ближайших соседей: работаем с изображениями (читать, ipynb, данные).
  • Практикум 8.2. Метод k ближайших соседей: работаем с числовыми данными (читать, ipynb, penguins.csv).

Линейная регрессия

  • Лекция 9. Парная линейная регрессия.
  • Практикум 9.1 Парная и множественная линейная регрессия с точки зрения машинного обучения (ipynb, c.xlsx).

Дополнительно:

  • Практикум 9.2 Парная и множественная линейная регрессия с точки зрения классической статистики.


Домашние задания

Домашнее задание Файлы Дедлайн Сдача
Домашнее задание 1 ipynb owls.csv 08.10 23:59 ссылка на Dropbox
Домашнее задание 2 ipynb hp_upd.csv 10.11 23:59 Dropbox: 211 212 213 214
Домашнее задание 3 ipynb order_details.csv orders.csv 20.11 23:59 Dropbox: 211 212 213 214
Домашнее задание 4 ipynb mushrooms.csv 10.12 23:59 Dropbox: 211 212 213 214
Домашнее задание 5 17.12 23:59 Dropbox: 211 212 213 214
Домашнее задание 6* 20.12 23:59 Dropbox: 211 212 213 214