Основы анализа данных в Python: различия между версиями

Версия 10:27, 1 декабря 2023

Дорогие студенты!

Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры и план курса

Программа курса, организационная презентация.
Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
Подробный план курса, с примерными датами.
Сопровождающий онлайн-курс «Сбор и анализ данных в Python».

Программное обеспечение

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Установка Anaconda и запуск Jupyter Notebook:

Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
Набор текста в Jupyter (видео, ipynb).

Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.

Материалы

Введение в выборочные обследования

Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок.
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).

Лекция 1. Введение в выборочные обследования (слайды, ipynb с примерами, файл students.csv).
Практикум 1. Модуль random. Обработка данных с pandas (читать, ipynb, beasts.csv), решения (читать, ipynb).

Дополнительно:

Массивы NumPy и датафреймы Pandas (читать).
Основные операции с датафреймами Pandas (читать, Salaries.csv)

Описание данных

Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики.
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.

Лекция 2. Описательные статистики (слайды).
Практикум 2. Описательные статистики, группировка и агрегирование в pandas (читать, ipynb, c.xlsx), решения (читать, ipynb).

Визуализация данных

Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.

Лекция 3. Визуализация данных (слайды).
Практикум 3.1. Обработка пропущенных значений и визуализация количественных данных (читать, ipynb, c.xlsx), решения (читать, ipynb).
Практикум 3.2. Обработка опросных данных и визуализация качественных данных (читать, ipynb, NPK_fin.xlsx), решения (читать, ipynb).
Опрос: ссылка.

Выборочное оценивание

Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего.
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.

Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
Иллюстрация действия статистических законов (читать, ipynb).

Дополнительно:

Вычисление числовых характеристик случайных величин и вероятностей с scipy.stats (читать, ipynb).

Проверка статистических гипотез

Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость.
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.

Лекция 5. Проверка статистических гипотез (слайды).
Практикум 4. Доверительные интервалы в Python (читать, ipynb, c.xlsx), решения (читать, ipynb).
Практикум 5. Проверка гипотез в Python (читать, ipynb), решения (читать, ipynb).

Поиск связей в данных

Оценка связи между двумя признаками в количественной шкале: коэффициенты корреляции Пирсона и Спирмена.
Оценка связи между двумя признаками в качественной шкале: таблицы сопряженности и хи-квадрат критерий согласия Пирсона.

Лекция 6. Поиск связей в данных (слайды).
Практикум 6. Поиск связей в данных: введение (читать, ipynb, TaskB4.xlsx, c.xlsx), решения (читать, ipynb).
Практикум 7. Повторение (Netflix.csv, читать, ipynb).

Введение в машинное обучение

Лекция 7.1 Задачи машинного обучения.
Лекция 7.2 Знакомство с методом k-ближайших соседей.
Практикум 7. Часть 1: работаем с изображениями (данные). Часть 2: работаем с данными (данные).

Домашние задания

Домашнее задание	Файлы	Дедлайн	Сдача
Домашнее задание 1	ipynb owls.csv	08.10 23:59	ссылка на Dropbox
Домашнее задание 2	ipynb hp_upd.csv	10.11 23:59	Dropbox: 211 212 213 214
Домашнее задание 3	ipynb order_details.csv orders.csv	20.11 23:59	Dropbox: 211 212 213 214
Домашнее задание 4		03.12 23:59	Dropbox: 211 212 213 214
Домашнее задание 5		10.12 23:59	Dropbox: 211 212 213 214
Домашнее задание 6		20.12 23:59	Dropbox: 211 212 213 214

КР

Ссылка на практическую часть: документ

@@ Строка 91: / Строка 91: @@
 * '''Лекция 7.1''' Задачи машинного обучения.
 * '''Лекция 7.2''' Знакомство с методом k-ближайших соседей.
-* '''Практикум 7'''. Часть 1: работаем с изображениями (https://www.dropbox.com/scl/fo/v4ugdpn7qg3qvc9xe70dv/h?rlkey=idw5svfv0kcfv2oi4wgqm52ev&dl=0 данные). Часть 2: работаем с данными ([https://www.dropbox.com/scl/fo/09bis16gbhakl3s9zb8ca/h?rlkey=0pvi72hizqjddv2xqzpoh9c8b&dl=0 данные]).
+* '''Практикум 7'''. Часть 1: работаем с изображениями ([https://www.dropbox.com/scl/fo/v4ugdpn7qg3qvc9xe70dv/h?rlkey=idw5svfv0kcfv2oi4wgqm52ev&dl=0 данные]). Часть 2: работаем с данными ([https://www.dropbox.com/scl/fo/09bis16gbhakl3s9zb8ca/h?rlkey=0pvi72hizqjddv2xqzpoh9c8b&dl=0 данные]).
 === Домашние задания ===

Основы анализа данных в Python: различия между версиями

Версия 10:27, 1 декабря 2023

Содержание

Правила игры и план курса

Программное обеспечение

Материалы

Введение в выборочные обследования

Описание данных

Визуализация данных

Выборочное оценивание

Проверка статистических гипотез

Поиск связей в данных

Введение в машинное обучение

Домашние задания

КР

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Заглавная

Школа лингвистики

Политология

Вычислительные социальные науки

Факультет креативных индустрий

ОП социология

ОП Психология

МИЭФ

Архив

Инструменты