Основы анализа данных в Python: различия между версиями
Строка 53: | Строка 53: | ||
* '''Лекция 3.''' Визуализация данных ([https://www.dropbox.com/scl/fi/5eh1oj2d2qmq3hm4gbjoa/03.pdf?rlkey=7w8b5en3ia9ej2c6vmaplfho6&dl=0 слайды]). | * '''Лекция 3.''' Визуализация данных ([https://www.dropbox.com/scl/fi/5eh1oj2d2qmq3hm4gbjoa/03.pdf?rlkey=7w8b5en3ia9ej2c6vmaplfho6&dl=0 слайды]). | ||
− | * '''Практикум 3.1.''' Обработка пропущенных значений и визуализация количественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-01.ipynb читать], [https://www.dropbox.com/scl/fi/x9rhm4g775r7i1a76fm3m/practice03-01.ipynb?rlkey=rj3yw7k8z0o1jczhjzind5d7z&dl=0 ipynb]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-01-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/zt1r7pn2cwadv8rw4hgvh/practice03-01-solutions.ipynb?rlkey=ijxbzk08lgkx71x33bu3sgn1e&dl=0 ipynb]). | + | * '''Практикум 3.1.''' Обработка пропущенных значений и визуализация количественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-01.ipynb читать], [https://www.dropbox.com/scl/fi/x9rhm4g775r7i1a76fm3m/practice03-01.ipynb?rlkey=rj3yw7k8z0o1jczhjzind5d7z&dl=0 ipynb], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-01-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/zt1r7pn2cwadv8rw4hgvh/practice03-01-solutions.ipynb?rlkey=ijxbzk08lgkx71x33bu3sgn1e&dl=0 ipynb]). |
* '''Практикум 3.2.''' Обработка опросных данных и визуализация качественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-02.ipynb читать], [https://www.dropbox.com/scl/fi/bpecuwss0yywr62zey2qf/practice03-02.ipynb?rlkey=zga897wv5j7ghxa8cabnlei90&dl=0 ipynb], [https://www.dropbox.com/scl/fi/tftzco67gjiz4wlei7i8p/NPK_fin.xlsx?rlkey=usvswu06saee7jafywch2fh3o&dl=0 NPK_fin.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-02-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/ipcrw9mtriixmy40rs6tk/practice03-02-solutions.ipynb?rlkey=rwkytwr8elyrjspsx16efiesz&dl=0 ipynb]). | * '''Практикум 3.2.''' Обработка опросных данных и визуализация качественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-02.ipynb читать], [https://www.dropbox.com/scl/fi/bpecuwss0yywr62zey2qf/practice03-02.ipynb?rlkey=zga897wv5j7ghxa8cabnlei90&dl=0 ipynb], [https://www.dropbox.com/scl/fi/tftzco67gjiz4wlei7i8p/NPK_fin.xlsx?rlkey=usvswu06saee7jafywch2fh3o&dl=0 NPK_fin.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-02-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/ipcrw9mtriixmy40rs6tk/practice03-02-solutions.ipynb?rlkey=rwkytwr8elyrjspsx16efiesz&dl=0 ipynb]). | ||
* Опрос: [https://forms.gle/36XGihVhVmqPMLWE8 ссылка]. | * Опрос: [https://forms.gle/36XGihVhVmqPMLWE8 ссылка]. |
Версия 02:00, 6 ноября 2023
Дорогие студенты!
Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.
Преподаватель: Тамбовцева Алла Андреевна.
Содержание
Правила игры и план курса
- Программа курса, организационная презентация.
- Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
- Подробный план курса, с примерными датами.
- Сопровождающий онлайн-курс «Сбор и анализ данных в Python».
Программное обеспечение
Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).
Установка Anaconda и запуск Jupyter Notebook:
- Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
- Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
- Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
- Набор текста в Jupyter (видео, ipynb).
Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.
Материалы
Введение в выборочные обследования
Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок.
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).
- Лекция 1. Введение в выборочные обследования (слайды, ipynb с примерами, файл students.csv).
- Практикум 1. Модуль random. Обработка данных с pandas (читать, ipynb, beasts.csv), решения (читать, ipynb).
Дополнительно:
- Массивы NumPy и датафреймы Pandas (читать).
- Основные операции с датафреймами Pandas (читать, Salaries.csv)
Описание данных
Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики.
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.
- Лекция 2. Описательные статистики (слайды).
- Практикум 2. Описательные статистики, группировка и агрегирование в pandas (читать, ipynb, c.xlsx), решения (читать, ipynb).
Визуализация данных
Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.
- Лекция 3. Визуализация данных (слайды).
- Практикум 3.1. Обработка пропущенных значений и визуализация количественных данных (читать, ipynb, c.xlsx), решения (читать, ipynb).
- Практикум 3.2. Обработка опросных данных и визуализация качественных данных (читать, ipynb, NPK_fin.xlsx), решения (читать, ipynb).
- Опрос: ссылка.
Выборочное оценивание
Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего.
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.
- Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
Проверка статистических гипотез
Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость.
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.
- Лекция 5. Проверка статистических гипотез (слайды).
- Практикум 4. Доверительные интервалы в Python (читать, ipynb, c.xlsx).
- Практикум 5. Проверка гипотез в Python (читать, ipynb).
Поиск связей в данных
- Лекция 6. Поиск связей в данных (слайды).
- Практикум 6. Поиск связей в данных: введение (читать, ipynb, TaskB4.xlsx, c.xlsx).
Домашние задания
Домашнее задание | Файлы | Дедлайн | Сдача |
---|---|---|---|
Домашнее задание 1 | ipynb owls.csv | 08.10 23:59 | ссылка на Dropbox |
Домашнее задание 2 | ipynb hp_upd.csv | 10.11 23:59 | Dropbox: 211 212 213 214 |
Домашнее задание 3 | 17.11 23:59 | Dropbox: 211 212 213 214 | |
Домашнее задание 4 | 03.12 23:59 | Dropbox: 211 212 213 214 | |
Домашнее задание 5 | 10.12 23:59 | Dropbox: 211 212 213 214 | |
Домашнее задание 6 | 20.12 23:59 | Dropbox: 211 212 213 214 |