Основы анализа данных в Python: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 40: Строка 40:
  
 
=== Описание данных ===
 
=== Описание данных ===
 +
 +
Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики. <br>
 +
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.
  
 
* '''Лекция 2.'''  Описательные статистики ([https://www.dropbox.com/scl/fi/uyt9t4f0jdzkhoz36zey5/02.pdf?rlkey=ef3lkwzxgnws9c81z3ijnw38u&dl=0 слайды]).
 
* '''Лекция 2.'''  Описательные статистики ([https://www.dropbox.com/scl/fi/uyt9t4f0jdzkhoz36zey5/02.pdf?rlkey=ef3lkwzxgnws9c81z3ijnw38u&dl=0 слайды]).
Строка 45: Строка 48:
  
 
=== Визуализация данных ===
 
=== Визуализация данных ===
 +
 +
Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.  <br>
 +
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.
  
 
* '''Лекция 3.'''  Визуализация данных ([https://www.dropbox.com/scl/fi/5eh1oj2d2qmq3hm4gbjoa/03.pdf?rlkey=7w8b5en3ia9ej2c6vmaplfho6&dl=0 слайды]).
 
* '''Лекция 3.'''  Визуализация данных ([https://www.dropbox.com/scl/fi/5eh1oj2d2qmq3hm4gbjoa/03.pdf?rlkey=7w8b5en3ia9ej2c6vmaplfho6&dl=0 слайды]).
Строка 50: Строка 56:
 
* '''Практикум 3.2.'''  Обработка опросных данных и визуализация качественных данных ([https://www.dropbox.com/scl/fi/bpecuwss0yywr62zey2qf/practice03-02.ipynb?rlkey=zga897wv5j7ghxa8cabnlei90&dl=0 ipynb], [https://www.dropbox.com/scl/fi/tftzco67gjiz4wlei7i8p/NPK_fin.xlsx?rlkey=usvswu06saee7jafywch2fh3o&dl=0 NPK_fin.xlsx]).
 
* '''Практикум 3.2.'''  Обработка опросных данных и визуализация качественных данных ([https://www.dropbox.com/scl/fi/bpecuwss0yywr62zey2qf/practice03-02.ipynb?rlkey=zga897wv5j7ghxa8cabnlei90&dl=0 ipynb], [https://www.dropbox.com/scl/fi/tftzco67gjiz4wlei7i8p/NPK_fin.xlsx?rlkey=usvswu06saee7jafywch2fh3o&dl=0 NPK_fin.xlsx]).
 
* Опрос: [https://forms.gle/36XGihVhVmqPMLWE8 ссылка].
 
* Опрос: [https://forms.gle/36XGihVhVmqPMLWE8 ссылка].
 +
 +
=== Выборочное оценивание ===
 +
 +
Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего. <br>
 +
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.
 +
 +
* '''Лекция 4.''' Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
 +
 +
=== Проверка статистических гипотез ===
 +
 +
Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость. <br>
 +
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.
 +
 +
* '''Лекция 5.''' Проверка статистических гипотез (слайды).
  
 
=== Домашние задания ===
 
=== Домашние задания ===

Версия 15:26, 19 октября 2023

Дорогие студенты!

Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры и план курса

  • Программа курса, организационная презентация.
  • Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
  • Подробный план курса, с примерными датами.
  • Сопровождающий онлайн-курс «Сбор и анализ данных в Python».

Программное обеспечение

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Установка Anaconda и запуск Jupyter Notebook:

  • Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
  • Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
  • Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
  • Набор текста в Jupyter (видео, ipynb).

Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.

Материалы

Введение в выборочные обследования

Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок.
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).

  • Лекция 1. Введение в выборочные обследования (слайды, ipynb с примерами, файл students.csv).
  • Практикум 1. Модуль random. Обработка данных с pandas (ipynb, beasts.csv), решения (ipynb).

Дополнительно:

Описание данных

Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики.
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.

  • Лекция 2. Описательные статистики (слайды).
  • Практикум 2. Описательные статистики, группировка и агрегирование в pandas (ipynb, c.xlsx), решения (ipynb).

Визуализация данных

Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.

  • Лекция 3. Визуализация данных (слайды).
  • Практикум 3.1. Обработка пропущенных значений и визуализация количественных данных (ipynb).
  • Практикум 3.2. Обработка опросных данных и визуализация качественных данных (ipynb, NPK_fin.xlsx).
  • Опрос: ссылка.

Выборочное оценивание

Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего.
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.

  • Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).

Проверка статистических гипотез

Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость.
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.

  • Лекция 5. Проверка статистических гипотез (слайды).

Домашние задания

Домашнее задание Файлы Дедлайн Сдача
Домашнее задание 1 ipynb owls.csv 08.10 23:59 ссылка на Dropbox
Домашнее задание 2
Домашнее задание 3
Домашнее задание 4
Домашнее задание 5
Домашнее задание 6
Домашнее задание 7