Основы анализа данных в Python: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 32: Строка 32:
 
== Материалы курса ==
 
== Материалы курса ==
  
=== Неделя 1. Шкалы данных. Описание данных. ===
+
=== Неделя 1. Шкалы данных. Описание данных ===
  
 
* Шкалы данных ([https://disk.yandex.ru/i/I3A_RUQdVoguvw слайды]).
 
* Шкалы данных ([https://disk.yandex.ru/i/I3A_RUQdVoguvw слайды]).
Строка 44: Строка 44:
 
* Последовательности: строки, списки, массивы Numpy ([https://github.com/allatambov/QuantDat24/blob/main/qd-02-lists-arrays.ipynb qd-02-lists-arrays.ipynb]).
 
* Последовательности: строки, списки, массивы Numpy ([https://github.com/allatambov/QuantDat24/blob/main/qd-02-lists-arrays.ipynb qd-02-lists-arrays.ipynb]).
  
=== Неделя 2. Обработка и описание данных. ===
+
=== Неделя 2. Обработка и описание данных ===
  
 
* Практикум 2. Датафреймы pandas: часть 1 ([https://github.com/allatambov/PyDat24/blob/main/w02-practice-01.ipynb w02-practice-01.ipynb]), решения ([https://github.com/allatambov/PyDat24/blob/main/w02-practice-01-solutions.ipynb w02-practice-01-solutions.ipynb]), файл ([https://github.com/allatambov/PyDat24/blob/main/beasts.csv beasts.csv]).
 
* Практикум 2. Датафреймы pandas: часть 1 ([https://github.com/allatambov/PyDat24/blob/main/w02-practice-01.ipynb w02-practice-01.ipynb]), решения ([https://github.com/allatambov/PyDat24/blob/main/w02-practice-01-solutions.ipynb w02-practice-01-solutions.ipynb]), файл ([https://github.com/allatambov/PyDat24/blob/main/beasts.csv beasts.csv]).
Строка 51: Строка 51:
 
* Необязательное домашнее задание №2 ([https://github.com/allatambov/PyDat24/blob/main/hw02.ipynb hw02.ipynb], [https://github.com/allatambov/PyDat24/blob/main/stars.csv stars.csv]), решения ([https://github.com/allatambov/PyDat24/blob/main/hw02-solved.ipynb hw02-solved.ipynb]).
 
* Необязательное домашнее задание №2 ([https://github.com/allatambov/PyDat24/blob/main/hw02.ipynb hw02.ipynb], [https://github.com/allatambov/PyDat24/blob/main/stars.csv stars.csv]), решения ([https://github.com/allatambov/PyDat24/blob/main/hw02-solved.ipynb hw02-solved.ipynb]).
  
=== Неделя 3. Визуализация данных: часть 1. ===
+
=== Неделя 3. Визуализация данных: часть 1 ===
  
 
* Практикум 4. Визуализация данных: часть 1 ([https://github.com/allatambov/PyDat24/blob/main/w03-practice.ipynb w03-practice.ipynb]), файл [https://github.com/allatambov/PyDat24/blob/main/news.xlsx news.xlsx], решения ([https://github.com/allatambov/PyDat24/blob/main/w03-practice-solutions.ipynb w03-practice-solutions.ipynb]).
 
* Практикум 4. Визуализация данных: часть 1 ([https://github.com/allatambov/PyDat24/blob/main/w03-practice.ipynb w03-practice.ipynb]), файл [https://github.com/allatambov/PyDat24/blob/main/news.xlsx news.xlsx], решения ([https://github.com/allatambov/PyDat24/blob/main/w03-practice-solutions.ipynb w03-practice-solutions.ipynb]).
 
* [https://matplotlib.org/stable/gallery/color/named_colors.html Цвета] в matplotlib, пример [https://htmlcolors.com/google-color-picker палитры] для выбора цветов.
 
* [https://matplotlib.org/stable/gallery/color/named_colors.html Цвета] в matplotlib, пример [https://htmlcolors.com/google-color-picker палитры] для выбора цветов.
  
=== Неделя 4. Визуализация данных: часть 2. ===
+
=== Неделя 4. Визуализация данных: часть 2 ===
  
* Практикум 5. Визуализация данных: часть 2 ([https://github.com/allatambov/PyDat24/blob/main/w04-practice.ipynb w04-practice.ipynb]), [https://disk.yandex.ru/i/wS00RET-3qMxtA файл] для работы.
+
В практикуме очень много дополнительного кода, необходимый минимум из графики – построение <br>простой круговой диаграммы через plot.pie(),
 +
остальное – для жизни (у кого жизнь без данных невозможна).
 +
 
 +
* Практикум 5. Визуализация данных: часть 2 ([https://github.com/allatambov/PyDat24/blob/main/w04-practice.ipynb w04-practice.ipynb]), [https://disk.yandex.ru/i/wS00RET-3qMxtA файл] для работы, решения ([https://github.com/allatambov/PyDat24/blob/main/w04-practice-solutions.ipynb w04-practice-solutions.ipynb]).
 
* Готовые палитры с наборами цветов: [https://coolors.co/ coolors.co], [https://colorhunt.co/ colorhunt.co].
 
* Готовые палитры с наборами цветов: [https://coolors.co/ coolors.co], [https://colorhunt.co/ colorhunt.co].
 
* Случайные величины и нормальное распределение ([https://disk.yandex.ru/i/U6O0B4mIRmQuHg слайды], самостоятельное изучение).
 
* Случайные величины и нормальное распределение ([https://disk.yandex.ru/i/U6O0B4mIRmQuHg слайды], самостоятельное изучение).

Версия 21:52, 29 ноября 2024

Дорогие студенты!

Это страница курса «Основы анализа данных в Python», читаемого во 2 модуле 2024-2025 учебного года на ОП «Политология».

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры

  • Программа курса, организационная презентация.
  • Формула оценки: 0.25 * Тесты + 0.25 * Практикум + 0.5 * Экзамен.
  • Цель курса – подготовка к независимому экзамену по анализу данных. Демоверсию экзамена и тренировочные варианты
    можно найти здесь в разделе Материалы для подготовкиАнализ данных. Базовый уровень (запись на курс в SmartLMS).
  • Курс включает темы, пройденные ранее в рамках обязательных курсов по ТВиМС и регрессионному анализу, поэтому теория
    изучается (=повторяется) самостоятельно по предложенным материалам и в рамках онлайн-курса «Сбор и анализ данных в Python».

Программное обеспечение

В рамках этого курса мы будем использовать язык Python и среду разработки Jupyter Notebook.
Также есть возможность работать в аналоге Jupyter Notebook онлайн, используя ресурс Google Colab
(для создания и редактирования файлов нужен аккаунт Gmail).

NB. На независимом экзамене не разрешается использовать облачные ресурсы, включая Google Colab.

Если у вас ничего не установлено или вы успели «удалить весь Python», перед занятиями необходимо
установить дистрибутив Anaconda (скачать можно здесь, регистрацию можно пропустить), который
включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации
данных, а также среду для работы Jupyter Notebook.

Материалы по работе в Jupyter Notebook и Google Colab:

Дополнительно для желающих:

Материалы курса

Неделя 1. Шкалы данных. Описание данных

Дополнительно:

Неделя 2. Обработка и описание данных

Неделя 3. Визуализация данных: часть 1

Неделя 4. Визуализация данных: часть 2

В практикуме очень много дополнительного кода, необходимый минимум из графики – построение
простой круговой диаграммы через plot.pie(), остальное – для жизни (у кого жизнь без данных невозможна).

Learning outcomes

Неделя Теория Практика
№ 1 уметь определять шкалы данных; знать, что такое выборочная медиана и квартили, дисперсия и стандартное отклонение; знать особенности среднего и медианы и уметь делать предположения о наличии потенциально нехарактерных значений в выборке уметь импортировать библиотеки, уметь создавать массивы Numpy на основе списков, уметь выполнять фильтрацию значений массивов, уметь считать объем, среднее и стандартное отклонение выборки, сохраненной в массив
№ 2 уметь выбирать подходящий тип графика для визуализации распределения данных в разных шкалах; понимать смысл и принцип построения гистограммы; уметь по гистограмме определять скошенность распределения (вправо/влево); знать, каким образом соотносятся между собой медиана, среднее, мода при разных типах скошенности уметь загружать данные из CSV-файлов в датафреймы pandas; уметь выполнять фильтрацию строк датафрейма; уметь создавать новые столбцы датафрейма на основе старых; уметь применять методы pandas для вычисления описательных статистик и таблиц частот; уметь выполнять простую сортировку и группировку данных; уметь определять количество пропущенных значений и заполнять пропуски фиксированным значением
№ 3-4 см. выше, уметь различать гистограмму и столбиковую диаграмму, знать понятие случайной величины, знать особенности нормального распределения и правило трех сигм, уметь по графику плотности нормальной случайной величины оценивать вероятности попадания в интервал уметь (любым способом) строить гистограмму, столбиковую диаграмму и круговую диаграмму

К независимому экзамену

  • Демоверсия НЭ (ML – темы, относящиеся к машинному обучению, ML* – темы, которые не были затронуты в обязательных курсах).
  • Разбор заданий на визуализацию (№1-2 и №8-9): ссылка.

Дополнительные занятия

13 ноября. Краткий обзор парадигм программирования. Введение в ООП

  • Записи занятия и сырой ipynb-файл (ссылка).
  • Конспекты будут позже.

20 ноября. Классы: продолжение

  • Записи занятия и сырой ipynb-файл (ссылка).
  • Конспекты будут позже.

27 ноября. Обработка данных, группировка и визуализация: часть 1

  • Записи занятия и сырой ipynb-файл (ссылка).
  • Обработка данных, группировка и визуализация: часть 1 (конспект в ipynb), файл Excel.