Python для сбора и анализа данных: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показана 1 промежуточная версия этого же участника)
Строка 30: Строка 30:
 
=== Переменные и типы данных в Python. Ввод и вывод (8 или 11 февраля) ===  
 
=== Переменные и типы данных в Python. Ввод и вывод (8 или 11 февраля) ===  
  
* Видеозапись занятия: [https://www.dropbox.com/s/5trjrffbpztoqxr/class01-group01.mp4?dl=0 вторник], [https://www.dropbox.com/s/zscewq3djqvrwop/class01-group02.mp4?dl=0 пятница]. ''Just wait, планирую разбить каждое видео на 2 части – пара до перерыва и после''.
+
* Видеозапись занятия: [https://www.dropbox.com/s/5trjrffbpztoqxr/class01-group01.mp4?dl=0 вторник], [https://www.dropbox.com/s/zscewq3djqvrwop/class01-group02.mp4?dl=0 пятница].  
 
* Вычисления и переменные в Python ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/intro-variables.ipynb смотреть], [http://allatambov.github.io/icef/seminars/intro-variables.ipynb скачать]). Типы переменных, ввод и вывод в Python ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/intro-types.ipynb смотреть], [http://allatambov.github.io/icef/seminars/intro-types.ipynb скачать]).  
 
* Вычисления и переменные в Python ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/intro-variables.ipynb смотреть], [http://allatambov.github.io/icef/seminars/intro-variables.ipynb скачать]). Типы переменных, ввод и вывод в Python ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/intro-types.ipynb смотреть], [http://allatambov.github.io/icef/seminars/intro-types.ipynb скачать]).  
 
* Форматирование строк ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/pydj/seminars/str-formating.ipynb смотреть], [https://allatambov.github.io/pydj/seminars/str-formating.ipynb скачать]).  
 
* Форматирование строк ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/pydj/seminars/str-formating.ipynb смотреть], [https://allatambov.github.io/pydj/seminars/str-formating.ipynb скачать]).  
Строка 187: Строка 187:
 
* [https://allatambov.github.io/icef/icef-project.pdf Описание] проекта и критерии оценивания.
 
* [https://allatambov.github.io/icef/icef-project.pdf Описание] проекта и критерии оценивания.
 
* Проект можно выполнять как на русском, так и на английском языке. Для того, чтобы получить высокие баллы за проект (оценки 9-10), в проекте необходимо использовать продвинутые инструменты/библиотеки, не обсуждаемые подробно в рамках курса.  
 
* Проект можно выполнять как на русском, так и на английском языке. Для того, чтобы получить высокие баллы за проект (оценки 9-10), в проекте необходимо использовать продвинутые инструменты/библиотеки, не обсуждаемые подробно в рамках курса.  
* Проект необходимо загрузить на [https://www.dropbox.com/request/UIrB1HUgUiBhACAmNCUG Dropbox] до 16 мая 23:59, дедлайн жёсткий. Файл с кодом, файл с документацией и вспомогательные файлы (при наличии) лучше загружать в виде zip-архива.
+
* Проект необходимо загрузить на [https://www.dropbox.com/request/UIrB1HUgUiBhACAmNCUG Dropbox] до 19 мая 18:00, дедлайн жёсткий. Файл с кодом, файл с документацией и вспомогательные файлы (при наличии) лучше загружать в виде zip-архива.

Текущая версия на 14:33, 4 сентября 2022

Это страница факультатива «Python для сбора и анализа данных», читаемого в МИЭФ в 2021/2022 учебном году.

Авторы курса: Щуров Илья Валерьевич, Тамбовцева Алла Андреевна.

Лекции и семинары ведет: Тамбовцева Алла Андреевна.

Содержание

Правила игры

  • Формула оценки: 0.4 * ДЗ + 0.2 * Онлайн + 0.4 * Проект.
  • Сдача домашних заданий с опозданием допускается, но со штрафом: за задержку в пределах часа – 15% от полученной оценки, в пределах суток – 30%, в пределах двух дней – 50%.
  • Курс читается с использованием онлайн-курсов на платформе DataCamp. Бесплатный доступ к платформе студентам предоставляется.
  • Ведомость по курсу: таблица.

Программное обеспечение

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail). Но в долгосрочной перспективе предпочтительнее установить Anaconda.

Материалы занятий

Презентация факультатива и знакомство с Jupyter Notebook (1 февраля)

Дополнительно:

Переменные и типы данных в Python. Ввод и вывод (8 или 11 февраля)

Дополнительно:

Списки и цикл for. Методы на строках. (15 или 18 февраля)

Дополнительно:

Генераторы списков. Условные конструкции и цикл while. (22 или 25 февраля)

Дополнительно:

Кортежи и словари. Работа с файлами. Формат JSON. (1 и 4 марта)

Функции. Введение в парсинг HTML-файлов. (9 и 11 марта)

Дополнительно:

Парсинг HTML-файлов. (15 и 18 марта)

Управление браузером с помощью Selenium. Знакомство с API. (22 и 25 марта)

Работа с API на примере ВКонтакте. Массивы NumPy и датафреймы pandas. (5 и 8 апреля)

Дополнительно:

Датафреймы pandas. Визуализация с библиотекой seaborn. (12 и 15 апреля)

Интерактивные визуализации с библиотеками plotly и dash. (22 апреля)

Дополнительные темы. Классы. Регулярные выражения. (26 апреля)

Дополнительные материалы

Библиотека SymPy для символьных вычислений

Введение в SymPy: часть 1 (sympy-1.ipynb), часть 2 (sympy-2.ipynb), задачи (sympy-problems.ipynb). Официальная документация SymPy.

Работа с текстом в Python

Библиотека pymorphy2 (морфологический анализатор). Библиотека pymystem3 (предобработка текста). Тьюториал для построения облака слов.

Статистика и анализ данных в Python

Материалы по статистическим тестам и линейным регрессиям в Python.

Домашние задания

  • Домашние задания типа online выполняются на платформе DataCamp.
  • Обычные домашние задания сдаются в системе python.math-hse.info. Познакомиться с системой можно на примере домашнего задания №0.
  • Домашнее задание 4 – дополнительное. Оценка за ДЗ рассчитывается по домашним заданиям 1-3. Но если какое-то из них не сдано, можно сдать домашнее задание 4 и тем самым скомпенсировать полученный 0.
Домашнее задание Ссылка Дедлайн
Online 1 DataCamp: глава Python Lists 17.02 23:59
Домашнее задание 1 MathInfo: задания hw01 02.03. 23:59
Online 2 DataCamp: глава Writing your own functions 16.03 23:59
Online 3 DataCamp: глава Default arguments, variable-length arguments and scope 16.03 23:59
Домашнее задание 2 MathInfo: задания hw02 05.04 10:00
Online 4 DataCamp: глава NumPy 07.04 23:59
Домашнее задание 3 MathInfo: задания hw03 26.04 23:59
Online 5 DataCamp: глава Aggregating DataFrames 14.04 23:59
Online 6 DataCamp: глава Slicing and Indexing DataFrames 14.04 23:59
Online 7 DataCamp: глава Introduction to Data Reshaping 21.04 23:59
Online 8 DataCamp: глава Converting Between Wide and Long Format 21.04 23:59
Домашнее задание 4* задания hw04, файл polit.csv, сдавать через Dropbox 12.05 23:59
Online 9 DataCamp: глава Stacking and Unstacking DataFrames 28.04 23:59
Online 10 DataCamp: глава Advanced Reshaping 28.04 23:59

Проект

  • Описание проекта и критерии оценивания.
  • Проект можно выполнять как на русском, так и на английском языке. Для того, чтобы получить высокие баллы за проект (оценки 9-10), в проекте необходимо использовать продвинутые инструменты/библиотеки, не обсуждаемые подробно в рамках курса.
  • Проект необходимо загрузить на Dropbox до 19 мая 18:00, дедлайн жёсткий. Файл с кодом, файл с документацией и вспомогательные файлы (при наличии) лучше загружать в виде zip-архива.