Открытые данные
Официальное название курса: «Статистика».
Курс ведёт Илья Щуров.
Содержание
- 1 Инструменты
- 2 Материалы
- 2.1 Занятие 1: Первое знакомство. Списки
- 2.2 Занятие 2: Цикл for
- 2.3 Занятие 3: Ввод-вывод списков, проверка условий, цикл while
- 2.4 Занятие 4: Коварство списков. Функции. Списковые включения
- 2.5 Занятие 5: Сортировка и словари
- 2.6 Занятия 6-7: JSON и API
- 2.7 Занятия 8-9: Парсинг веб-сайтов и XML
- 2.8 Занятие 10: numpy и картинки
- 2.9 Занятие 11-12: pandas, seaborn и немножко математики
- 2.10 Занятие 13: pandas, мультииндексы и немного о погоде
- 2.11 Занятие 14: источники данных в pandas
- 2.12 Занятие 15: регулярные выражения
- 3 Домашние задания
- 4 Данные
- 5 Дополнительные материалы
- 6 Сноски
Инструменты
Python
Мы используем Python версии 3 и оболочку Jupyter (ранее известную как IPython Notebook). Чтобы их установить, проще всего скачать пакет Anaconda. Обратите внимание: вам нужна версия с Python 3.x.
После установки Anaconda у вас появится:
- Под Windows: в меню «Пуск» пункт «Anaconda», в нём подпункт «IPython Notebook».
- Под Mac OS X: приложение Anaconda Launcher, в нём пункт ipython-notebook.
После запуска IPython Notebook у вас откроется окно браузера (и лучше пусть это будет не Internet Explorer, под ним IPython Notebook работает с некоторым скриптом, а иногда не работает) со списком файлов. В нём надо выбрать New → Python 3. Откроется новая вкладка браузера, в ней будет запущен пустой notebook, состоящий из отдельных ячеек (cells). В ячейку с кодом можно вписать код и нажать Shift+Enter — он выполнится и вам покажут тут же результат.
Для установки дополнительных пакетов вам необходимо открыть консоль (это может быть Anaconda Prompt под Windows или стандартный «Терминал» под Mac OS или Linux) и набрать команду conda install <название пакета>
или pip install <название пакета>
(например, conda install seaborn
).
Вы можете также запустить Jupyter онлайн здесь, но данные там не сохранятся и возможности будут ограничены.
Работа с ipynb-файлами
Мы выкладываем материалы курса в виде ipynb-файлов. По ссылкам ниже вы можете просмотреть эти файлы. Если вы хотите открыть этот файл у себя, то вам необходимо скачать его (нажав на иконку в правом верхнем углу страницы с лекцией) и положить в каталог, из которого Jupyter открывает ноутбуки: например, воспользовавшись кнопкой Upload в самом Jupyter (на экране со списком файлов). Также этот каталог можно найти по строчке Serving notebooks from local directory: /home/user/IPython
, появляющейся в чёрненьком окошке при запуске Jupyter; здесь /home/user/IPython
— искомый путь.
Материалы
Занятие 1: Первое знакомство. Списки
- Первое знакомство: конспект, видео.
- Дополнение: PT арифметические операции, целые и вещественные числа.
Занятие 2: Цикл for
Занятие 3: Ввод-вывод списков, проверка условий, цикл while
- Ввод-вывод списков, проверка условий, цикл
while
: конспект, видео- Дополнение: PT split и join, if, while
Занятие 4: Коварство списков. Функции. Списковые включения
- Списковые включения (list comprehensions): конспект видео
- Дополнение: PT списковые включения[1]]
Занятие 5: Сортировка и словари
- Сортировка: конспект, видео
- Дополнение: Sorting howto (англ.)
Занятия 6-7: JSON и API
- JSON и API: конспекты ещё один пример.
Занятия 8-9: Парсинг веб-сайтов и XML
- Извлечение данных из веб-страниц с помощью BeautifulSoup и requests: конспект, видео
- Оригинальная документация (англ.): requests BeautifulSoup.
- Управление браузером в RoboBrowser и Selenium: конспект, видео
- Оригинальная документация (англ.): RoboBrowser, неофициальная документация по Python-Selenium (её проще читать, чем официальную).
Занятие 10: numpy и картинки
Занятие 11-12: pandas, seaborn и немножко математики
- pandas и датафреймы: сырой конспект занятия, подробный конспект похожего занятия, видео
- Дополнительные материалы:
- Официальная документация
pandas
: 10-минутное введение (обзор возможностей), pandas cookbook, индексация и выбор данных (подробно), seaborn. - О математике в Python: обзор возможностей и примеры.
- Официальная документация
- Для установки пакета
seaborn
нужно в командной строке (cmd.exe
под Windows,Terminal
под Mac OS) набратьpip install seaborn
, либо исползовать функцию установки пакетов в Anaconda Navigator.
Занятие 13: pandas, мультииндексы и немного о погоде
- Официальная документация
pandas
: Мультииндексы
Занятие 14: источники данных в pandas
- сырой конспект занятия, подробный конспект похожего занятия (нужно заменить
pandas.io
наpandas_datareader
, предварительно установив пакетpandas_datareader
).
Занятие 15: регулярные выражения
Домашние задания
- ДЗ№1.
- ДЗ№2.
- ДЗ№3.
- ДЗ№4.
- ДЗ№5.
Данные
Дополнительные материалы
- Pythontutor.ru: хороший базовый учебник по Python, с интерактивными примерами и задачами. Там же есть визуализатор, позволяющий запускать произвольный код «построчно» и смотреть, что происходит. Очень полезный инструмент для отладки. См. также оригинальную версию визуализатора (разработчик Philip Guo).
- CodingBat: разные упражнения с автоматической проверкой.
- 2015-16:Программирование на языке Python для сбора и анализа данных]: расширенная версия этого курса.
- Официальная документация по Python 3.
- Кратчайшее введение в Python для математики — шпаргалка по Python с математическим уклоном.
- Серия докладов про скраппинг данных (как скачать все сайты и не быть заблокированным по IP).
Сноски
- ↑ PT использует термин «генераторы списков» вместо «списковые включения»