Открытые данные

Материал из MathINFO
Версия от 02:30, 8 февраля 2020; Alena Manuzina (обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к навигации Перейти к поиску

Официальное название курса: «Статистика».

Курс ведёт Илья Щуров.

Инструменты

Python

Мы используем Python версии 3 и оболочку Jupyter (ранее известную как IPython Notebook). Чтобы их установить, проще всего скачать пакет Anaconda. Обратите внимание: вам нужна версия с Python 3.x.

После установки Anaconda у вас появится:

  • Под Windows: в меню «Пуск» пункт «Anaconda», в нём подпункт «IPython Notebook».
  • Под Mac OS X: приложение Anaconda Launcher, в нём пункт ipython-notebook.

После запуска IPython Notebook у вас откроется окно браузера (и лучше пусть это будет не Internet Explorer, под ним IPython Notebook работает с некоторым скриптом, а иногда не работает) со списком файлов. В нём надо выбрать New → Python 3. Откроется новая вкладка браузера, в ней будет запущен пустой notebook, состоящий из отдельных ячеек (cells). В ячейку с кодом можно вписать код и нажать Shift+Enter — он выполнится и вам покажут тут же результат.

Для установки дополнительных пакетов вам необходимо открыть консоль (это может быть Anaconda Prompt под Windows или стандартный «Терминал» под Mac OS или Linux) и набрать команду conda install <название пакета> или pip install <название пакета> (например, conda install seaborn).

Вы можете также запустить Jupyter онлайн здесь, но данные там не сохранятся и возможности будут ограничены.

Работа с ipynb-файлами

Мы выкладываем материалы курса в виде ipynb-файлов. По ссылкам ниже вы можете просмотреть эти файлы. Если вы хотите открыть этот файл у себя, то вам необходимо скачать его (нажав на иконку в правом верхнем углу страницы с лекцией) и положить в каталог, из которого Jupyter открывает ноутбуки: например, воспользовавшись кнопкой Upload в самом Jupyter (на экране со списком файлов). Также этот каталог можно найти по строчке Serving notebooks from local directory: /home/user/IPython, появляющейся в чёрненьком окошке при запуске Jupyter; здесь /home/user/IPython — искомый путь.

Материалы

Занятие 1: Первое знакомство. Списки

Занятие 2: Цикл for

Занятие 3: Ввод-вывод списков, проверка условий, цикл while

Занятие 4: Коварство списков. Функции. Списковые включения

Занятие 5: Сортировка и словари

Занятия 6-7: JSON и API

Занятия 8-9: Парсинг веб-сайтов и XML

Занятие 10: numpy и картинки

Занятие 11-12: pandas, seaborn и немножко математики

  • Для установки пакета seaborn нужно в командной строке (cmd.exe под Windows, Terminal под Mac OS) набрать pip install seaborn, либо исползовать функцию установки пакетов в Anaconda Navigator.

Занятие 13: pandas, мультииндексы и немного о погоде

Занятие 14: источники данных в pandas

Занятие 15: регулярные выражения

Домашние задания

Данные

Дополнительные материалы

  • Pythontutor.ru: хороший базовый учебник по Python, с интерактивными примерами и задачами. Там же есть визуализатор, позволяющий запускать произвольный код «построчно» и смотреть, что происходит. Очень полезный инструмент для отладки. См. также оригинальную версию визуализатора (разработчик Philip Guo).
  • CodingBat: разные упражнения с автоматической проверкой.
  • 2015-16:Программирование на языке Python для сбора и анализа данных]: расширенная версия этого курса.
  • Серия докладов про скраппинг данных (как скачать все сайты и не быть заблокированным по IP).

Сноски

  • ↑ PT использует термин «генераторы списков» вместо «списковые включения»