Наука о данных — различия между версиями

Материалы по математике, 2018-19 учебный год
Перейти к: навигация, поиск
(Данные)
(Занятие 9: Введение в Pandas)
Строка 69: Строка 69:
 
** Дополнительно: [http://pandas.pydata.org/pandas-docs/stable/10min.html 10-минутное введение (обзор возможностей)], [http://pandas.pydata.org/pandas-docs/stable/tutorials.html#pandas-cookbook pandas-cookbook], [http://pandas.pydata.org/pandas-docs/stable/indexing.html индексация и выбор данных (подробно)]
 
** Дополнительно: [http://pandas.pydata.org/pandas-docs/stable/10min.html 10-минутное введение (обзор возможностей)], [http://pandas.pydata.org/pandas-docs/stable/tutorials.html#pandas-cookbook pandas-cookbook], [http://pandas.pydata.org/pandas-docs/stable/indexing.html индексация и выбор данных (подробно)]
 
* [https://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/nes-datascience2019/ps06/ps06.ipynb ДЗ№6]
 
* [https://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/nes-datascience2019/ps06/ps06.ipynb ДЗ№6]
 +
 +
=== Занятие 10: примеры использования pandas ===
 +
* [http://nbviewer.math-hse.info/url/nbviewer.jupyter.org/url/math-info.hse.ru/f/2018-19/nes-ds/lecture-pandas2.ipynb ipynb-файл с занятия]
 +
=== Занятие 11: продвинутые возможности pandas ===
 +
* [http://nbviewer.math-hse.info/github/ischurov/pythonhse/blob/master/Lecture%2013.ipynb Погода и мультииндексы]
 +
* [http://nbviewer.math-hse.info/url/math-info.hse.ru/f/2018-19/nes-ds/lecture-pandas-pivot-join-weather.ipynb pivot-melt, merge-join] (сырой ipynb с занятия)
 +
 +
=== Занятие 12: ещё о pandas ===
 +
* [https://nbviewer.jupyter.org/url/math-info.hse.ru/f/2018-19/nes-ds/pandas-datareader-pics.ipynb Чтение данных из World Bank, мультииндексы и картинки]
  
 
== Данные ==
 
== Данные ==
 
* [http://math-info.hse.ru/f/2018-19/spb-python/movie_metadata.csv imdb-5000] (источник: https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset)
 
* [http://math-info.hse.ru/f/2018-19/spb-python/movie_metadata.csv imdb-5000] (источник: https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset)

Версия 19:11, 4 марта 2019

Курс ведёт Илья Щуров.

Инструменты

Python

Мы используем Python версии 3 и оболочку Jupyter (ранее известную как IPython Notebook). Чтобы их установить, проще всего скачать пакет Anaconda. Обратите внимание: вам нужна версия с Python 3.x (в настоящее время — Python 3.7).

После установки Anaconda у вас появится:

  • Под Windows: в меню «Пуск» пункт «Anaconda», в нём подпункт «IPython Notebook».
  • Под Mac OS X: приложение Anaconda Launcher, в нём пункт ipython-notebook.

После запуска IPython Notebook у вас откроется окно браузера (и лучше пусть это будет не Internet Explorer, под ним IPython Notebook работает с некоторым скрипом, а иногда не работает) со списком файлов. В нём надо выбрать New → Python 3. Откроется новая вкладка браузера, в ней будет запущен пустой notebook, состоящий из отдельных ячеек (cells). В ячейку с кодом можно вписать код и нажать Shift+Enter — он выполнится и вам покажут тут же результат.

Для установки дополнительных пакетов вам необходимо открыть консоль (это может быть Anaconda Prompt под Windows или стандартный «Терминал» под Mac OS или Linux) и набрать команду conda install <название пакета> или pip install <название пакета> (например, conda install seaborn).

Вы также можете использовать Google Colaboratory (но интерфейс там будет немножко отличаться от интерфейса Jupyter).

Работа с ipynb-файлами

Чтобы скачать ipynb-файл, нужно кликнуть на иконку в красном кружке правой кнопкой и выбрать «сохранить файл как» или аналогичный пункт меню

Мы выкладываем материалы курса в виде ipynb-файлов. По ссылкам ниже вы можете просмотреть эти файлы. Если вы хотите открыть этот файл у себя, то вам необходимо скачать его (нажав на иконку в правом верхнем углу страницы с лекцией) и положить в каталог, из которого Jupyter открывает ноутбуки: например, воспользовавшись кнопкой Upload в самом Jupyter (на экране со списком файлов). Также этот каталог можно найти по строчке Serving notebooks from local directory: /home/user/IPython, появляющейся в чёрненьком окошке при запуске Jupyter; здесь /home/user/IPython — искомый путь.

Чтобы загрузить файл в Jupyter Notebook, можно нажать на кнопку Upload

Материалы

Занятие 1: Первое знакомство

Занятие 2: Списки и цикл for

Занятие 3: Ввод-вывод списков, проверка условий, цикл while

Занятие 4: Функции

Занятие 5: Списковые включения, zip, двумерные массивы и словари

Занятие 6: Сортировка

Занятие 7: Работа с файлами

Занятие 8: Numpy и картинки

Занятие 9: Введение в Pandas

Занятие 10: примеры использования pandas

Занятие 11: продвинутые возможности pandas

Занятие 12: ещё о pandas

Данные