Наука о данных: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показано 11 промежуточных версий этого же участника)
Строка 1: Строка 1:
 +
* Совместный бакалавриат ВШЭ-РЭШ, 2-й год обучения.
 
* Курс ведёт Илья Щуров.
 
* Курс ведёт Илья Щуров.
  
Строка 132: Строка 133:
 
| Библиотека <code>sympy</code> (символьная математика в Python), рисование картинок с помощью plotly
 
| Библиотека <code>sympy</code> (символьная математика в Python), рисование картинок с помощью plotly
 
| [https://nbviewer.jupyter.org/gist/ischurov/2bcdd8887bd8e773093fe4fccd82b254 сырой ноутбук про sympy], [https://nbviewer.jupyter.org/gist/ischurov/9861bd65ea10ff08f4b1574516a752e4 сырой ноутбук про plotly]
 
| [https://nbviewer.jupyter.org/gist/ischurov/2bcdd8887bd8e773093fe4fccd82b254 сырой ноутбук про sympy], [https://nbviewer.jupyter.org/gist/ischurov/9861bd65ea10ff08f4b1574516a752e4 сырой ноутбук про plotly]
| [https://youtu.be/Flj-5AnWxxQ видео трансляции]
+
| [https://youtu.be/Flj-5AnWxxQ видео занятия]
 
| [https://docs.sympy.org/latest/index.html документация sympy], [https://plotly.com/python/ документация plotly], [https://nbviewer.jupyter.org/github/ischurov/odebook/blob/master/mathandpython.ipynb Кратчайшее введение в математику в Python]
 
| [https://docs.sympy.org/latest/index.html документация sympy], [https://plotly.com/python/ документация plotly], [https://nbviewer.jupyter.org/github/ischurov/odebook/blob/master/mathandpython.ipynb Кратчайшее введение в математику в Python]
 
|
 
|
Строка 139: Строка 140:
 
| Ещё о визуализации: plotly.expres и seaborn.
 
| Ещё о визуализации: plotly.expres и seaborn.
 
| [https://gist.github.com/ischurov/bb22ab37d8555413dd0dc38104bfedaa сырой ноутбук]
 
| [https://gist.github.com/ischurov/bb22ab37d8555413dd0dc38104bfedaa сырой ноутбук]
| [https://youtu.be/yPw-1XCt3r4 видео трансляции]
+
| [https://youtu.be/yPw-1XCt3r4 видео занятия]
 
| [http://plotly.express документация по plotly.express], [https://seaborn.pydata.org seaborn].
 
| [http://plotly.express документация по plotly.express], [https://seaborn.pydata.org seaborn].
 
|
 
|
Строка 153: Строка 154:
 
| heroku, деплой streamlit-приложения на heroku
 
| heroku, деплой streamlit-приложения на heroku
 
|
 
|
| [https://youtu.be/mrdaiNVJ9qU видео трансляции]
+
| [https://youtu.be/mrdaiNVJ9qU видео занятия]
 
| [https://gilberttanner.com/blog/deploying-your-streamlit-dashboard-with-heroku tutorial], которому мы следовали.
 
| [https://gilberttanner.com/blog/deploying-your-streamlit-dashboard-with-heroku tutorial], которому мы следовали.
 
|
 
|
Строка 160: Строка 161:
 
| SQL
 
| SQL
 
| [https://gist.github.com/ea3c2f48451e3d23305dd77ce5d5673b сырой ноутбук]
 
| [https://gist.github.com/ea3c2f48451e3d23305dd77ce5d5673b сырой ноутбук]
| [https://youtu.be/coggP7IsK34 видео трансляции]
+
| [https://youtu.be/coggP7IsK34 видео занятия]
 
| [https://www.w3schools.com/sql/ SQL Tutorial] (W3Schools) — я в основном следовал этому тьюториалу, [https://blog.jooq.org/2016/03/17/10-easy-steps-to-a-complete-understanding-of-sql/ о логике SQL], [https://blog.jooq.org/2016/12/09/a-beginners-guide-to-the-true-order-of-sql-operations/ о порядке операций] подробно, [http://www.sqlitetutorial.net SQLite Tutorial]
 
| [https://www.w3schools.com/sql/ SQL Tutorial] (W3Schools) — я в основном следовал этому тьюториалу, [https://blog.jooq.org/2016/03/17/10-easy-steps-to-a-complete-understanding-of-sql/ о логике SQL], [https://blog.jooq.org/2016/12/09/a-beginners-guide-to-the-true-order-of-sql-operations/ о порядке операций] подробно, [http://www.sqlitetutorial.net SQLite Tutorial]
 
|
 
|
Строка 167: Строка 168:
 
| SQL-2: вокруг JOIN'ов и subqueries
 
| SQL-2: вокруг JOIN'ов и subqueries
 
| [https://gist.github.com/9f9e5e7556609c1c06b9744b15e72638 сырой ноутбук]
 
| [https://gist.github.com/9f9e5e7556609c1c06b9744b15e72638 сырой ноутбук]
| [https://youtu.be/gF6xy3oTpcc видео трансляции]
+
| [https://youtu.be/gF6xy3oTpcc видео занятия]
 
|
 
|
 
| [http://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/nes-datascience2020/ps09/ps09.ipynb ДЗ№9]
 
| [http://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/nes-datascience2020/ps09/ps09.ipynb ДЗ№9]
 +
|-
 +
| 21 апреля
 +
| Регулярные выражения
 +
| [https://nbviewer.jupyter.org/gist/391a4ef5aa0c44b5f424e95a029abbaf сырой ноутбук с занятия]
 +
| [https://youtu.be/wEnm0lwEsIw видео занятия]
 +
| [https://habr.com/ru/post/349860/ подробный текст про регулярки], [http://regex101.com визуальный отладчик регулярных выражений]
 +
|
 +
|-
 +
| 24 апреля
 +
| Гостевая лекция Ивана Бегтина
 +
|
 +
|
 +
|
 +
|
 +
|-
 +
| 28 апреля
 +
| Введение в R
 +
| [https://rpubs.com/ilyaschurov/hsenes2020r1 сырой конспект занятия]
 +
| [https://youtu.be/inrAtd0sNMQ видео занятия]
 +
| [https://swcarpentry.github.io/r-novice-inflammation/13-supp-data-structures/ структуры данных],  [https://www.datamentor.io/r-programming/data-frame/ dataframe], [https://swcarpentry.github.io/r-novice-inflammation/15-supp-loops-in-depth/index.html циклы] [https://swcarpentry.github.io/r-novice-inflammation/02-func-R/index.html функции], [http://github.com/rstudio/cheatsheets/raw/master/base-r.pdf шпаргалка по базовому R]
 +
|
 +
|-
 +
| 8 мая
 +
| Современный R. Экосистема tidyverse
 +
| [https://rpubs.com/ilyaschurov/hsenes2020r2-tidyverse сырой конспект занятия]
 +
| [https://youtu.be/d-xrdEuJZsQ видео занятия]
 +
| [https://cran.r-project.org/web/packages/dplyr/vignettes/dplyr.html введение в dplyr], [https://r4ds.had.co.nz/tidy-data.html tidyr]: <code>pivot_wider</code> и <code>pivot_longer</code>, [https://datacarpentry.org/dc_zurich/R-ecology/04-dplyr группировка и агрегирование].
 +
|
 +
|-
 +
| 12 мая
 +
| Библиотека ggplot2 в R. Работа с геоданными в Python: библиотека geopandas.
 +
| сырые конспекты: [https://rpubs.com/ilyaschurov/hsenes2020r3ggplot ggplot2], [https://nbviewer.jupyter.org/gist/ischurov/34065ce6cac4c547db20ec4c9098481a geopandas]
 +
| [https://youtu.be/vq6QO4qTQ6Y видео занятия]
 +
| [https://exts.ggplot2.tidyverse.org/gallery/ расширения к ggplot2]
 +
|
 +
|-
 +
| 18 мая
 +
| Введение в машинное обучение. Библиотека scikit-learn
 +
| [https://nbviewer.jupyter.org/gist/ischurov/2430f96d2b14e21e45c7a472b2e5ff82 сырой конспект занятия]
 +
| [https://youtu.be/t23C4T_cFxA видео занятия]
 +
| [https://www.kaggle.com/c/costa-rican-household-poverty-prediction источник данных]
 +
|
 
|}
 
|}
  
 
== Итоговые проекты ==
 
== Итоговые проекты ==
* [[/Итоговые проекты|правила выполнения]]
+
* [[Наука о данных/Итоговые проекты|Правила выполнения]]. Срок сдачи (дата экзамена): 16 июня.
  
 
== Программное обеспечение ==  
 
== Программное обеспечение ==  
 +
=== Python ===
 
* [https://www.anaconda.com/distribution/ Anaconda] — вам нужна версия с Python 3.7.
 
* [https://www.anaconda.com/distribution/ Anaconda] — вам нужна версия с Python 3.7.
 
* Чтобы открыть ipynb-файл в Jupyter Notebook, проще всего его загрузить в рабочий каталог с помощью функции ''upload'' самого Jupyter Notebook. Аналогично, чтобы вытащить файл из Jupyter Notebook, можно использовать функцию ''Download → ipynb''.
 
* Чтобы открыть ipynb-файл в Jupyter Notebook, проще всего его загрузить в рабочий каталог с помощью функции ''upload'' самого Jupyter Notebook. Аналогично, чтобы вытащить файл из Jupyter Notebook, можно использовать функцию ''Download → ipynb''.
 +
=== R ===
 +
* [https://cloud.r-project.org скачать R]
 +
* [https://www.rstudio.com/products/rstudio/download/ скачать RStudio] (Desktop, Open Source License)
 +
* [https://rstudio.cloud rstudio.cloud] (можно ничего не скачивать)

Текущая версия на 18:40, 17 мая 2020

  • Совместный бакалавриат ВШЭ-РЭШ, 2-й год обучения.
  • Курс ведёт Илья Щуров.

Материалы

дата тема конспекты видео дополнительные материалы ДЗ
10 января Первое знакомство. Python как калькулятор конспект с комментариями, сырой ноутбук с занятия (без комментариев) видео PT вычисления, визуализатор Python ДЗ№1
14 января Списки конспект с комментариями (мы прошли до раздела «Присвоение и копирование списков», не включая его), split и join, сырой ноутбук с занятия видео PT списки
21 января Списки и цикл for конспект с комментариями (начиная с раздела « Присвоение и копирование списков»), enumerate, zip (часть про словари можно пропустить), сырой ноутбук с занятия. видео PT цикл for ДЗ№2
24 января Проверка условий. Цикл while. проверка условий, сырой ноутбук с занятия проверка условий PT: проверка условий, цикл while
28 января Функции. Словари функции, словари, сырой ноутбук с занятия функции, словари PT: функции, словари ДЗ№3
31 января Ещё о словарях. Множества. Списковые включения (и не только). Сортировка словари и списковые включения, множества, сортировка, сырой ноутбук с занятия словари, сортировка Sorting howto (англ.)
4 февраля Ещё о сортировке. kwargs. lambda-функции. Чтение файлов работа с файлами, сырой ноутбук с занятия файлы
7 февраля Запись файлов. Объектно-ориентированное программирование работа с файлами, сырой ноутбук с занятия файлы классы в Python (англ., официальная документация) ДЗ№4
11 февраля Наследование. Итераторы и генераторы сырой конспект классы в Python (англ., официальная документация), твиттер-тред про Python (начало как раз про итераторы)
14 февраля Библиотека numpy и немножко matplotlib конспект с комментариями про numpy, сырой ноутбук numpy numpy quickstart, pyplot tutorial, matplotlib gallery ДЗ№5
18 февраля Ещё о numpy и немножко pandas сырой ноутбук с занятия numpy broadcasting rules (англ.), pandas data structures (мы обсуждали pd.Series)
21 февраля Библиотека pandas pandas и датафреймы: конспект по базовым возможностям pandas, сырой ноутбук с занятия pandas 10-минутное введение (обзор возможностей), pandas-cookbook, индексация и выбор данных (подробно) ДЗ№6
28 февраля Ещё о pandas (и немного о глобальном потеплении). конспект, сырой ноутбук с занятия Официальная документация pandas: мультииндексы ДЗ№7
3 марта Введение в веб-скреппинг, библиотека BeautifulSoup (bs4) конспект, сырой ноутбук с занятия видео Оригинальная документация (англ.): requests BeautifulSoup.
6 марта Больше веб-скреппинга сырой ноутбук с занятия
10 марта Ещё больше веб-скреппинга: RoboBrowser. Исключение (exceptions) Конспект по RoboBrowser, сырой ноутбук с занятия видео RoboBrowser
13 марта И снова веб-скреппинг: Selenium. Конспект по Selenium, сырой ноутбук с занятия видео неофициальная документация по Python-Selenium (её проще читать, чем официальную).
20 марта Работа с REST API: XML и JSON Конспект про XML, [Конспект про JSON (на занятии рассматривались другие примеры API, но логика такая же), сырой ноутбук с занятия видео про XML, видео про JSON Документация по API MediaWiki (движка Википедии): основная на английском, на русском, автогенерированная на английском, на русском, документация по nominatim (геокодинг), clearspending (данные о госзакупках) ДЗ№8
24 марта Библиотека sympy (символьная математика в Python), рисование картинок с помощью plotly сырой ноутбук про sympy, сырой ноутбук про plotly видео занятия документация sympy, документация plotly, Кратчайшее введение в математику в Python
27 марта Ещё о визуализации: plotly.expres и seaborn. сырой ноутбук видео занятия документация по plotly.express, seaborn.
7 апреля pandas_datareader, PyCharm and streamlit. сырой ноутбук про pandas_datareader. pandas-datareader, streamlit
10 апреля heroku, деплой streamlit-приложения на heroku видео занятия tutorial, которому мы следовали.
14 апреля SQL сырой ноутбук видео занятия SQL Tutorial (W3Schools) — я в основном следовал этому тьюториалу, о логике SQL, о порядке операций подробно, SQLite Tutorial
17 апреля SQL-2: вокруг JOIN'ов и subqueries сырой ноутбук видео занятия ДЗ№9
21 апреля Регулярные выражения сырой ноутбук с занятия видео занятия подробный текст про регулярки, визуальный отладчик регулярных выражений
24 апреля Гостевая лекция Ивана Бегтина
28 апреля Введение в R сырой конспект занятия видео занятия структуры данных, dataframe, циклы функции, шпаргалка по базовому R
8 мая Современный R. Экосистема tidyverse сырой конспект занятия видео занятия введение в dplyr, tidyr: pivot_wider и pivot_longer, группировка и агрегирование.
12 мая Библиотека ggplot2 в R. Работа с геоданными в Python: библиотека geopandas. сырые конспекты: ggplot2, geopandas видео занятия расширения к ggplot2
18 мая Введение в машинное обучение. Библиотека scikit-learn сырой конспект занятия видео занятия источник данных

Итоговые проекты

Программное обеспечение

Python

  • Anaconda — вам нужна версия с Python 3.7.
  • Чтобы открыть ipynb-файл в Jupyter Notebook, проще всего его загрузить в рабочий каталог с помощью функции upload самого Jupyter Notebook. Аналогично, чтобы вытащить файл из Jupyter Notebook, можно использовать функцию Download → ipynb.

R