Разница между страницами «Linguistic Data: Quantitative Analysis and Visualisation for theoretical linguists» и «Python для сбора данных»

Материал из MathINFO
(Различия между страницами)
Перейти к навигации Перейти к поиску
 
(Новая страница: «Дорогие студенты! На этой странице будут появляться различные материалы и объявления, с...»)
 
Строка 1: Строка 1:
==Course info==
+
Дорогие студенты!
Dear students,
 
  
Here will be published the materials of the course '''"Linguistic Data: Quantitative Analysis and Visualisation"''', taught at the Master programme '''"Linguistic Theory and Language Description"''' in 2018-2019 academic year.
+
На этой странице будут появляться различные материалы и объявления, связанные с курсом '''«Python для сбора данных»''', читаемого для студентов МИЭФ, в весеннем семестре 2018/2019 учебного года.
  
* Instructors: Olga Lyashevskaya, George Moroz, Alla Tambovtseva and Ilya Schurov.
+
* Авторы курса: Щуров Илья Валерьевич, Тамбовцева Алла Андреевна
  
* Modules: 3-4
+
* Лекции и семинары ведет: Тамбовцева Алла Андреевна
  
==Software==
+
==Правила игры==
During this course we will use R as a programming language and RStudio as a GUI.
+
* Программа курса: [http://math-info.hse.ru/f/2018-19/py-polit/py-icef.pdf ссылка]
  
'''How to install R and RStudio?'''
+
* Информация по курсу: [https://docs.google.com/document/d/16ewA97g81VbeJhmsU4Xgv5ZmyFAGvcae7V0Mjrk9b2Y/edit?usp=sharing ссылка]
  
1. Download [https://ftp.acc.umu.se/mirror/CRAN/ R] (you can choose another mirror here if you wish) and install it on your computer. Make sure you did it before installing RStudio.
+
* Информация по проекту: [https://docs.google.com/document/d/1yPWd2Gnvusc0RC7C-lOzHvZJhkyb4xWggZJKffumJ5c/edit?usp=sharing ссылка], [https://docs.google.com/forms/d/e/1FAIpQLSejBnt5Hsq7J_72gXJf71DD9Os3-obz8U9rXSDnkojcbbYxrg/viewform опрос]
  
2. Download [https://www.rstudio.com/products/rstudio/download/ RStudio] (you need RStudio Desktop Open Source License) and install it on your computer. It is recommended to create a shortcut for RStudio during installation.
+
==Проект==
 +
* описание проекта: дедлайн 15 мая 23:59, [https://www.dropbox.com/request/IerqlpnZZMEHLGIIR9XX ссылка] для сдачи
  
It is possible avoid installing anything on your PC, using online version of [https://rstudio.cloud/ RStudio].
+
* документация по проекту и программа: дедлайн – день перед защитой, 23:59, [https://www.dropbox.com/request/eEhaDPvCPna1VhQslHOA ссылка] для сдачи
  
'''How to use RStudio?'''
+
==Материалы==
 +
Загрузка файла в Jupyter Notebook и прочее: см. [http://math-info.hse.ru//f/2018-19/py-polit/instruction_JN.pdf инструкцию].
  
Read the instruction [http://math-info.hse.ru/f/2018-19/pep/rstudio-instruction-en.pdf here].
+
Скачать файл с расширением .ipynb можно так: пройти по ссылке, нажать на стрелочку в правом верхнем углу (Download Notebook) и сохранить файл. При необходимости сменить расширение с .txt на .ipynb.
  
For successful submission of assignments you should be able to create and save R code files (.R) and RMarkdown files (.Rmd).
 
 
==Materials==
 
 
{| class="wikitable"
 
{| class="wikitable"
! Date
+
! Дата занятия
! Topic of the lecture
+
! Тема
! Seminar
+
! Занятие
! Optional
+
! Дополнительно
  
 
|-
 
|-
| 12.01
+
| 12.02<br>
| Something about data: population vs sample<br>Descriptive statistics <br><br>
+
| Знакомство с Jupyter Notebook. Введение в Python.<br>Ввод и вывод. Строки. <br><br>
| [http://math-info.hse.ru/f/2018-19/ling-data/seminar1.pdf problems1] [http://rpubs.com/AllaT/ldat-rbasics R-basics]<br>
+
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/0-12-02/intro-jupyter.ipynb jupyter-intro] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/0-12-02/python-intro.ipynb python-intro]<br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/0-12-02/input-output.ipynb input-output] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/0-12-02/strings.ipynb strings]<br><br>
| RMarkdown: official [https://rmarkdown.rstudio.com/ page],<br>[https://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf cheatsheet]<br><br>
+
| [https://jupyter.org/documentation more] on Jupyter Notebook, [https://nbviewer.jupyter.org/github/allatambov/PyProg-2018/blob/master/03-09/coding-style.ipynb coding style],<br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/0-12-02/string-formatting.ipynb string formatting], [https://realpython.com/python-f-strings/ f-strings], [https://github.com/allatambov/Latex LaTeX]<br><br>
|-
 
| 19.01
 
| Population and samples. Working with data in R<br>
 
| [http://math-info.hse.ru/f/2018-19/ling-data/seminar2.pdf problems2] [http://rpubs.com/AllaT/ldat-samples R-samples] [http://math-info.hse.ru/f/2018-19/ling-data/artists-sizes.txt artists.txt]<br>[http://rpubs.com/AllaT/ldat-rvectors R-vectors] [http://rpubs.com/AllaT/ldat-dataframes R-dataframes] [http://math-info.hse.ru/f/2018-19/ling-data/Chi.kuk.2007.csv orientation.csv] <br><br>
 
| [http://rpubs.com/AllaT/ldat-rplots_1 more] on basic graphs in R<br>
 
|-
 
| 26.01
 
| Statistical hypotheses testing
 
| [http://rpubs.com/AllaT/ldat-rbinom Binomial-test] [https://raw.githubusercontent.com/LingData2019/LingData/master/data/poetry_last_in_lines.csv poetry.csv]
 
| <br>
 
|-
 
| 02.02
 
| Student's t-test. Central limit theorem<br>
 
| [http://rpubs.com/AllaT/ldat-ttest T-test] [http://math-info.hse.ru/f/2018-19/ling-data/icelandic.csv icelandic.csv]<br>
 
| [http://math-info.hse.ru/f/2018-19/ling-data/dissertation.pdf asp-paper] (Coretta, 2017)<br>
 
|-
 
| 09.02
 
| Confidence Intervals
 
| [http://rpubs.com/AllaT/ldat-conf_ints Conf-intervals] [https://raw.githubusercontent.com/LingData2019/LingData/master/data/poetry_last_in_lines.csv poetry.csv] [http://math-info.hse.ru/f/2018-19/ling-data/icelandic.csv icelandic.csv]<br>
 
| an interactive [https://rpsychologist.com/d3/CI/ visualization] of CI by K.Magnusson<br>[https://www.cscu.cornell.edu/news/statnews/stnews73.pdf more] on overlapping CI's (by A.Knezevic)<br><br>
 
|-
 
| 16.02
 
| Data manipulation with tidyverse. Visualisation with ggplot2<br>
 
| [https://lingdata2019.github.io/LingData/Lec_6_tidyverse.html class materials]<br>
 
| <br>
 
|-
 
| 02.03
 
| Chi-squared and Fisher's exact tests<br>
 
| [http://rpubs.com/AllaT/ling-chisq Chi-squared-test] [https://raw.githubusercontent.com/LingData2019/LingData/master/data/elision.csv elision.csv] [http://math-info.hse.ru/f/2018-19/pep/socling.csv socling.csv]<br>
 
| <br>
 
|-
 
| 16.03
 
| Correlation coefficients and simple linear regression<br>
 
| [http://rpubs.com/AllaT/ling-corr Corr-regression][https://raw.githubusercontent.com/LingData2019/LingData/master/data/education.csv education.csv][https://raw.githubusercontent.com/LingData2019/LingData/master/data/chekhov.csv chekhov.csv]<br>
 
| [http://guessthecorrelation.com/ guess correlation game]<br>
 
|-
 
| 23.03
 
| Multiple comparisons. ANOVA
 
| [http://rpubs.com/AllaT/lingdat-anova-mc Anova] [http://math-info.hse.ru/f/2018-19/ling-data/icelandic.csv icelandic.csv]<br>
 
| [http://www.sthda.com/english/wiki/visualize-correlation-matrix-using-correlogram correlograms] [http://tylervigen.com/page?page=1 spurious correlations]<br>
 
 
|-
 
|-
| 06.04
+
| 19.02<br>
| Multiple linear regression<br>
+
| Списки в Python. Цикл for.<br>
| [http://rpubs.com/AllaT/lingdat-multreg Multiple-regression] [http://math-info.hse.ru/f/2018-19/ling-data/english.csv english.csv]<br>
+
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/1-19-02/lecture-lists.ipynb lists] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/1-19-02/split-join.ipynb split-join]<br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/1-19-02/practice-1.ipynb practice-1] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/1-19-02/practice1-solutions.ipynb practice-1-solutions]<br><br>
| [https://cran.r-project.org/web/packages/jtools/vignettes/summ.html more] on visualising coefficients, [https://www.princeton.edu/~otorres/Regression101R.pdf more] tests<br>
+
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/1-19-02/lists-methods.ipynb lists-methods], [https://ipython.readthedocs.io/en/stable/interactive/magics.html Jupyter magic cells],<br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/add/sympy-2.ipynb how-not-to-get-bored-2]<br><br>
 
|-
 
|-
| 13.04
+
| 26.02<br>
| Logistic regression
+
| Управляющие конструкции в Python.<br>Цикл while. Функции в Python.<br><br>
| [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-04-06/Lab10-practice.Rmd Lab10] [Lab10-solutions]<br>
+
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/2-26-02/if-else-while.ipynb if-else-while] [http://nbviewer.math-hse.info/github/ischurov/pythonhse/blob/master/Lecture%204.ipynb [1]]<br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/2-26-02/practice-2.ipynb practice-2]<br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/2-26-02/practice-2-solutions.ipynb practice-2-solutions][https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/2-26-02/practice-3.ipynb practice-3]<br><br>
| [https://cran.r-project.org/web/packages/jtools/vignettes/summ.html more] on visualising coefficients<br>
+
| <br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/2-26-02/texts.ipynb how-not-to-get-bored-3]<br><br>
 
|-
 
|-
| 27.04
+
| 12.03<br>
| More on model diagnostics. Mixed-effects models
+
| Ещё немного о функциях. Датафреймы pandas.<br>
| [http://rpubs.com/AllaT/lingdat-me Mixed-effects] [https://raw.githubusercontent.com/LingData2019/LingData/master/data/duryagin_ReductionRussian.txt ReductionRussian.txt]<br>
+
| <br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/3-12-03/practice-3-solutions.ipynb practice-3-solutions] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/3-12-03/lambda-except-assert.ipynb more-functions] <br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/3-12-03/pandas1.ipynb pandas-1] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/3-12-03/pandas2.ipynb pandas-2] [http://math-info.hse.ru/f/2017-18/py-prog/scores2.csv scores2.csv]<br><br>
| [http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#model-specification LME in R]<br>
+
| <br>[https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/3-12-03/numpy-1.ipynb how-not-to-get-bored-4]<br><br>
 
|-
 
|-
| 18.05
+
| 19.03<br>
| Decision trees and random forest.
+
| Библиотека pandas: продолжение. Визуализация.<br>
| [https://github.com/LingData2019/LingData/blob/master/seminars/2019-04-27/Lab12_class.Rmd Lab 12. Trees and forests] [https://github.com/LingData2019/LingData/blob/master/seminars/2019-04-27/Lab12.Rmd Code]
+
| <br>[https://github.com/allatambov/py-icef/blob/master/4-19-03/pandas-contd.ipynb pandas-3] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/4-19-03/practice4.ipynb practice-4] [https://nbviewer.jupyter.org/github/allatambov/Py-programming-3/blob/master/28-05/sem-28-05-solutions.ipynb practice-4-solutions]<br>[https://raw.githubusercontent.com/allatambov/py-icef/master/4-19-03/elections.csv elections.csv] [https://raw.githubusercontent.com/allatambov/py-icef/master/4-19-03/Titanic.csv Titanic.csv]<br><br>
| <br>
+
| <br>[https://github.com/allatambov/Py-programming-3/blob/master/add/texts-part3.ipynb how-not-to-get-bored-5] <br>[https://nbviewer.jupyter.org/github/allatambov/Py-programming-3/blob/master/add/graphs-matplotlib.ipynb matplotlib] [https://matplotlib.org/gallery.html Галерея] matplotlib [https://seaborn.pydata.org/index.html Seaborn]<br><br>
 
|-
 
|-
| 25.05
+
| 02.04<br>
| PCA<br>
+
| Парсинг html-файлов. Web-scrapping.<br>
| [https://lingdata2019.github.io/LingData/Lec_14_PCA.html class materials]<br>
+
| [https://nbviewer.jupyter.org/github/allatambov/py-dat19/blob/master/21-03/lect-html.ipynb lect-html] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/5-02-04/web-scrape.ipynb web-scrape]<br>
| <br>
+
| <br>[https://www.w3schools.com/html/ w3schools] [https://www.coursera.org/specializations/web-design веб-дизайн] на Coursera<br>[https://nbviewer.jupyter.org/github/allatambov/PyProg-2018/blob/master/14-12/html-sem.ipynb scraping-seminar] [https://nbviewer.jupyter.org/github/allatambov/PyProg-2018/blob/master/14-12/html-sem-solutions.ipynb scaping-solutions]<br><br>
 
|-
 
|-
| 01.06
+
| 09.04<br>
| Clustering
+
| Управление браузером. Библиотека Selenium.<br>
| [https://raw.githubusercontent.com/agricolamz/2018-MAG_R_course/master/data/baltic.csv swadesh.csv]
+
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/6-09-04/lect-selenium-1.ipynb selenium-1] [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/6-09-04/lect-selenium2.ipynb selenium-2]<br>
| <br>
+
| [https://sites.google.com/a/chromium.org/chromedriver/downloads web-driver] [https://github.com/mozilla/geckodriver/releases/tag/v0.24.0 web-driver firefox]<br>[https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb selector-gadget] [https://nbviewer.jupyter.org/github/allatambov/py-dat19/blob/master/28-03/selenium-books.ipynb selenium-books]<br><br>
 
|-
 
|-
| 08.06
+
| 16.04<br>
| NeighborNet. Simulation statistics
+
| Работа с API. Формат json.<br>
| [http://math-info.hse.ru/f/2018-19/ling-data/prefixes.txt prefixes.txt] [http://math-info.hse.ru/f/2018-19/ling-data/08-06.R R code] [http://math-info.hse.ru/f/2017-18/py-prog/scores2.csv scores2.csv]
+
| [vk-library] [http://math-info.hse.ru/f/2018-19/py-polit/vk-auth.pdf vk-instruct]<br>
| <br>
+
| [https://vk.com/dev/manuals vk-docs] [https://pypi.org/project/vk-api/ vk-api-library]<br>[https://www.w3schools.com/python/python_datetime.asp datetime] [https://nbviewer.jupyter.org/github/allatambov/PyProg-2018/blob/master/14-12/py-gmail.ipynb рассылка gmail]<br><br>
 
|}
 
|}
===R seminars in pdf===
+
'''Дополнительно:'''
12 January: [http://math-info.hse.ru/f/2018-19/ling-data/Rbasics_TEO-pdf.pdf R-basics], 19 January: [http://math-info.hse.ru/f/2018-19/ling-data/r-more-vectors-pdf.pdf R-vectors], [http://math-info.hse.ru/f/2018-19/ling-data/r-dataframes-pdf.pdf R-dataframes], [http://math-info.hse.ru/f/2018-19/ling-data/r-samples-pdf.pdf R-samples], 26 January: [http://math-info.hse.ru/f/2018-19/ling-data/binom-test-pdf.pdf Binomial-test]
 
  
2 February: [http://math-info.hse.ru/f/2018-19/ling-data/t-test.pdf T-test], 9 February: [http://math-info.hse.ru/f/2018-19/ling-data/conf-ints.pdf Conf-intervals]
+
* [https://colab.research.google.com/notebooks/welcome.ipynb Google Colaboratory] (Jupyter online)
  
02 March: [http://math-info.hse.ru/f/2018-19/ling-data/chisq-test.pdf Chi-squared-test], 16 March: [http://math-info.hse.ru/f/2018-19/ling-data/CorrLab.pdf Corr-regression], 23 March: [http://math-info.hse.ru/f/2018-19/ling-data/anova-theo.pdf Anova]
+
* [http://www.pythontutor.com/visualize.html#mode=edit Pythontutor Visualizer] (онлайн визуализатор исполнения кода)
  
6 April: [http://math-info.hse.ru/f/2018-19/ling-data/mult-reg-pdf.pdf Multiple-regression], 27 April: [http://math-info.hse.ru/f/2018-19/ling-data/mixed-effects.pdf Mixed-effects]
+
* Pythontutor: [http://pythontutor.ru/lessons/inout_and_arithmetic_operations/ ввод и вывод], [http://pythontutor.ru/lessons/int_and_float/ вычисления], [http://pythontutor.ru/lessons/str/ строки], [http://pythontutor.ru/lessons/for_loop/ цикл for], [http://pythontutor.ru/lessons/lists/ списки], [http://pythontutor.ru/lessons/2d_arrays/ двумерные массивы], [http://pythontutor.ru/lessons/ifelse/ условия], [http://pythontutor.ru/lessons/while/ цикл while], [http://pythontutor.ru/lessons/functions/ функции и рекурсия]
  
===R seminars in .R and .Rmd===
+
'''К проекту - вспомогательные материалы'''
12 January: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-12/r-basics.R R-basics.R],  [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-12/r-basics.Rmd R-basics.Rmd], 19 January: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-19/teo/r-more-vectors.R R-vectors.R], 
 
[https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-19/teo/r-more-vectors.Rmd R-vectors.Rmd]
 
[https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-19/teo/r-dataframes.R R-dataframes.R], [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-19/teo/r-dataframes.Rmd R-dataframes.Rmd],
 
[https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-19/teo/r-samples.Rmd R-samples.Rmd],
 
26 January: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-01-26/26-01.Rmd Binomial-test.Rmd]
 
  
2 February: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-02-02/t-test.R T-test.R], [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-02-02/02-02.Rmd T-test.Rmd], 9 February: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-02-09/09-02.Rmd Conf-intervals.Rmd]
+
[https://github.com/allatambov/CognTech/tree/master/statistics Статистика]: проверка гипотез и регрессионные модели в Python;
[https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-02-09/conf-ints.R Conf-intervals.R]
 
  
2 March: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-03-02/chisq-02-03.Rmd Chi-squared-test.Rmd], [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-03-02/chisq-test.R Chi-squared-test.R],
+
Интерактив
16 March: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-03-16/corr-regression.R Corr-regression.R], [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-03-16/corr-regression.Rmd Corr-regression.Rmd],
 
23 March: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-03-23/anova.R Anova.R], [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-03-23/anova.Rmd Anova.Rmd]
 
  
6 April: [Multiple-regression.R], [Multiple-regression.Rmd], 27 April: [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-04-27/mixed-effects.R Mixed-models.R], [https://raw.githubusercontent.com/LingData2019/LingData/master/seminars/2019-04-27/mixed-effects.Rmd Mixed-models.Rmd]
+
* [https://dash.plot.ly/ Dashboards]: аналитика и интерактив средствами dash и plotly;
  
==Homeworks==
+
* [https://likegeeks.com/python-gui-examples-tkinter-tutorial/ Tkinter]: создание кнопок и окон с помощью tkinter, [https://ipywidgets.readthedocs.io/en/stable/user_guide.html Jupyter Widget]: интерактивные виджеты в Jupyter;
* [http://math-info.hse.ru/f/2018-19/ling-data/LingData-HW1.pdf Homework 1] (deadline: 27 January, 23:59), [https://docs.google.com/forms/d/e/1FAIpQLSehhy-j0Y2LIIfen6kqlz2Za5QUYvcZQ_7m3L5PAUrQbMDXwA/viewform link] to submit
 
  
* [http://math-info.hse.ru/f/2018-19/ling-data/LingData-HW2.pdf Homework 2] (deadline: 03 February, 23:59)
+
* [http://flask.pocoo.org/ Flask]: создание сайтов на платформе Flask средствами Python;
  
* [http://math-info.hse.ru/f/2018-19/ling-data/LingData-HW3.pdf Homework 3] (deadline: 10 February, 23:59), [https://raw.githubusercontent.com/LingData2019/LingData/master/hw/LingData-HW3.Rmd Rmd-file] to fill in, [https://www.dropbox.com/request/1e7CcztPAO3WklIsN0fU link] to submit your .Rmd file
+
Карты
  
* [http://math-info.hse.ru/f/2018-19/ling-data/LingData-HW4-teo.pdf Homework 4] (deadline: 19 February, 23:59), [https://raw.githubusercontent.com/LingData2019/LingData/master/hw/LingData-HW4-teo.Rmd Rmd-file] to fill in, [https://www.dropbox.com/request/LbUBzdF19dcwX9nnMXpk link] to submit your .Rmd file
+
* [https://github.com/googlemaps/google-maps-services-python Googlemaps]: GoogleMaps API и Python, [https://www.geeksforgeeks.org/python-calculate-distance-duration-two-places-using-google-distance-matrix-api/ GoogleMaps]: GoogleMaps and distances; [https://pypi.org/project/yandex-maps/ Яндекс-карты]: Яндекс-карты API и Python;
  
* [http://math-info.hse.ru/f/2018-19/ling-data/LingData-HW5.pdf Homework 5] (deadline: 3 March, 23:59), [https://raw.githubusercontent.com/LingData2019/LingData/master/hw/rmd-templates/HW5-template.Rmd Rmd-file] to fill in, [https://www.dropbox.com/request/BY9JbVrYFDwXkRVBS2ci link] to submit your .Rmd file
+
* Работа с shape-файлами и раскраска карт: [http://geopandas.org/ geopandas-official], [http://darribas.org/gds15/content/labs/lab_03.html geopandas-lab], [https://towardsdatascience.com/mapping-geograph-data-in-python-610a963d2d7f shape-files], [https://gadm.org/maps.html GAM] (ресурс с shp-файлами для карт);
  
* [http://math-info.hse.ru/f/2018-19/ling-data/LingData-HW6.pdf Homework 6] (deadline: 15 May, 23:59), [https://raw.githubusercontent.com/LingData2019/LingData/master/hw/rmd-templates/HW6-template.Rmd Rmd-file] to fill in, [https://www.dropbox.com/request/rBTOCpEsNXy6hkzO2f26 link] to submit your .Rmd file
+
Работа с текстами, боты
  
==Final project==
+
* [https://www.datacamp.com/community/tutorials/wordcloud-python Wordclouds]: облака слов в Python;
* [http://math-info.hse.ru/f/2018-19/ling-data/projects.pdf Projects description]
 
  
* Project topics: [https://docs.google.com/spreadsheets/d/1QxLq2JTO9p7xJFo-KP3XyrRbexYwxQhNqTElDAGJEls/edit?usp=sharing link] to the table to fill in
+
* Telegram-боты: [https://tproger.ru/translations/telegram-bot-create-and-deploy/ 1], [https://medium.freecodecamp.org/learn-to-build-your-first-bot-in-telegram-with-python-4c99526765e4 2];
  
* Projects pre-registration (deadline: 28 April, 23:59): [https://www.dropbox.com/request/I6XC3W9GkiAB3aQisxJq link] to submit your file
+
==Домашние задания==
 +
{| class="wikitable"
 +
! Название
 +
! Базовый
 +
! Продвинутый
 +
! Дедлайн: базовый (продвинутый)
  
* Final versions of projects: [https://www.dropbox.com/request/Ds4JI7vs9rAhLAG3tI6o link] to sumbit your files
+
|-
 +
| Домашнее задание 1
 +
| [https://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/py-icef19/icef-hw1/icef-hw1.ipynb hw1-base]
 +
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/add/HW1-adv.ipynb hw1-adv]
 +
| 20 февраля, 23:59 (22 февраля, 23:59)<br>
 +
|-
 +
| Домашнее задание 2
 +
| [https://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/py-icef19/icef-hw2/icef-hw2.ipynb hw2-base]
 +
| [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/add/HW2-adv.ipynb hw2-adv]
 +
| 5 марта, 23:59 (24 марта, 23:59)<br>
 +
|-
 +
| Домашнее задание 3
 +
| [https://nbviewer.jupyter.org/url/python.math-hse.info/static/assignments_release/py-icef19/icef-hw3/icef-hw3.ipynb hw3-base]
 +
| не будет
 +
| 20 марта, 23:59<br>
 +
|-
 +
| Домашнее задание 4
 +
| [https://github.com/allatambov/py-icef/blob/master/icef_hw4.ipynb hw4-base] (грузить [https://www.dropbox.com/request/HbhCrS7RYIY1ax5sdCk2 сюда])
 +
| tba soon
 +
| 7 апреля, 23:59<br>
 +
|-
 +
| Домашнее задание 5
 +
| [https://github.com/allatambov/py-icef/blob/master/icef_hw5.ipynb hw5] (грузить [https://www.dropbox.com/request/o4wvglnC9yQbcq3eic2Y сюда])
 +
| не будет
 +
| 25 апреля, 23:59<br>
 +
|}
 +
Дополнительное ДЗ: [https://nbviewer.jupyter.org/github/allatambov/py-icef/blob/master/hw_last_call.ipynb ссылка], загружать [https://www.dropbox.com/request/PaasvMU843bokPeCkxLs сюда], дедлайн (жесткий): 26 мая 23:59

Текущая версия на 04:12, 7 февраля 2020

Дорогие студенты!

На этой странице будут появляться различные материалы и объявления, связанные с курсом «Python для сбора данных», читаемого для студентов МИЭФ, в весеннем семестре 2018/2019 учебного года.

  • Авторы курса: Щуров Илья Валерьевич, Тамбовцева Алла Андреевна
  • Лекции и семинары ведет: Тамбовцева Алла Андреевна

Правила игры

Проект

  • описание проекта: дедлайн 15 мая 23:59, ссылка для сдачи
  • документация по проекту и программа: дедлайн – день перед защитой, 23:59, ссылка для сдачи

Материалы

Загрузка файла в Jupyter Notebook и прочее: см. инструкцию.

Скачать файл с расширением .ipynb можно так: пройти по ссылке, нажать на стрелочку в правом верхнем углу (Download Notebook) и сохранить файл. При необходимости сменить расширение с .txt на .ipynb.

Дата занятия Тема Занятие Дополнительно
12.02
Знакомство с Jupyter Notebook. Введение в Python.
Ввод и вывод. Строки.

jupyter-intro python-intro
input-output strings

more on Jupyter Notebook, coding style,
string formatting, f-strings, LaTeX

19.02
Списки в Python. Цикл for.
lists split-join
practice-1 practice-1-solutions

lists-methods, Jupyter magic cells,
how-not-to-get-bored-2

26.02
Управляющие конструкции в Python.
Цикл while. Функции в Python.

if-else-while [1]
practice-2
practice-2-solutionspractice-3


how-not-to-get-bored-3

12.03
Ещё немного о функциях. Датафреймы pandas.

practice-3-solutions more-functions
pandas-1 pandas-2 scores2.csv


how-not-to-get-bored-4

19.03
Библиотека pandas: продолжение. Визуализация.

pandas-3 practice-4 practice-4-solutions
elections.csv Titanic.csv


how-not-to-get-bored-5
matplotlib Галерея matplotlib Seaborn

02.04
Парсинг html-файлов. Web-scrapping.
lect-html web-scrape

w3schools веб-дизайн на Coursera
scraping-seminar scaping-solutions

09.04
Управление браузером. Библиотека Selenium.
selenium-1 selenium-2
web-driver web-driver firefox
selector-gadget selenium-books

16.04
Работа с API. Формат json.
[vk-library] vk-instruct
vk-docs vk-api-library
datetime рассылка gmail

Дополнительно:

К проекту - вспомогательные материалы

Статистика: проверка гипотез и регрессионные модели в Python;

Интерактив

  • Dashboards: аналитика и интерактив средствами dash и plotly;
  • Tkinter: создание кнопок и окон с помощью tkinter, Jupyter Widget: интерактивные виджеты в Jupyter;
  • Flask: создание сайтов на платформе Flask средствами Python;

Карты

Работа с текстами, боты

  • Telegram-боты: 1, 2;

Домашние задания

Название Базовый Продвинутый Дедлайн: базовый (продвинутый)
Домашнее задание 1 hw1-base hw1-adv 20 февраля, 23:59 (22 февраля, 23:59)
Домашнее задание 2 hw2-base hw2-adv 5 марта, 23:59 (24 марта, 23:59)
Домашнее задание 3 hw3-base не будет 20 марта, 23:59
Домашнее задание 4 hw4-base (грузить сюда) tba soon 7 апреля, 23:59
Домашнее задание 5 hw5 (грузить сюда) не будет 25 апреля, 23:59

Дополнительное ДЗ: ссылка, загружать сюда, дедлайн (жесткий): 26 мая 23:59