Программирование для анализа данных

Материалы по математике, 2018-19 учебный год
Перейти к: навигация, поиск

Дорогие студенты!

На этой странице будут появляться материалы по курсу «Программирование для анализа данных», читаемого в 2018/2019 учебном году на образовательной программе «Коммуникации, основанные на данных» (магистратура, 1 курс).

Преподаватель: Алла Тамбовцева

Программа курса: ссылка.

Программное обеспечение: R и RStudio

R и RStudio

На занятиях мы будем работать в среде RStudio, которая является оболочкой для языка R с удобным интерфейсом. Чтобы программное обеспечение установилось правильно, сначала нужно установить R, а затем RStudio.

Скачать установочный файл R можно на официальном сайте R-project, в разделе CRAN Mirrors, выбрав любую страну, а затем нужную операционную систему.

Для Windows следует выбрать base, а затем кликнуть Download R 3.5.1 for Windows. Для Mac OS X следует выбрать файл R-3.5.1.pkg.

Скачать установочный файл RStudio можно на сайте проекта, перейдя в раздел загрузок в меню Products - RStudio - Download. Нам нужна версия RStudio Desktop (Open Source License), которая скачивается бесплатно.

С краткой инструкцией по работе в RStudio можно ознакомиться по ссылке.

Материалы по курсу

Конспекты лекций представлены в виде html-страниц, опубликованных на RPubs. Чтобы скачать все материалы по курсу (файлы с исходным кодом, таблицы с данными), можно перейти в репозиторий курса на Github, нажать зеленую кнопку Clone or Download, выбрать Download ZIP, скачать архив и распаковать. Никакой регистрации на Github для этого не требуется.

дата тема лекция семинар дополнительно
05.09 R и RStudio. Переменные. rdata-markdown rdata-intro RMarkdown Markdown (русск)
12.09 Векторы в  R. rdata-vectors

sem1 sem1-solutions

Matrices & Lists
20.09 Загрузка файлов. Таблицы в R. rdata-dataframes files

sem2

free-datasets
26.09 Таблицы в R. rdata-wtables data sem2-solutions
02.10 Работа с таблицами средствами dplyr. rcode rdata-dplyr sem3 data sem3-solutions Документация по dplyr.
03.10 Библиотека dplyr: продолжение. - sem4 data sem-4-solutions
10.10 Описание данных. Разведывательный анализ данных. rdata-desc rdata-explore-1 rdata-explore-2 desc-rcode explore-1 explore-2 data - more-explore Визуализация: не надо так
17.10 Визуализация данных средствами ggplot2. Проверка гипотез. rdata-ggplot2 ggplot-rcode sem-6 sem6-solutions helpful-links maps maps2 ggplot2-adv ggplot-practice
20.10 Управляющие конструкции. Функции. conds-rcode funs-rcode sem-7

Домашние задания

Название Дедлайн Задание
Домашнее задание 1 12.09 23:59 hw1-1 hw1-2
Домашнее задание 2 23.09 23:59 hw2
Домашнее задание 3 03.10 23:59 hw3

Проект

Дедлайн: 19 октября 20:00

Текст задания

Пример выполнения (шаблон, без готового кода и графиков)

Интерпретация статистических результатов

Статистические критерии

Выгрузка красивых таблиц через stargazer