Наука о данных/Итоговые проекты: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показана 1 промежуточная версия этого же участника)
Строка 48: Строка 48:
 
|-
 
|-
 
| Визуализация с помощью дополнений к ggplot2<br>
 
| Визуализация с помощью дополнений к ggplot2<br>
| 1 — использовалось любое дополнение [http://www.ggplot2-exts.org/gallery/ отсюда].<br>
+
| 1 — использовалось любое дополнение [https://exts.ggplot2.tidyverse.org/ extension].<br>
 
|-
 
|-
 
| Использовались какие-то технологии, необходимые для реализации проекта, и не обсуждавшиеся в курсе.  
 
| Использовались какие-то технологии, необходимые для реализации проекта, и не обсуждавшиеся в курсе.  
Строка 70: Строка 70:
  
 
* «Самостоятельно написанного» означает, что вы можете копипастить код откуда-то ещё, если он вам нужен для работоспособности вашего проекта — например, со StackOverflow — но любая такая копипаста должна обязательно сопровождаться ссылкой на источник и в зачёт ваших строк не идёт. Такая копипаста должна начинаться с комментария <code>### FROM: (адрес источника)</code> и заканчиваться комментарием <code>### END FROM</code>. Неправильно оформленная копипаста приравнивается к плагиату.
 
* «Самостоятельно написанного» означает, что вы можете копипастить код откуда-то ещё, если он вам нужен для работоспособности вашего проекта — например, со StackOverflow — но любая такая копипаста должна обязательно сопровождаться ссылкой на источник и в зачёт ваших строк не идёт. Такая копипаста должна начинаться с комментария <code>### FROM: (адрес источника)</code> и заканчиваться комментарием <code>### END FROM</code>. Неправильно оформленная копипаста приравнивается к плагиату.
 +
 
== Для вдохновения ==
 
== Для вдохновения ==
 
На [http://math-info.hse.ru/2018-19/Науки_о_данных#.D0.92.D0.B5.D1.81.D0.B5.D0.BD.D0.BD.D0.B8.D0.B9_.D0.BF.D1.80.D0.BE.D0.B5.D0.BA.D1.82 странице курса прошлого года] опубликованы лучшие (по результату peer review) проекты. Нужно иметь в виду, что там были другие требования (другой набор технологий), и это был проект за один модуль, а не за два. Поэтому там в основном питон, pandas и веб-скреппинг, но обычно нет R, нет никакого SQL и т.д. У вас возможностей больше, но и сделать надо проект круче :)
 
На [http://math-info.hse.ru/2018-19/Науки_о_данных#.D0.92.D0.B5.D1.81.D0.B5.D0.BD.D0.BD.D0.B8.D0.B9_.D0.BF.D1.80.D0.BE.D0.B5.D0.BA.D1.82 странице курса прошлого года] опубликованы лучшие (по результату peer review) проекты. Нужно иметь в виду, что там были другие требования (другой набор технологий), и это был проект за один модуль, а не за два. Поэтому там в основном питон, pandas и веб-скреппинг, но обычно нет R, нет никакого SQL и т.д. У вас возможностей больше, но и сделать надо проект круче :)

Текущая версия на 18:52, 2 июня 2020

Проекты выполняются индивидуально и самостоятельно. Проекты оцениваются по принципу peer review, в режиме двойного слепого оценивания. Каждый проект должен получить как минимум три оценки от других студентов, при этом в качестве итоговой оценки используется медиана. При выставлении оценок они должны быть обоснованы. Лектор имеет право пересмотреть оценку, выставленную в ходе peer review, при наличии явных ошибок оценивания (например, рецензент не заметил функцию, которая на самом деле была реализована). Если вы по какой-то причине не можете участвовать в процедуре рецензирования, сообщите об этом до момента сдачи работы. Для получения оценки за проект каждый студент обязан отрецензировать по крайней мере три (можно больше) другие работы.

При сдаче работа должна быть анонимизирована, то есть в ней не должно быть указано имя или другая информация, идентифицирующая автора. Просмотрите свою работу внимательно: ваше имя может случайно оказаться, например, среди системных предупреждений (в путях файлов), в ссылках на внешние ресурсы (если вы хотите использовать github-репозиторий, создайте новый аккаунт, не привязанный к вам), в API-ключах и т.д.

Любое использование чужого кода должно быть явно отмечено (см. ниже).

Требования к проекту

Оценка вычисляется как сумма баллов, набранных по отдельным критериям согласно таблице ниже, делённая на 1.3, и не может превосходить 12 баллов (по 10-балльной шкале).

Для удобства оценивания рекомендуется сопроводить проект описанием того, какие технологии и как в нём используются. Это позволит избежать ситуации, когда рецензент не заметил какой-либо технологии и из-за этого поставил заниженную оценку.

Критерий Баллы
Обработка данных с помощью pandas.
0 — не использовалась; 1 — использовалась в объёме, обсуждаемом в домашних заданиях (в задачах, средних по сложности); 2 — использовались продвинутые возможности pandas, соответствующие наиболее сложных задачам домашних работ или выходящие за рамки домашних работ.
Веб-скреппинг.
0 — не использовался; 1 — использовался базовый веб-скреппинг с помощью beautifulsoup или robobrowser; 2 — использовались более сложные технологии скреппинга (Selenium, scrapy и др.)
Работа с REST API (XML/JSON).
0 — не использовалась; 1 — использовались API примерно в объеме задач домашней работы; 2 — нетривиальное использование API, существенно выходящее за рамки обсуждавшегося в домашних работах.
Визуализация данных.
0 — не использовалась; 1 — базовые визуализации типа «построен scatter plot»; 2 — более сложные визуализации, требующие написания нетривиального кода.
Математические возможности Python (содержательное использование numpy/scipy, SymPy и т.д. для решения математических задач)
0 — не использовалось; 1 — использовалось.
Streamlit 0 — не использовался; 1 — использовался локально (проверяющий должен был скачать файл и запустить на своём компьютере); 2 — проект размещён в интернете (скачивать ничего не надо, достаточно пройти по ссылке и всё запустится).
SQL 0 — не использовался; 1 — использовался
Регулярные выражения (для решения задач, для которых трудно придумать простое решение без регулярных выражений). 0 — не использовались; 1 — использовались.
R 0 — не использовался, 1 — использовался
tidyverse 0 — не использовалась; 1 — использовалась примерно в объёме одной задачи домашней работы; 2 — использовалось что-то более сложное и/или объёмное
Визуализация с помощью ggplot2 0 — не использовалась; 1 — простая визуализация на уровне «построен scatter-plot»; 2 — более сложная визуализация (картинка состоит из нескольких «слоёв» (geom_*)). (При наличии идентичного или похожего кода для Python с библиотекой plotnine и R с библиотекой ggplot2 баллы за ggplot2 не ставятся.)
Визуализация с помощью дополнений к ggplot2
1 — использовалось любое дополнение extension.
Использовались какие-то технологии, необходимые для реализации проекта, и не обсуждавшиеся в курсе. 0 — не использовались; 1 — использовались немножко (на уровне «скачать пример из документации, разобраться, как он работает, и прикруть к своему проекту); 2 — использовались на продвинутом уровне.
Объём (осмысленных строк кода).
0 — 0-120; 1 — 120+.
Целостность проекта 0 — проект выглядит как набор несвязанных компонент; 1 — проект выглядит целостным, все технологии используются по делу.
Общее впечатление.
0 — ну ок; 1 — вау, круто!

Об объёме

Объём проекта измеряется в «осмысленных самостоятельно написанных логических строках кода».

  • «Логических» означает, что если разделить строку на две с помощью кнопки Enter, нажимемой в нужных местах, то это всё равно одна строка.
  • «Осмысленного» означает, что если написать десять раз подряд строчку name = 'Alice', то это не считается.
  • «Самостоятельно написанного» означает, что вы можете копипастить код откуда-то ещё, если он вам нужен для работоспособности вашего проекта — например, со StackOverflow — но любая такая копипаста должна обязательно сопровождаться ссылкой на источник и в зачёт ваших строк не идёт. Такая копипаста должна начинаться с комментария ### FROM: (адрес источника) и заканчиваться комментарием ### END FROM. Неправильно оформленная копипаста приравнивается к плагиату.

Для вдохновения

На странице курса прошлого года опубликованы лучшие (по результату peer review) проекты. Нужно иметь в виду, что там были другие требования (другой набор технологий), и это был проект за один модуль, а не за два. Поэтому там в основном питон, pandas и веб-скреппинг, но обычно нет R, нет никакого SQL и т.д. У вас возможностей больше, но и сделать надо проект круче :)