Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 32: Строка 32:
 
* Работа со строками ([https://nbviewer.org/github/allatambov/Web-scraping/blob/main/strings.ipynb читать], [https://allatambov.github.io/web-scrape/strings.ipynb скачать]).
 
* Работа со строками ([https://nbviewer.org/github/allatambov/Web-scraping/blob/main/strings.ipynb читать], [https://allatambov.github.io/web-scrape/strings.ipynb скачать]).
 
* Необходимые для веб-скреппинга сведения об объектах и конструкциях в Python ([https://github.com/allatambov/Web-scraping/blob/main/basics.ipynb читать], [https://allatambov.github.io/web-scrape/basics.ipynb скачать]).  
 
* Необходимые для веб-скреппинга сведения об объектах и конструкциях в Python ([https://github.com/allatambov/Web-scraping/blob/main/basics.ipynb читать], [https://allatambov.github.io/web-scrape/basics.ipynb скачать]).  
* Семинар 1 ([https://github.com/allatambov/Web-scraping/blob/main/seminar01.ipynb читать], [https://allatambov.github.io/web-scrape/seminar01.ipynb скачать]), решения семинара ([https://github.com/allatambov/Web-scraping/blob/main/seminar01-solutions.ipynb читать], [https://allatambov.github.io/web-scrape/seminar01-solutions.ipynb скачать]).
+
* Семинар 1 ([https://github.com/allatambov/Web-scraping/blob/main/seminar01.ipynb читать], [https://allatambov.github.io/web-scrape/seminar01.ipynb скачать]), решения семинара ([https://nbviewer.org/github/allatambov/allatambov.github.io/blob/master/web-scrape/seminar01-solutions.ipynb читать], [https://allatambov.github.io/web-scrape/seminar01-solutions.ipynb скачать]).
  
 
'''Дополнительно'''
 
'''Дополнительно'''

Версия 00:38, 11 февраля 2022

Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 4 курса бакалавриата в 2021/2022 учебном году.

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.6 × ДЗ + 0.4 × Экзамен.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
  • Программа курса.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию.

Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1) и Python Data Science Toolbox (Part 2).

Материалы

27 января. Введение в web-scraping. Язык HTML и его особенности.

Дополнительно

3 февраля. Структуры данных в Python: списки, кортежи, словари.

Дополнительно

10 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 1

Домашние задания

Задание Дедлайн Файл с заданием
Домашнее задание 1 18.02 смотреть скачать
Домашнее задание 2 TBA
Домашнее задание 3 TBA