Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 71: Строка 71:
 
* [https://www.dropbox.com/s/mg04qo4w7w110fk/03-03-class06.mp4?dl=0 Видеозапись] занятия.
 
* [https://www.dropbox.com/s/mg04qo4w7w110fk/03-03-class06.mp4?dl=0 Видеозапись] занятия.
 
* Исключения ([читать], [скачать]). BeautifulSoup и pandas ([читать], [скачать]).
 
* Исключения ([читать], [скачать]). BeautifulSoup и pandas ([читать], [скачать]).
* Введение в Selenium ([читать], [скачать]). [https://chromedriver.chromium.org/downloads Драйвер] для Chrome.
+
* Установка драйверов для Selenium: для [https://chromedriver.chromium.org/downloads Chrome], для [https://github.com/mozilla/geckodriver/releases/ Firefox], [https://allatambov.github.io/icef/instr-wb.pdf решение] проблем на Mac.
  
 
'''Дополнительно'''
 
'''Дополнительно'''
Строка 80: Строка 80:
  
 
* [https://www.dropbox.com/s/citm0818h0rgyi9/10-03-class07.mp4?dl=0 Видеозапись] занятия.
 
* [https://www.dropbox.com/s/citm0818h0rgyi9/10-03-class07.mp4?dl=0 Видеозапись] занятия.
* Управление браузером Selenium + BeautifulSoup (смотреть, скачать).
+
* Управление браузером Selenium + BeautifulSoup ([https://nbviewer.org/github/allatambov/allatambov.github.io/blob/master/web-scrape/selenium-bg.ipynb смотреть], [https://allatambov.github.io/web-scrape/selenium-bg.ipynb скачать]).
* Selenium и работа с ВКонтакте (смотреть, скачать).
+
* Selenium и работа с ВКонтакте ([https://gist.github.com/allatambov/3ac71ed0b14106080107950676dee42c начало]).
 +
 
 +
'''Дополнительно'''
 +
 
 +
* Немного про lambda-функции: [https://nbviewer.jupyter.org/github/allatambov/PyDat-0919/blob/master/lectures-seminars/5-files/lambda-functions.ipynb конспект].
  
 
==Домашние задания==
 
==Домашние задания==

Версия 02:18, 17 марта 2022

Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 4 курса бакалавриата в 2021/2022 учебном году.

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.6 × ДЗ + 0.4 × Экзамен.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
  • Программа курса.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию.

Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1) и Python Data Science Toolbox (Part 2).

Материалы

27 января. Введение в web-scraping. Язык HTML и его особенности

Дополнительно

3 февраля. Структуры данных в Python: списки, кортежи, словари

Дополнительно

10 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 1

Дополнительно

17 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 2

Дополнительно

24 февраля. Работа с текстами: облака слов и первичная обработка текста

3 марта. Исключения. BeautifulSoup и pandas. Введение в Selenium

  • Видеозапись занятия.
  • Исключения ([читать], [скачать]). BeautifulSoup и pandas ([читать], [скачать]).
  • Установка драйверов для Selenium: для Chrome, для Firefox, решение проблем на Mac.

Дополнительно

10 марта. Управление браузером с библиотекой Selenium

Дополнительно

Домашние задания

Задание Дедлайн Файл с заданием
Домашнее задание 1 18.02 23:59 смотреть скачать
Домашнее задание 2 04.03 23:59 смотреть скачать
Домашнее задание 3 TBA