Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 44: Строка 44:
 
* [https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Документация] BeautifulSoup.
 
* [https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Документация] BeautifulSoup.
 
* [https://habr.com/ru/post/349860/ Обзор] регулярных выражений на habr.com, [https://docs.python.org/3/library/re.html документация] модуля re.
 
* [https://habr.com/ru/post/349860/ Обзор] регулярных выражений на habr.com, [https://docs.python.org/3/library/re.html документация] модуля re.
 +
 +
===Работа с API ВКонтакте (31 января)===
 +
 +
* [https://allatambov.github.io/pypolit/vk-auth.pdf Инструкция] по получению доступа к API.
 +
* Практикум 4: Работа с API ВКонтакте: (читать, [https://www.dropbox.com/s/kjnggjkx5dt7m4l/psy-practice04.ipynb?dl=0 ipynb]), решения практикума (читать, ipynb).
  
 
==Домашние задания==
 
==Домашние задания==

Версия 15:43, 31 января 2023

Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 3 курса бакалавриата в 2022/2023 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.

Для практики

Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1), Python Data Science Toolbox (Part 2), Data Manipulation with pandas.

Если хочется освежить в памяти разные сведения о конструкциях и структурах в Python, можно почитать материалы курса Python для сбора и анализа данных.

Материалы курса

Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)

Дополнительно

Парсинг HTML-файлов с BeautifulSoup (17 января)

Веб-скреппинг с BeautifulSoup, pandas и json (24 января)

  • Практикум 3: о некоторых нюансах работы с BeautifulSoup (читать, сырой ipynb).
  • Обработка таблиц внутри HTML с BeautifulSoup и pandas (читать, ipynb).
  • Извлечение кода JavaScript из HTML и обработка JSON-строк (читать, ipynb).

Дополнительно

Работа с API ВКонтакте (31 января)

  • Инструкция по получению доступа к API.
  • Практикум 4: Работа с API ВКонтакте: (читать, ipynb), решения практикума (читать, ipynb).

Домашние задания

Домашнее задание Файл Дедлайн
Домашнее задание 1 ipynb 17.01 23:59
Домашнее задание 2 ipynb 23.01 23:59
Домашнее задание 3 ipynb
Домашнее задание 4 ipynb
Домашнее задание 5 ipynb