Web-scraping: сбор данных из баз данных и интернет-источников

Это страница курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 3 курса бакалавриата в 2022/2023 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Содержание

1 Правила игры
2 Среда для работы
3 Для практики
4 Материалы курса
5 Домашние задания

Правила игры

Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.

Для практики

Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1), Python Data Science Toolbox (Part 2), Data Manipulation with pandas.

Если хочется освежить в памяти разные сведения о конструкциях и структурах в Python, можно почитать материалы курса Python для сбора и анализа данных.

Материалы курса

Занятие 01. Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)

Язык HTML и его особенности: слайды, файл на codepen.
Практикум 1 (читать, скачать), решения практикума (читать, скачать).

Дополнительно

Тьюториал по HTML от w3schools.
Учебник от html5book.ru.

Занятие 02. Парсинг HTML-файлов с BeautifulSoup (17 января)

Практикум 2 (читать, скачать), решения практикума (читать, скачать).

Занятие 03. Веб-скреппинг с BeautifulSoup, pandas и json (24 января)

Практикум 3: о некоторых нюансах работы с BeautifulSoup (читать, сырой ipynb).
Обработка таблиц внутри HTML с BeautifulSoup и pandas (читать, ipynb).
Извлечение кода JavaScript из HTML и обработка JSON-строк (читать, ipynb).

Дополнительно

Документация BeautifulSoup.
Обзор регулярных выражений на habr.com, документация модуля re.

Занятие 04. Работа с API ВКонтакте (31 января)

Инструкция по получению доступа к API.
Практикум 4: Работа с API ВКонтакте: (читать, скачать), решения практикума (читать, скачать).

Занятие 05. Работа с текстами: анализ тональности и облака слов (07 февраля)

Практикум 5: анализ тональности и облака слов (читать, скачать), файл comments-as-rows.csv
Документация библиотеки dostoevsky, документация библиотеки pymorphy2, стоп-слова для русского языка.
Тьюториал по облакам слов от DataCamp.

Дополнительно

Визуализация с matplotlib: часть 1, часть 2.
Введение в классы в Python: конспект.

Занятие 06. Управление браузером с Selenium (14 февраля)

Установка Selenium и драйверов для Chrome: инструкция, ссылка на драйвера.
Практикум 6: управление браузером с Selenium на примере ВКонтакте (читать, скачать), решения практикума (читать, ipynb).
Неофициальная документация библиотеки Selenium.

Занятие 07. Управление браузером с Selenium: продолжение (21 февраля)

Практикум 7: управление браузером с Selenium: скроллинг и извлечение ссылок (читать, скачать), решения практикума (читать, скачать).

Занятие 08. Управление браузером с Selenium: завершение (28 февраля)

Практикум 8: управление браузером с Selenium: XPATH и скачивание файлов (читать, скачать), решения практикума (читать, скачать).

Занятие 09. Более продвинутый парсинг с BeautifulSoup (7 марта)

Практикум 9: справляемся с кодировками и капчами (читать, скачать), решения (читать).

Занятие 10. Создание приложений со streamlit (14 марта)

Страница проекта Streamlit, перечень основных функций.
Инструкция по работе со streamlit (читать, ipynb).
Исполняемый файл myapp.py (читать, скачать), txt-файлы с текстами.
Инструкция по публикации приложения (сначала создать аккаунт и репозиторий на Github).

Домашние задания

Домашнее задание №3 объёмное, за него ставится две оценки. Итого за четыре домашних задания студенты получают пять оценок, что равносильно выполнению пяти заданий, заявленных в программе курса.

Домашнее задание	Файл	Дедлайн
Домашнее задание 1	ipynb	17.01 23:59
Домашнее задание 2	ipynb	23.01 23:59
Домашнее задание 3	ipynb	25.02 23:59
Домашнее задание 4	ipynb	23.03 23:59

Web-scraping: сбор данных из баз данных и интернет-источников

Содержание

Правила игры

Среда для работы

Для практики

Материалы курса

Занятие 01. Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)

Занятие 02. Парсинг HTML-файлов с BeautifulSoup (17 января)

Занятие 03. Веб-скреппинг с BeautifulSoup, pandas и json (24 января)

Занятие 04. Работа с API ВКонтакте (31 января)

Занятие 05. Работа с текстами: анализ тональности и облака слов (07 февраля)

Занятие 06. Управление браузером с Selenium (14 февраля)

Занятие 07. Управление браузером с Selenium: продолжение (21 февраля)

Занятие 08. Управление браузером с Selenium: завершение (28 февраля)

Занятие 09. Более продвинутый парсинг с BeautifulSoup (7 марта)

Занятие 10. Создание приложений со streamlit (14 марта)

Домашние задания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Заглавная

Школа лингвистики

Политология

ОП Вычислительные социальные науки

Факультет креативных индустрий

БП Клеточная и молекулярная биотехнология

Архив

Инструменты