Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 60: Строка 60:
 
* Файлы к практикуму: данные [https://www.dropbox.com/scl/fi/36hu3vfb3jd7yr2pgefxu/nplus1_upd.csv?rlkey=rezn3rzrvpqp6ca4djouu4jrc&dl=0 nplus1_upd.csv], стоп-слова [https://www.dropbox.com/scl/fi/6o8o9eycairqoy6pchhvf/stop_words_russian.txt?rlkey=5k0fpcebpj1mst7as3hy2w2wh&dl=0 stop_words_russian.txt], картинка [https://www.dropbox.com/scl/fi/3jvx33731eidubzozt9k4/42517.jpg?rlkey=ywnj5qq8zff5y00whpx3uirqt&dl=0 jpg].
 
* Файлы к практикуму: данные [https://www.dropbox.com/scl/fi/36hu3vfb3jd7yr2pgefxu/nplus1_upd.csv?rlkey=rezn3rzrvpqp6ca4djouu4jrc&dl=0 nplus1_upd.csv], стоп-слова [https://www.dropbox.com/scl/fi/6o8o9eycairqoy6pchhvf/stop_words_russian.txt?rlkey=5k0fpcebpj1mst7as3hy2w2wh&dl=0 stop_words_russian.txt], картинка [https://www.dropbox.com/scl/fi/3jvx33731eidubzozt9k4/42517.jpg?rlkey=ywnj5qq8zff5y00whpx3uirqt&dl=0 jpg].
 
* Практикум 3: обработка текста и облака слов ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice03.ipynb читать], [https://www.dropbox.com/scl/fi/cts2wjrh0cunputc4iygq/psy_practice03.ipynb?rlkey=uymhp0jv8ydhmla4p52nybn05&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice03_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/atclpm6d4bxm5kilg0f4t/psy_practice03_solutions.ipynb?rlkey=n0u5ec881tmp3b28cmz7j51pu&dl=0 скачать]).
 
* Практикум 3: обработка текста и облака слов ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice03.ipynb читать], [https://www.dropbox.com/scl/fi/cts2wjrh0cunputc4iygq/psy_practice03.ipynb?rlkey=uymhp0jv8ydhmla4p52nybn05&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice03_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/atclpm6d4bxm5kilg0f4t/psy_practice03_solutions.ipynb?rlkey=n0u5ec881tmp3b28cmz7j51pu&dl=0 скачать]).
* Регулярные выражения в Python (читать, скачать).
+
* Регулярные выражения в Python, извлечение кода JavaScript и обработка JSON-строк ([https://github.com/allatambov/WebScrape24/blob/main/psy-re-json.ipynb читать], [https://www.dropbox.com/scl/fi/trl1y9ge5b2wvr66qy7v2/psy-re-json.ipynb?rlkey=3h2z6uefvk4me2qp6prf8jw3o&dl=0 скачать]).
* Извлечение кода JavaScript из HTML и обработка JSON-строк (читать, скачать).
 
  
 
==Домашние задания==
 
==Домашние задания==

Версия 00:12, 9 февраля 2024

Это страница практикума «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» в 2023/2024 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
  • Форма для рассылки.

Среда для работы

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Подробности по установке и работе – см. ниже в неделе 0.

Материалы курса

Неделя 0. Напоминания про Python и Jupyter Notebook

Для подготовки к работе на курсе можно ознакомиться со следующими материалами онлайн-курса:

А также с материалами по работе в Jupyter Notebook и Google Colab:

Дополнительно:

Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup

Дополнительно:

Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам

Дополнительно:

Неделя 3. Обработка текстовых данных и регулярные выражения

Домашние задания

Домашнее задание Дедлайн Файлы
Домашнее задание 1 26.01 23:59 ipynb
Домашнее задание 2 05.02 23:59 ipynb
Домашнее задание 3 ipynb
Домашнее задание 4 ipynb
Домашнее задание 5 ipynb
Домашнее задание 6 ipynb
Домашнее задание 7 ipynb