Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 76: Строка 76:
  
 
* Файлы к практикуму: [https://www.dropbox.com/scl/fi/psuzk68zsd2nuv1rfoodt/comments_as_rows.csv?rlkey=tswuam066calbdpk44je965h0&dl=0 comments-as-rows.csv].
 
* Файлы к практикуму: [https://www.dropbox.com/scl/fi/psuzk68zsd2nuv1rfoodt/comments_as_rows.csv?rlkey=tswuam066calbdpk44je965h0&dl=0 comments-as-rows.csv].
* Практикум 5: работа с ВКонтакте ([https://github.com/allatambov/WebScrape24/blob/main/psy-practice05.ipynb читать], [https://www.dropbox.com/scl/fi/gpkvpufc696nvs09pnudr/psy-practice05.ipynb?rlkey=c8zi45fsvtghxah61z9191ksm&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice05_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/rv1uiyj81tjuj2ugnzf3m/psy_practice05_solutions.ipynb?rlkey=yxdnjbdiev5d3hjh0oa9m4jkv&dl=0 скачать])
+
* Практикум 5: работа с ВКонтакте ([https://github.com/allatambov/WebScrape24/blob/main/psy-practice05.ipynb читать], [https://www.dropbox.com/scl/fi/gpkvpufc696nvs09pnudr/psy-practice05.ipynb?rlkey=c8zi45fsvtghxah61z9191ksm&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice05_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/rv1uiyj81tjuj2ugnzf3m/psy_practice05_solutions.ipynb?rlkey=yxdnjbdiev5d3hjh0oa9m4jkv&dl=0 скачать]).
 
* Практикум 5*: анализ тональности ([https://www.dropbox.com/scl/fi/8g5hmfoh4vqbmt29ff57u/psy_practice05_texts.ipynb?rlkey=5ums5a37jhkwkrwklvgrxv7zu&dl=0 скачать]).
 
* Практикум 5*: анализ тональности ([https://www.dropbox.com/scl/fi/8g5hmfoh4vqbmt29ff57u/psy_practice05_texts.ipynb?rlkey=5ums5a37jhkwkrwklvgrxv7zu&dl=0 скачать]).
 +
* Подготовка к следующей теме – знакомство с Selenium ([https://github.com/allatambov/WebScrape24/blob/main/selenium-intro.ipynb читать], [https://www.dropbox.com/scl/fi/2o3pfqav2938dh2a6cw09/selenium-intro.ipynb?rlkey=wsv7sw6vfs97pp6xdbya2gsqf&dl=0 скачать]).
  
 
Дополнительно:
 
Дополнительно:

Версия 19:21, 29 февраля 2024

Это страница практикума «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» в 2023/2024 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
  • Форма для рассылки.

Среда для работы

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Подробности по установке и работе – см. ниже в неделе 0.

Материалы курса

Неделя 0. Напоминания про Python и Jupyter Notebook

Для подготовки к работе на курсе можно ознакомиться со следующими материалами онлайн-курса:

А также с материалами по работе в Jupyter Notebook и Google Colab:

Дополнительно:

Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup

Дополнительно:

Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам

Дополнительно:

Неделя 3. Обработка текстовых данных и регулярные выражения

Дополнительно:

Неделя 4. Введение в работу с API

Неделя 5. Работа с API ВКонтакте. Базовый анализ тональности текстов

Дополнительно:

Домашние задания

Домашнее задание Дедлайн Файлы
Домашнее задание 1 26.01 23:59 ipynb
Домашнее задание 2 05.02 23:59 ipynb
Домашнее задание 3 26.02 23:59 ipynb
Домашнее задание 4 04.03 23:59 ipynb
Домашнее задание 5 ipynb
Домашнее задание 6 ipynb