Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями
Строка 76: | Строка 76: | ||
* Файлы к практикуму: [https://www.dropbox.com/scl/fi/psuzk68zsd2nuv1rfoodt/comments_as_rows.csv?rlkey=tswuam066calbdpk44je965h0&dl=0 comments-as-rows.csv]. | * Файлы к практикуму: [https://www.dropbox.com/scl/fi/psuzk68zsd2nuv1rfoodt/comments_as_rows.csv?rlkey=tswuam066calbdpk44je965h0&dl=0 comments-as-rows.csv]. | ||
− | * Практикум 5: работа с ВКонтакте ([https://github.com/allatambov/WebScrape24/blob/main/psy-practice05.ipynb читать], [https://www.dropbox.com/scl/fi/gpkvpufc696nvs09pnudr/psy-practice05.ipynb?rlkey=c8zi45fsvtghxah61z9191ksm&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice05_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/rv1uiyj81tjuj2ugnzf3m/psy_practice05_solutions.ipynb?rlkey=yxdnjbdiev5d3hjh0oa9m4jkv&dl=0 скачать]) | + | * Практикум 5: работа с ВКонтакте ([https://github.com/allatambov/WebScrape24/blob/main/psy-practice05.ipynb читать], [https://www.dropbox.com/scl/fi/gpkvpufc696nvs09pnudr/psy-practice05.ipynb?rlkey=c8zi45fsvtghxah61z9191ksm&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice05_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/rv1uiyj81tjuj2ugnzf3m/psy_practice05_solutions.ipynb?rlkey=yxdnjbdiev5d3hjh0oa9m4jkv&dl=0 скачать]). |
* Практикум 5*: анализ тональности ([https://www.dropbox.com/scl/fi/8g5hmfoh4vqbmt29ff57u/psy_practice05_texts.ipynb?rlkey=5ums5a37jhkwkrwklvgrxv7zu&dl=0 скачать]). | * Практикум 5*: анализ тональности ([https://www.dropbox.com/scl/fi/8g5hmfoh4vqbmt29ff57u/psy_practice05_texts.ipynb?rlkey=5ums5a37jhkwkrwklvgrxv7zu&dl=0 скачать]). | ||
+ | * Подготовка к следующей теме – знакомство с Selenium ([https://github.com/allatambov/WebScrape24/blob/main/selenium-intro.ipynb читать], [https://www.dropbox.com/scl/fi/2o3pfqav2938dh2a6cw09/selenium-intro.ipynb?rlkey=wsv7sw6vfs97pp6xdbya2gsqf&dl=0 скачать]). | ||
Дополнительно: | Дополнительно: |
Версия 19:21, 29 февраля 2024
Это страница практикума «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» в 2023/2024 учебном году.
Практические занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Среда для работы
- 3 Материалы курса
- 3.1 Неделя 0. Напоминания про Python и Jupyter Notebook
- 3.2 Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup
- 3.3 Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам
- 3.4 Неделя 3. Обработка текстовых данных и регулярные выражения
- 3.5 Неделя 4. Введение в работу с API
- 3.6 Неделя 5. Работа с API ВКонтакте. Базовый анализ тональности текстов
- 4 Домашние задания
Правила игры
- Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
- Форма для рассылки.
Среда для работы
Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).
Подробности по установке и работе – см. ниже в неделе 0.
Материалы курса
Неделя 0. Напоминания про Python и Jupyter Notebook
Для подготовки к работе на курсе можно ознакомиться со следующими материалами онлайн-курса:
- Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook.
- Видео. Первая программа, задачи для тренировки.
А также с материалами по работе в Jupyter Notebook и Google Colab:
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
Дополнительно:
- Набор текста в Jupyter (видео, ipynb).
- Markdown: больше про Markdown, знакомство с Jupyter Notebook и Markdown (читать, ipynb).
- LaTeX: Overleaf, документация, материалы других курсов по LaTeX.
Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup
- Язык HTML и его особенности: слайды, файл на codepen.
- Практикум 1 (читать, скачать), решения (читать, скачать).
- Практикум 2 (читать, скачать), решения (см. ниже в неделе 2).
Дополнительно:
Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам
- Практикум 2: продолжение (читать, скачать), решения (читать, скачать).
- Обработка таблиц внутри HTML с BeautifulSoup и pandas (читать, скачать).
Дополнительно:
Неделя 3. Обработка текстовых данных и регулярные выражения
- Файлы к практикуму: данные nplus1_upd.csv, стоп-слова stop_words_russian.txt, картинка jpg.
- Практикум 3: обработка текста и облака слов (читать, скачать), решения (читать, скачать).
- Регулярные выражения в Python, извлечение кода JavaScript и обработка JSON-строк (читать, скачать).
Дополнительно:
Неделя 4. Введение в работу с API
- Практикум 4. Введение в работу с API на примере API Википедии (читать, скачать), решения (читать, скачать).
- Инструкция по получению доступа к API.
- Практикум 5 (читать, скачать), решения см. в неделе 5.
Неделя 5. Работа с API ВКонтакте. Базовый анализ тональности текстов
- Файлы к практикуму: comments-as-rows.csv.
- Практикум 5: работа с ВКонтакте (читать, скачать), решения (читать, скачать).
- Практикум 5*: анализ тональности (скачать).
- Подготовка к следующей теме – знакомство с Selenium (читать, скачать).
Дополнительно:
- Документация библиотеки dostoevsky.
Домашние задания
Домашнее задание | Дедлайн | Файлы |
---|---|---|
Домашнее задание 1 | 26.01 23:59 | ipynb |
Домашнее задание 2 | 05.02 23:59 | ipynb |
Домашнее задание 3 | 26.02 23:59 | ipynb |
Домашнее задание 4 | 04.03 23:59 | ipynb |
Домашнее задание 5 | ipynb | |
Домашнее задание 6 | ipynb |