Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями
Строка 38: | Строка 38: | ||
* Язык HTML и его особенности: [https://www.dropbox.com/scl/fi/59199zfqsrl556aym1l31/Intro_HTML.pdf?rlkey=ezzjmf5g9i5fpay565abfjm4e&dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen. | * Язык HTML и его особенности: [https://www.dropbox.com/scl/fi/59199zfqsrl556aym1l31/Intro_HTML.pdf?rlkey=ezzjmf5g9i5fpay565abfjm4e&dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen. | ||
− | * Практикум | + | * Практикум 1 ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice01.ipynb читать], [https://www.dropbox.com/scl/fi/ht45kdd6pywssk4z55zw2/psy_practice01.ipynb?rlkey=ubj1x2ls09rtks12ipd6op9t1&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice01_solutions.ipynb читать], [https://www.dropbox.com/scl/fi/e3263lj4ya3f1evr0u92h/psy_practice01_solutions.ipynb?rlkey=2bt9uttpx3hgtuvnzhdwdp6ga&dl=0 скачать]). |
− | * Практикум | + | * Практикум 2 ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice02.ipynb читать], [https://www.dropbox.com/scl/fi/1llm4jghnjc7zqdi0rzzx/psy_practice02.ipynb?rlkey=wxj43p82fby8r4g5xxa0xxcx8&dl=0 скачать]), решения (см. ниже в неделе 2). |
Дополнительно: | Дополнительно: | ||
Строка 48: | Строка 48: | ||
===Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам === | ===Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам === | ||
− | * Практикум | + | * Практикум 2: продолжение ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice02.ipynb читать], [https://www.dropbox.com/scl/fi/1llm4jghnjc7zqdi0rzzx/psy_practice02.ipynb?rlkey=wxj43p82fby8r4g5xxa0xxcx8&dl=0 скачать]), решения ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice02_solutions_upd.ipynb читать], [https://www.dropbox.com/scl/fi/5d1t5l5zwpgwy0yeij21o/psy_practice02_solutions_upd.ipynb?rlkey=tjsijlnx06mrinnt64xyys1ov&dl=0 скачать]). |
− | * | + | * Обработка таблиц внутри HTML с BeautifulSoup и pandas ([https://github.com/allatambov/WebScrape24/blob/main/psy-bs-pandas.ipynb читать], [https://www.dropbox.com/scl/fi/zzig70h5l1rzkuyj0etxh/psy-bs-pandas.ipynb?rlkey=u5wriv45ujk9e5moefwyjrf8c&dl=0 скачать]). |
Дополнительно: | Дополнительно: | ||
Строка 55: | Строка 55: | ||
* Конструкция try-except для ловли ошибок ([https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html статья]). | * Конструкция try-except для ловли ошибок ([https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html статья]). | ||
* Методы на строках ([https://github.com/allatambov/PyPolit2023/blob/main/str-methods.ipynb конспект]). | * Методы на строках ([https://github.com/allatambov/PyPolit2023/blob/main/str-methods.ipynb конспект]). | ||
+ | |||
+ | <!---===Неделя 3. Обработка текстовых данных и регулярные выражения === | ||
+ | |||
+ | * Обработка текста и облака слов (читать, скачать). | ||
+ | * Практикум 3: регулярные выражения в Python (читать, скачать), решения (читать, скачать). | ||
+ | * Извлечение кода JavaScript из HTML и обработка JSON-строк (читать, скачать). | ||
==Домашние задания== | ==Домашние задания== |
Версия 20:40, 27 января 2024
Это страница практикума «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» в 2023/2024 учебном году.
Практические занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
Правила игры
- Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
- Форма для рассылки.
Среда для работы
Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).
Подробности по установке и работе – см. ниже в неделе 0.
Материалы курса
Неделя 0. Напоминания про Python и Jupyter Notebook
Для подготовки к работе на курсе можно ознакомиться со следующими материалами онлайн-курса:
- Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook.
- Видео. Первая программа, задачи для тренировки.
А также с материалами по работе в Jupyter Notebook и Google Colab:
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
Дополнительно:
- Набор текста в Jupyter (видео, ipynb).
- Markdown: больше про Markdown, знакомство с Jupyter Notebook и Markdown (читать, ipynb).
- LaTeX: Overleaf, документация, материалы других курсов по LaTeX.
Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup
- Язык HTML и его особенности: слайды, файл на codepen.
- Практикум 1 (читать, скачать), решения (читать, скачать).
- Практикум 2 (читать, скачать), решения (см. ниже в неделе 2).
Дополнительно:
Неделя 2. Парсинг с BeautifulSoup: поиск по тэгам и атрибутам
- Практикум 2: продолжение (читать, скачать), решения (читать, скачать).
- Обработка таблиц внутри HTML с BeautifulSoup и pandas (читать, скачать).
Дополнительно: