Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями
Строка 52: | Строка 52: | ||
===17 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 2=== | ===17 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 2=== | ||
− | * Видеозапись занятия. | + | * [https://www.dropbox.com/s/v72cvpkesv24zzu/17-02-class04.mp4?dl=0 Видеозапись] занятия. |
+ | * Немного про функции и датафреймы pandas (читать, скачать). | ||
* Семинар 3. Практикум по парсингу ([https://nbviewer.org/github/allatambov/allatambov.github.io/blob/master/web-scrape/parse-02.ipynb читать], [https://allatambov.github.io/web-scrape/parse-02.ipynb скачать]). | * Семинар 3. Практикум по парсингу ([https://nbviewer.org/github/allatambov/allatambov.github.io/blob/master/web-scrape/parse-02.ipynb читать], [https://allatambov.github.io/web-scrape/parse-02.ipynb скачать]). | ||
'''Дополнительно''' | '''Дополнительно''' | ||
+ | * Функции в Python: подробная [https://nbviewer.jupyter.org/github/ischurov/pythonhse/blob/master/Lecture%204.ipynb лекция] И.В.Щурова, датафреймы pandas: [https://nbviewer.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-01.ipynb часть 1], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-02.ipynb часть 2], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-03.ipynb часть 3]. | ||
* Облака слов с библиотекой wordcloud: [https://www.datacamp.com/community/tutorials/wordcloud-python тьюториал]. | * Облака слов с библиотекой wordcloud: [https://www.datacamp.com/community/tutorials/wordcloud-python тьюториал]. | ||
− | * [https://raw.githubusercontent.com/stopwords-iso/stopwords-ru/master/stopwords-ru.txt Список] стоп-слов для русского языка | + | * [https://raw.githubusercontent.com/stopwords-iso/stopwords-ru/master/stopwords-ru.txt Список] стоп-слов для русского языка, библиотека [https://pymorphy2.readthedocs.io/en/stable/ pymorphy2]. |
− | |||
==Домашние задания== | ==Домашние задания== |
Версия 00:19, 18 февраля 2022
Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 4 курса бакалавриата в 2021/2022 учебном году.
Преподаватель: Тамбовцева Алла Андреевна.
Правила игры
- Формула оценки: 0.6 × ДЗ + 0.4 × Экзамен.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
- Программа курса.
Среда для работы
На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию.
Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1) и Python Data Science Toolbox (Part 2).
Материалы
27 января. Введение в web-scraping. Язык HTML и его особенности.
- Видеозапись занятия.
- Язык HTML и его особенности: слайды, файл на codepen.
Дополнительно
3 февраля. Структуры данных в Python: списки, кортежи, словари.
- Видеозапись занятия.
- Работа со строками (читать, скачать).
- Необходимые для веб-скреппинга сведения об объектах и конструкциях в Python (читать, скачать).
- Семинар 1 (читать, скачать), решения семинара (читать, скачать).
Дополнительно
- Списки и цикл for (читать, скачать), методы на списках (читать, скачать).
- Условные конструкции (читать, скачать).
- Кортежи (читать, скачать), словари (читать, скачать).
- Pythontutor: уроки и задачи.
10 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 1
- Видеозапись занятия.
- Семинар 2. Практикум по парсингу (читать, скачать).
Дополнительно
- Документация BeautifulSoup.
17 февраля. Парсинг HTML с библиотекой BeautifulSoup: часть 2
- Видеозапись занятия.
- Немного про функции и датафреймы pandas (читать, скачать).
- Семинар 3. Практикум по парсингу (читать, скачать).
Дополнительно
- Функции в Python: подробная лекция И.В.Щурова, датафреймы pandas: часть 1, часть 2, часть 3.
- Облака слов с библиотекой wordcloud: тьюториал.
- Список стоп-слов для русского языка, библиотека pymorphy2.
Домашние задания
Задание | Дедлайн | Файл с заданием |
---|---|---|
Домашнее задание 1 | 18.02 23:59 | смотреть скачать |
Домашнее задание 2 | TBA | |
Домашнее задание 3 | TBA |