Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями
Строка 49: | Строка 49: | ||
* [https://allatambov.github.io/pypolit/vk-auth.pdf Инструкция] по получению доступа к API. | * [https://allatambov.github.io/pypolit/vk-auth.pdf Инструкция] по получению доступа к API. | ||
* Практикум 4: Работа с API ВКонтакте: ([https://github.com/allatambov/WebScrape23/blob/main/psy-practice04.ipynb читать], [https://www.dropbox.com/s/epd2mjxgo065dvu/psy-practice04.ipynb?dl=0 скачать]), решения практикума ([https://github.com/allatambov/WebScrape23/blob/main/psy-practice04-solutions.ipynb читать], [https://www.dropbox.com/s/dpxfbf2erlr208u/psy-practice04-solutions.ipynb?dl=0 скачать]). | * Практикум 4: Работа с API ВКонтакте: ([https://github.com/allatambov/WebScrape23/blob/main/psy-practice04.ipynb читать], [https://www.dropbox.com/s/epd2mjxgo065dvu/psy-practice04.ipynb?dl=0 скачать]), решения практикума ([https://github.com/allatambov/WebScrape23/blob/main/psy-practice04-solutions.ipynb читать], [https://www.dropbox.com/s/dpxfbf2erlr208u/psy-practice04-solutions.ipynb?dl=0 скачать]). | ||
+ | |||
+ | ===Работа с текстами: анализ тональности и облака слов (07 февраля)=== | ||
+ | |||
+ | * Практикум 5: анализ тональности и облака слов ([https://github.com/allatambov/WebScrape23/blob/main/practice-texts.ipynb читать], [https://www.dropbox.com/s/fo44rw1cl0f6rph/practice-texts.ipynb?dl=0 скачать]). | ||
+ | * [https://github.com/bureaucratic-labs/dostoevsky Документация] библиотеки dostoevsky, [https://pymorphy2.readthedocs.io/en/stable/ документация] библиотеки pymorphy2, [https://countwordsfree.com/stopwords/russian стоп-слова] для русского языка. | ||
+ | * [https://www.datacamp.com/tutorial/wordcloud-python Тьюториал] по облакам слов от DataCamp. | ||
+ | |||
+ | '''Дополнительно''' | ||
+ | |||
+ | * Визуализация с matplotlib: [https://nbviewer.org/github/allatambov/PyGoOn/blob/main/VISUALIZATION-PART01.ipynb часть 1], [https://nbviewer.org/github/allatambov/PyGoOn/blob/main/VISUALISATION-PART02.ipynb часть 2]. | ||
==Домашние задания== | ==Домашние задания== |
Версия 04:29, 11 февраля 2023
Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 3 курса бакалавриата в 2022/2023 учебном году.
Практические занятия ведёт: Тамбовцева Алла Андреевна.
Правила игры
- Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
Среда для работы
На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.
Для практики
Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1), Python Data Science Toolbox (Part 2), Data Manipulation with pandas.
Если хочется освежить в памяти разные сведения о конструкциях и структурах в Python, можно почитать материалы курса Python для сбора и анализа данных.
Материалы курса
Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)
- Язык HTML и его особенности: слайды, файл на codepen.
- Практикум 1 (читать, скачать), решения практикума (читать, скачать).
Дополнительно
Парсинг HTML-файлов с BeautifulSoup (17 января)
Веб-скреппинг с BeautifulSoup, pandas и json (24 января)
- Практикум 3: о некоторых нюансах работы с BeautifulSoup (читать, сырой ipynb).
- Обработка таблиц внутри HTML с BeautifulSoup и pandas (читать, ipynb).
- Извлечение кода JavaScript из HTML и обработка JSON-строк (читать, ipynb).
Дополнительно
- Документация BeautifulSoup.
- Обзор регулярных выражений на habr.com, документация модуля re.
Работа с API ВКонтакте (31 января)
- Инструкция по получению доступа к API.
- Практикум 4: Работа с API ВКонтакте: (читать, скачать), решения практикума (читать, скачать).
Работа с текстами: анализ тональности и облака слов (07 февраля)
- Практикум 5: анализ тональности и облака слов (читать, скачать).
- Документация библиотеки dostoevsky, документация библиотеки pymorphy2, стоп-слова для русского языка.
- Тьюториал по облакам слов от DataCamp.
Дополнительно
Домашние задания
Домашнее задание | Файл | Дедлайн |
---|---|---|
Домашнее задание 1 | ipynb | 17.01 23:59 |
Домашнее задание 2 | ipynb | 23.01 23:59 |
Домашнее задание 3 | ipynb | |
Домашнее задание 4 | ipynb | |
Домашнее задание 5 | ipynb |