Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 35: Строка 35:
 
===Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup===
 
===Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup===
  
* Язык HTML и его особенности: [https://www.dropbox.com/s/igzv6fb0l5fd5dz/Intro_HTML.pdf?dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen.
+
* Язык HTML и его особенности: [https://www.dropbox.com/scl/fi/59199zfqsrl556aym1l31/Intro_HTML.pdf?rlkey=ezzjmf5g9i5fpay565abfjm4e&dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen.
* Практикум 1.1 ([читать], [скачать]).
+
* Практикум 1.1 ([https://github.com/allatambov/WebScrape24/blob/main/psy_practice01.ipynb читать], [https://www.dropbox.com/scl/fi/ht45kdd6pywssk4z55zw2/psy_practice01.ipynb?rlkey=ubj1x2ls09rtks12ipd6op9t1&dl=0 скачать]).
 
* Практикум 1.2 ([читать], [скачать]).
 
* Практикум 1.2 ([читать], [скачать]).
  
 
'''Дополнительно'''
 
'''Дополнительно'''
  
* [https://www.w3schools.com/html/ Тьюториал] по HTML от w3schools.
+
* [https://www.w3schools.com/html/ Тьюториал] по HTML от w3schools, [https://html5book.ru/html-tags/ учебник] от html5book.ru.
* [https://html5book.ru/html-tags/ Учебник] от html5book.ru.
 
 
* [https://en.wikipedia.org/wiki/List_of_HTTP_status_codes Статья] об ошибках запросов.
 
* [https://en.wikipedia.org/wiki/List_of_HTTP_status_codes Статья] об ошибках запросов.

Версия 09:24, 19 января 2024

Это страница практикума «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» в 2023/2024 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Подробности по установке и работе – см. ниже в неделе 0.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.

Материалы курса

Неделя 0. Подготовка к работе. Напоминания про Python и Jupyter Notebook

Для подготовки к работе на курсе можно ознакомиться со следующими материалами онлайн-курса:

А также с материалами по работе в Jupyter Notebook и Google Colab:

Дополнительно:

Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup

Дополнительно