Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
(Новая страница: «Это страница практикума '''«Web-scraping: сбор данных из баз данных и интернет-источников»''', чи...»)
 
Строка 14: Строка 14:
 
==Материалы курса==
 
==Материалы курса==
  
===Язык HTML и его особенности. Знакомство с BeautifulSoup (19 января)===
+
===Неделя 0. Подготовка к работе. Напоминания про Python и Jupyter Notebook===
 +
 
 +
Для подготовки к работе на курсе можно ознакомиться со следующими материалами [https://edu.hse.ru/course/view.php?id=133389 онлайн-курса]:
 +
 
 +
* [https://edu.hse.ru/mod/page/view.php?id=502433 Видео. Подготовка рабочего места], [https://edu.hse.ru/mod/page/view.php?id=502434 инструкция по открытию файлов в Jupyter Notebook].
 +
* [https://edu.hse.ru/mod/page/view.php?id=502436 Видео. Первая программа], [https://edu.hse.ru/mod/quiz/view.php?id=502439 задачи для тренировки].
 +
 
 +
А также с материалами по работе в Jupyter Notebook и Google Colab:
 +
 
 +
* Запуск Jupyter без Anaconda Navigator ([https://www.dropbox.com/scl/fi/4095f565oudw2pq1hatrp/_-Jupyter.pdf?rlkey=6kucyfzj9uuy5ovrjnrkabt5z&dl=0 инструкция]).
 +
* Работа в Jupyter Notebook ([https://www.dropbox.com/scl/fi/v3wdgps9wjvrtamo08y66/jupyter-interface.mov?rlkey=xwsut0nxs4hjmdsz8vnnqvxfz&dl=0 видео]), работа в Google Colab ([https://www.dropbox.com/scl/fi/znirgzjrnawtjgta5dvfb/colab-interface.mp4?rlkey=nqbloavs7p3p6swraejl9sskw&dl=0 видео]).
 +
 
 +
Дополнительно:
 +
 
 +
* Набор текста в Jupyter ([https://www.dropbox.com/scl/fi/t62c0jxvqrfro1tbxg12t/text-markdown.mp4?rlkey=p0kjc3qeoh4bv6kk8jqhj9pfo&dl=0 видео], [https://www.dropbox.com/scl/fi/vdmpj2ws1axbs832r5cj3/00-intro.ipynb?rlkey=3d8zwm94xjbo8lew2ox8vonj6&dl=0 ipynb]).
 +
* Markdown: [https://gist.github.com/Jekins/2bf2d0638163f1294637 больше] про Markdown, знакомство с Jupyter Notebook и Markdown ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/intro-jupyter.ipynb читать], [http://allatambov.github.io/icef/seminars/intro-jupyter.ipynb ipynb]).
 +
* LaTeX: [https://www.overleaf.com/ Overleaf], [https://www.overleaf.com/learn документация], [https://github.com/allatambov/Latex материалы] других курсов по LaTeX.
 +
 
 +
===Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup===
  
 
* Язык HTML и его особенности: [https://www.dropbox.com/s/igzv6fb0l5fd5dz/Intro_HTML.pdf?dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen.
 
* Язык HTML и его особенности: [https://www.dropbox.com/s/igzv6fb0l5fd5dz/Intro_HTML.pdf?dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen.
 
* Практикум 1.1 ([читать], [скачать]).
 
* Практикум 1.1 ([читать], [скачать]).
* Практикум 2.1 ([читать], [скачать]).
+
* Практикум 1.2 ([читать], [скачать]).
  
 
'''Дополнительно'''
 
'''Дополнительно'''

Версия 08:40, 19 января 2024

Это страница практикума «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» в 2023/2024 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.

Материалы курса

Неделя 0. Подготовка к работе. Напоминания про Python и Jupyter Notebook

Для подготовки к работе на курсе можно ознакомиться со следующими материалами онлайн-курса:

А также с материалами по работе в Jupyter Notebook и Google Colab:

Дополнительно:

Неделя 1. Язык HTML и его особенности. Знакомство с BeautifulSoup

  • Язык HTML и его особенности: слайды, файл на codepen.
  • Практикум 1.1 ([читать], [скачать]).
  • Практикум 1.2 ([читать], [скачать]).

Дополнительно