Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 12: Строка 12:
 
На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно [https://www.anaconda.com/products/individual здесь]. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое [https://www.dropbox.com/s/9zku0zb6ttq71f5/intro-jupyter.mp4?dl=0 видео] и почитать [https://allatambov.github.io/icef/seminars/instruction-JN.pdf инструкцию]. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду [https://colab.research.google.com/ Google Colab], она бесплатна, но для работы нужен аккаунт Gmail.  
 
На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно [https://www.anaconda.com/products/individual здесь]. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое [https://www.dropbox.com/s/9zku0zb6ttq71f5/intro-jupyter.mp4?dl=0 видео] и почитать [https://allatambov.github.io/icef/seminars/instruction-JN.pdf инструкцию]. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду [https://colab.research.google.com/ Google Colab], она бесплатна, но для работы нужен аккаунт Gmail.  
  
Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): [https://app.datacamp.com/learn/courses/intro-to-python-for-data-science Introduction to Python], [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-1 Python Data Science Toolbox (Part 1)] и [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-2 Python Data Science Toolbox (Part 2)].
+
==Для практики==
  
==Материалы==
+
Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): [https://app.datacamp.com/learn/courses/intro-to-python-for-data-science Introduction to Python], [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-1 Python Data Science Toolbox (Part 1)], [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-2 Python Data Science Toolbox (Part 2)], [https://app.datacamp.com/learn/courses/data-manipulation-with-pandas Data Manipulation with pandas].
 +
 
 +
Если хочется освежить в памяти разные сведения о конструкциях и структурах в Python, можно почитать материалы курса [http://math-info.hse.ru/s21/n Python для сбора и анализа данных].
 +
 
 +
==Материалы курса==
  
 
===Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)===
 
===Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)===
Строка 25: Строка 29:
 
* [https://www.w3schools.com/html/ Тьюториал] по HTML от w3schools.
 
* [https://www.w3schools.com/html/ Тьюториал] по HTML от w3schools.
 
* [https://html5book.ru/html-tags/ Учебник] от html5book.ru.
 
* [https://html5book.ru/html-tags/ Учебник] от html5book.ru.
 +
 +
===Парсинг HTML-файлов с BeautifulSoup (17 января)===
 +
 +
* Практикум 2 (читать, скачать), решения практикума (читать, скачать).

Версия 20:07, 10 января 2023

Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 3 курса бакалавриата в 2022/2023 учебном году.

Практические занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.

Среда для работы

На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.

Для практики

Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1), Python Data Science Toolbox (Part 2), Data Manipulation with pandas.

Если хочется освежить в памяти разные сведения о конструкциях и структурах в Python, можно почитать материалы курса Python для сбора и анализа данных.

Материалы курса

Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)

Дополнительно

Парсинг HTML-файлов с BeautifulSoup (17 января)

  • Практикум 2 (читать, скачать), решения практикума (читать, скачать).