Web-scraping: сбор данных из баз данных и интернет-источников: различия между версиями
Строка 13: | Строка 13: | ||
Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): [https://app.datacamp.com/learn/courses/intro-to-python-for-data-science Introduction to Python], [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-1 Python Data Science Toolbox (Part 1)] и [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-2 Python Data Science Toolbox (Part 2)]. | Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): [https://app.datacamp.com/learn/courses/intro-to-python-for-data-science Introduction to Python], [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-1 Python Data Science Toolbox (Part 1)] и [https://app.datacamp.com/learn/courses/python-data-science-toolbox-part-2 Python Data Science Toolbox (Part 2)]. | ||
+ | |||
+ | ==Материалы== | ||
+ | |||
+ | ===Язык HTML и его особенности. Знакомство с BeautifulSoup (10 января)=== | ||
+ | |||
+ | * Язык HTML и его особенности: [https://www.dropbox.com/s/igzv6fb0l5fd5dz/Intro_HTML.pdf?dl=0 слайды], [https://codepen.io/allatambov/pen/QWOwJmN файл] на codepen. | ||
+ | * Практикум 1 ([https://github.com/allatambov/WebScrape23/blob/main/psy-practice01.ipynb читать], [https://www.dropbox.com/s/i77tqdbgjydhev2/psy-practice01.ipynb?dl=0 скачать]), решения практикума (читать, скачать). |
Версия 15:12, 10 января 2023
Это страница обязательного курса «Web-scraping: сбор данных из баз данных и интернет-источников», читаемого на программе «Психология» 3 курса бакалавриата в 2022/2023 учебном году.
Практические занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
Правила игры
- Формула оценки: 0.5 × ДЗ + 0.5 × Проект, программа курса.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
Среда для работы
На данном курсе мы используем язык Python версии не ниже 3.5 и среду Jupyter Notebook. Скачать дистрибутив Anaconda, который установит интерпретатор Python, среду Jupyter Notebook и основные библиотеки для работы с данными, можно здесь. Если вы никогда не работали в Jupyter Notebook, предлагаем посмотреть небольшое видео и почитать инструкцию. В течение первой половины курса вместо Jupyter Notebook можно использовать онлайн-среду Google Colab, она бесплатна, но для работы нужен аккаунт Gmail.
Если вы имеете мало опыта работы с Python, рекомендуем обратиться к следующим курсам на DataCamp (бесплатный доступ предоставлен всем слушателям этого курса): Introduction to Python, Python Data Science Toolbox (Part 1) и Python Data Science Toolbox (Part 2).