Python для сбора и анализа данных СПб/Задание 10 декабря

Материалы по математике, 2018-19 учебный год
Перейти к: навигация, поиск
  1. Скачайте файл [1] (сохраните на диск как HTML-файл, поместите в тот каталог, в котором работает Jupyter — на компьютерах в классе это домашний каталог пользователя; можно проверить, в каком каталоге вы сейчас находитесь, с помощью import os; os.getcwd().
  2. Откройте его с помощью python (with open("testfile.html") as f:) и сохраните как строку с помощью f.read().
  3. Из получившейся строки создайте объект BeautifulSoup (from bs4 import BeautifulSoup).
  4. С помощью BeautifulSoup, создайте датафрейм, в который будет записана таблица с этой страницы. Подсказка: тег table обозначает таблицу, tr — строка таблицы, th — заголовочная ячейка таблицы, td — обычная ячейка таблицы. Вам надо последовательно перебирать строки таблицы, из каждой строки делать список, в который будет записано содержимое ячеек. Потом нужно собрать таблицу как список списков и сделать из неё pandas.DataFrame. Текст, записанный в заголовочные ячейки, должен стать названиями строк/колонок в получившемся датафрейме.