Python для сбора и анализа данных СПб/Задание 10 декабря — различия между версиями

Материалы по математике, 2018-19 учебный год
Перейти к: навигация, поиск
(Новая страница: «# Скачайте файл [http://math-info.hse.ru/f/2018-19/spb-python/testfile.html] (сохраните на диск как HTML-файл, поместит…»)
 
Строка 2: Строка 2:
 
# Откройте его с помощью python (<code>with open("testfile.html") as f</code>) и сохраните как строку с помощью <code>f.read()</code>.
 
# Откройте его с помощью python (<code>with open("testfile.html") as f</code>) и сохраните как строку с помощью <code>f.read()</code>.
 
# Из получившейся строки создайте объект <code>BeautifulSoup</code> (<code>from bs4 import BeautifulSoup</code>).
 
# Из получившейся строки создайте объект <code>BeautifulSoup</code> (<code>from bs4 import BeautifulSoup</code>).
# С помощью BeautifulSoup, создайте датафрейм, в который будет записана таблица с этой страницы. Подсказка: тег <code>table</code> создаёт таблицу, <code>tr</code> — строка таблицы, <code>th</code> — заголовочная ячейка таблицы, <code>td</code> — обычная ячейка таблицы. Вам надо последовательно перебирать строки таблицы, из каждой строки делать список, в который будет записано содержимое ячеек. Потом нужно собрать таблицу как список списков и сделать из неё <code>pandas.DataFrame</code>.
+
# С помощью BeautifulSoup, создайте датафрейм, в который будет записана таблица с этой страницы. Подсказка: тег <code>table</code> обозначает таблицу, <code>tr</code> — строка таблицы, <code>th</code> — заголовочная ячейка таблицы, <code>td</code> — обычная ячейка таблицы. Вам надо последовательно перебирать строки таблицы, из каждой строки делать список, в который будет записано содержимое ячеек. Потом нужно собрать таблицу как список списков и сделать из неё <code>pandas.DataFrame</code>. Текст, записанный в заголовочные ячейки, должен стать названиями строк/колонок в получившемся датафрейме.

Версия 18:17, 10 декабря 2018

  1. Скачайте файл [1] (сохраните на диск как HTML-файл, поместите в тот каталог, в котором работает Jupyter).
  2. Откройте его с помощью python (with open("testfile.html") as f) и сохраните как строку с помощью f.read().
  3. Из получившейся строки создайте объект BeautifulSoup (from bs4 import BeautifulSoup).
  4. С помощью BeautifulSoup, создайте датафрейм, в который будет записана таблица с этой страницы. Подсказка: тег table обозначает таблицу, tr — строка таблицы, th — заголовочная ячейка таблицы, td — обычная ячейка таблицы. Вам надо последовательно перебирать строки таблицы, из каждой строки делать список, в который будет записано содержимое ячеек. Потом нужно собрать таблицу как список списков и сделать из неё pandas.DataFrame. Текст, записанный в заголовочные ячейки, должен стать названиями строк/колонок в получившемся датафрейме.