Основы анализа данных в Python: различия между версиями
(не показаны 32 промежуточные версии этого же участника) | |||
Строка 32: | Строка 32: | ||
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error). | Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error). | ||
* '''Лекция 1.''' Введение в выборочные обследования ([https://www.dropbox.com/scl/fi/59cl9oqzsz9czmor6xxx9/01.pdf?rlkey=83j6fx7klob3ukjv4iegifrhh&dl=0 слайды], [https://www.dropbox.com/scl/fi/cv87g6pk97vonmqwtdpcq/01-random.ipynb?rlkey=jugubj6jzqbky12f9l33z9954&dl=0 ipynb] с примерами, файл [https://www.dropbox.com/scl/fi/q4haisl9kjckleenpbwzx/students.csv?rlkey=nykrh05054lgb419zvfhrq72b&dl=0 students.csv]). | * '''Лекция 1.''' Введение в выборочные обследования ([https://www.dropbox.com/scl/fi/59cl9oqzsz9czmor6xxx9/01.pdf?rlkey=83j6fx7klob3ukjv4iegifrhh&dl=0 слайды], [https://www.dropbox.com/scl/fi/cv87g6pk97vonmqwtdpcq/01-random.ipynb?rlkey=jugubj6jzqbky12f9l33z9954&dl=0 ipynb] с примерами, файл [https://www.dropbox.com/scl/fi/q4haisl9kjckleenpbwzx/students.csv?rlkey=nykrh05054lgb419zvfhrq72b&dl=0 students.csv]). | ||
− | * '''Практикум 1.''' Модуль random. Обработка данных с pandas ([https://www.dropbox.com/scl/fi/yuzzun71ilswwpdae30zj/practice01.ipynb?rlkey=zrjio5u50h4s7226hwwijw2ty&dl=0 ipynb], [https://www.dropbox.com/scl/fi/q8o5bu620my6ayu7k7ofr/beasts.csv?rlkey=i3mqs0bl46eauc396ei78o4np&dl=0 beasts.csv]), решения ([https://www.dropbox.com/scl/fi/txubvjdrfp24s4oo22bni/practice01-solutions.ipynb?rlkey=n4l5xbbrpw6g837ij0k13owi4&dl=0 ipynb]). | + | * '''Практикум 1.''' Модуль random. Обработка данных с pandas ([https://github.com/allatambov/PyDat23/blob/main/practice01.ipynb читать], [https://www.dropbox.com/scl/fi/yuzzun71ilswwpdae30zj/practice01.ipynb?rlkey=zrjio5u50h4s7226hwwijw2ty&dl=0 ipynb], [https://www.dropbox.com/scl/fi/q8o5bu620my6ayu7k7ofr/beasts.csv?rlkey=i3mqs0bl46eauc396ei78o4np&dl=0 beasts.csv]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice01-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/txubvjdrfp24s4oo22bni/practice01-solutions.ipynb?rlkey=n4l5xbbrpw6g837ij0k13owi4&dl=0 ipynb]). |
Дополнительно: | Дополнительно: | ||
Строка 53: | Строка 53: | ||
* '''Лекция 3.''' Визуализация данных ([https://www.dropbox.com/scl/fi/5eh1oj2d2qmq3hm4gbjoa/03.pdf?rlkey=7w8b5en3ia9ej2c6vmaplfho6&dl=0 слайды]). | * '''Лекция 3.''' Визуализация данных ([https://www.dropbox.com/scl/fi/5eh1oj2d2qmq3hm4gbjoa/03.pdf?rlkey=7w8b5en3ia9ej2c6vmaplfho6&dl=0 слайды]). | ||
− | * '''Практикум 3.1.''' Обработка пропущенных значений и визуализация количественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-01.ipynb читать], [https://www.dropbox.com/scl/fi/x9rhm4g775r7i1a76fm3m/practice03-01.ipynb?rlkey=rj3yw7k8z0o1jczhjzind5d7z&dl=0 ipynb]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-01-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/zt1r7pn2cwadv8rw4hgvh/practice03-01-solutions.ipynb?rlkey=ijxbzk08lgkx71x33bu3sgn1e&dl=0 ipynb]). | + | * '''Практикум 3.1.''' Обработка пропущенных значений и визуализация количественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-01.ipynb читать], [https://www.dropbox.com/scl/fi/x9rhm4g775r7i1a76fm3m/practice03-01.ipynb?rlkey=rj3yw7k8z0o1jczhjzind5d7z&dl=0 ipynb], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-01-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/zt1r7pn2cwadv8rw4hgvh/practice03-01-solutions.ipynb?rlkey=ijxbzk08lgkx71x33bu3sgn1e&dl=0 ipynb]). |
* '''Практикум 3.2.''' Обработка опросных данных и визуализация качественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-02.ipynb читать], [https://www.dropbox.com/scl/fi/bpecuwss0yywr62zey2qf/practice03-02.ipynb?rlkey=zga897wv5j7ghxa8cabnlei90&dl=0 ipynb], [https://www.dropbox.com/scl/fi/tftzco67gjiz4wlei7i8p/NPK_fin.xlsx?rlkey=usvswu06saee7jafywch2fh3o&dl=0 NPK_fin.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-02-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/ipcrw9mtriixmy40rs6tk/practice03-02-solutions.ipynb?rlkey=rwkytwr8elyrjspsx16efiesz&dl=0 ipynb]). | * '''Практикум 3.2.''' Обработка опросных данных и визуализация качественных данных ([https://github.com/allatambov/PyDat23/blob/main/practice03-02.ipynb читать], [https://www.dropbox.com/scl/fi/bpecuwss0yywr62zey2qf/practice03-02.ipynb?rlkey=zga897wv5j7ghxa8cabnlei90&dl=0 ipynb], [https://www.dropbox.com/scl/fi/tftzco67gjiz4wlei7i8p/NPK_fin.xlsx?rlkey=usvswu06saee7jafywch2fh3o&dl=0 NPK_fin.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice03-02-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/ipcrw9mtriixmy40rs6tk/practice03-02-solutions.ipynb?rlkey=rwkytwr8elyrjspsx16efiesz&dl=0 ipynb]). | ||
* Опрос: [https://forms.gle/36XGihVhVmqPMLWE8 ссылка]. | * Опрос: [https://forms.gle/36XGihVhVmqPMLWE8 ссылка]. | ||
Строка 63: | Строка 63: | ||
* '''Лекция 4.''' Введение в выборочное оценивание: выборочные оценки и доверительные интервалы ([https://www.dropbox.com/scl/fi/lgym2ktt7ulvn9gww05m8/04.pdf?rlkey=tchkxxa61bwxefo516tv2m8sy&dl=0 слайды]). | * '''Лекция 4.''' Введение в выборочное оценивание: выборочные оценки и доверительные интервалы ([https://www.dropbox.com/scl/fi/lgym2ktt7ulvn9gww05m8/04.pdf?rlkey=tchkxxa61bwxefo516tv2m8sy&dl=0 слайды]). | ||
+ | * Иллюстрация действия статистических законов ([https://github.com/allatambov/PyDat23/blob/main/stat-laws.ipynb читать], [https://www.dropbox.com/scl/fi/v2wx9ahscw9oqliqaq8x7/stat-laws.ipynb?rlkey=jnl7uu04on2rjyj5x2fjtsdyi&dl=0 ipynb]). | ||
=== Проверка статистических гипотез === | === Проверка статистических гипотез === | ||
Строка 70: | Строка 71: | ||
* '''Лекция 5.''' Проверка статистических гипотез ([https://www.dropbox.com/scl/fi/w2a7wqx8tmbumvvxvahs3/05.pdf?rlkey=wgvw1dogl65ceqxjpg3uu0kkw&dl=0 слайды]). | * '''Лекция 5.''' Проверка статистических гипотез ([https://www.dropbox.com/scl/fi/w2a7wqx8tmbumvvxvahs3/05.pdf?rlkey=wgvw1dogl65ceqxjpg3uu0kkw&dl=0 слайды]). | ||
− | * '''Практикум 4.''' Доверительные интервалы в Python (читать, [https://www.dropbox.com/scl/fi/pbze4jtbivj0xlsql07c4/practice04.ipynb?rlkey=tg2j27bbrdmd66k4k7v3pv9bl&dl=0 ipynb], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]). | + | * '''Практикум 4.''' Доверительные интервалы в Python ([https://github.com/allatambov/PyDat23/blob/main/practice04.ipynb читать], [https://www.dropbox.com/scl/fi/pbze4jtbivj0xlsql07c4/practice04.ipynb?rlkey=tg2j27bbrdmd66k4k7v3pv9bl&dl=0 ipynb], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice04-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/gbegn9cx9xnzhx2p8rxft/practice04-solutions.ipynb?rlkey=7sh0oc9l0e9kcss6fs218de9p&dl=0 ipynb]). |
− | * '''Практикум 5.''' Проверка гипотез в Python (читать, [https://www.dropbox.com/scl/fi/rangs1g1gbfu4e4091eu5/practice05.ipynb?rlkey=50tpuk0kdigz3s7s45k88vyc1&dl=0 ipynb]). | + | * '''Практикум 5.''' Проверка гипотез в Python ([https://github.com/allatambov/PyDat23/blob/main/practice05.ipynb читать], [https://www.dropbox.com/scl/fi/rangs1g1gbfu4e4091eu5/practice05.ipynb?rlkey=50tpuk0kdigz3s7s45k88vyc1&dl=0 ipynb]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice05-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/0tat1danlc0stfn1acotx/practice05-solutions.ipynb?rlkey=thb1c13alr2tu29c05s78c6i6&dl=0 ipynb]). |
=== Поиск связей в данных === | === Поиск связей в данных === | ||
− | * '''Лекция 6.''' Поиск связей в данных (слайды). | + | Оценка связи между двумя признаками в количественной шкале: коэффициенты корреляции Пирсона и Спирмена.<br> |
− | * '''Практикум 6.''' Поиск связей в данных: введение ([https://github.com/allatambov/PyDat23/blob/main/practice06.ipynb читать], [https://www.dropbox.com/scl/fi/sla05oxdomn0038lgh1s3/practice06.ipynb?rlkey=2amljcvek5gv0rob8r9zzanym&dl=0 ipynb], [https://www.dropbox.com/scl/fi/svq4u1r3g9a7ce3374gck/TaskB4.xlsx?rlkey=9ivtsnfqzjfvoib0ctyci8bkv&dl=0 TaskB4.xlsx], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]). | + | Оценка связи между двумя признаками в качественной шкале: таблицы сопряженности и хи-квадрат критерий согласия Пирсона. |
+ | |||
+ | * '''Лекция 6.''' Поиск связей в данных ([https://www.dropbox.com/scl/fi/o7qev0uo3cxwmnqrdfqim/06.pdf?rlkey=sibdu0t0c4snc40ibrmuw6zbk&dl=0 слайды]). | ||
+ | * '''Практикум 6.''' Поиск связей в данных: введение ([https://github.com/allatambov/PyDat23/blob/main/practice06.ipynb читать], [https://www.dropbox.com/scl/fi/sla05oxdomn0038lgh1s3/practice06.ipynb?rlkey=2amljcvek5gv0rob8r9zzanym&dl=0 ipynb], [https://www.dropbox.com/scl/fi/svq4u1r3g9a7ce3374gck/TaskB4.xlsx?rlkey=9ivtsnfqzjfvoib0ctyci8bkv&dl=0 TaskB4.xlsx], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]), решения ([https://github.com/allatambov/PyDat23/blob/main/practice06-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/kziwk7z1aadvzaf762li8/practice06-solutions.ipynb?rlkey=p5xn0hsjfd8akflz0qo9sz7v9&dl=0 ipynb]). | ||
+ | * '''Практикум 7.''' Повторение ([https://www.dropbox.com/scl/fi/fe49ins3hywu2x74ic8k0/Netflix.csv?rlkey=miwptc5xgp2vmfpm4e6tod5oi&dl=0 Netflix.csv], [https://github.com/allatambov/PyDat23/blob/main/practice07.ipynb читать], [https://www.dropbox.com/scl/fi/9v9cj399fz2qbbwi6d3ug/practice07.ipynb?rlkey=eme0kgseqjouz5c4zvjo6svbr&dl=0 ipynb]). | ||
+ | |||
+ | === Введение в машинное обучение === | ||
+ | |||
+ | Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация, <br>снижение размерности. | ||
+ | Метод k ближайших соседей и его использование для задач классификации. | ||
+ | |||
+ | * '''Лекция 8.1.''' Задачи машинного обучения ([https://www.dropbox.com/scl/fi/ro7n130skg2s0bzk6ihzy/07.pdf?rlkey=u16oohb8nuwbkni3qijerjkwt&dl=0 слайды]). | ||
+ | * '''Лекция 8.2.''' Знакомство с методом k-ближайших соседей ([https://www.dropbox.com/scl/fi/lfudxs7ygf7ugzkudyj8n/08-k.pdf?rlkey=y7xf1m42noh70gldl3vlquhk6&dl=0 слайды]). | ||
+ | * '''Практикум 8.1.''' Метод k ближайших соседей: работаем с изображениями ([https://github.com/allatambov/PyDat23/blob/main/practice_knn_images.ipynb читать], [https://www.dropbox.com/scl/fi/lqri0ur5x0q3r76v4e6rw/practice_knn_images.ipynb?rlkey=bbsonkdw8z3is1ps1chcj4e8s&dl=0 ipynb], [https://www.dropbox.com/scl/fo/v4ugdpn7qg3qvc9xe70dv/h?rlkey=idw5svfv0kcfv2oi4wgqm52ev&dl=0 данные]). | ||
+ | * '''Практикум 8.2.''' Метод k ближайших соседей: работаем с числовыми данными ([https://github.com/allatambov/PyDat23/blob/main/practice_knn_dataframes.ipynb читать], [https://www.dropbox.com/scl/fi/yev8hihxbw99p317fb41r/practice_knn_dataframes.ipynb?rlkey=ob78mckmoubmhmrkpyhycbusw&dl=0 ipynb], [https://www.dropbox.com/scl/fi/8i4nhes7hs2dze14md70x/penguins.csv?rlkey=ito269dqjrczjpfg8e5x50e6v&dl=0 penguins.csv]). | ||
+ | |||
+ | === Линейная регрессия === | ||
+ | |||
+ | * '''Лекция 9.''' Парная линейная регрессия. | ||
+ | * '''Практикум 9.''' Парная и множественная линейная регрессия с точки зрения машинного обучения ([https://www.dropbox.com/scl/fi/2mooeja43n16pr33ligf9/practice-lm-01.ipynb?rlkey=481cgdrxtipjlna97epdi0ly8&dl=0 ipynb], [https://www.dropbox.com/scl/fi/i0rq1eizktu3trl8x8ji8/c.xlsx?rlkey=8bsc7szb539enwz0hymn60lv5&dl=0 c.xlsx]), решения ([https://nbviewer.org/github/allatambov/PyDat23/blob/main/practice-lm-01-solutions.ipynb читать], [https://www.dropbox.com/scl/fi/hckj1gd6t4bxd4lq7clw0/practice-lm-01-solutions.ipynb?rlkey=5j35mehoa2x2tqawm256930ix&dl=0 ipynb]). | ||
+ | * [http://shiny.calpoly.sh/3d_regression/ Визуализация] множественной линейной модели, [https://github.com/pvigier/gradient-descent визуализация] градиентного спуска. | ||
+ | |||
+ | Дополнительно – линейная регрессия с точки зрения классической статистики: | ||
+ | |||
+ | * Парная линейная регрессия ([https://github.com/allatambov/PyReg23/blob/main/reg-practice03.ipynb практикум]), модели с фиктивными переменными ([https://github.com/allatambov/PyReg23/blob/main/reg-practice04.ipynb практикум]), множественная регрессия ([https://github.com/allatambov/PyReg23/blob/main/reg-practice05.ipynb практикум]). | ||
+ | * Линейные модели с эффектом взаимодействия, выгрузка результатов регрессионного анализа ([https://github.com/allatambov/PyReg23/blob/main/reg-practice06.ipynb практикум]). | ||
+ | * Файлы с данными: [https://www.dropbox.com/scl/fi/d5hfs72lc1iga8izkfot5/flats.csv?rlkey=ojh9of42r0lyg0ptju1nlhjvn&dl=0 flats.csv], [https://www.dropbox.com/scl/fi/dqg4g209ogwmphcbvbdem/Tooth.csv?rlkey=md6iojm9xa1vw1y22gg672gn4&dl=0 tooth.csv], [https://www.dropbox.com/scl/fi/ukojdzcwaxa3zkpyz4on0/networks.csv?rlkey=663ddy4xde7i036l8wlpz5ne5&dl=0 networks.csv], [https://www.dropbox.com/scl/fi/0lh7p65rbf71ueuhk4uzf/ug_replication_data.csv?rlkey=jlnw0t6a8wair0l5vs69bbih8&dl=0 ug_replication_data.csv]. | ||
+ | |||
+ | === Логистическая регрессия === | ||
+ | |||
+ | * '''Лекция 10.''' Логистическая регрессия. | ||
+ | * '''Практикум 10.''' Множественная логистическая регрессия ([https://www.dropbox.com/scl/fi/h6msyg28pa1tug3b65f5j/practice-logit.ipynb?rlkey=czhxlvb91512ub5ne5xhqsy3v&dl=0 ipynb], [https://www.dropbox.com/scl/fi/653n8txcvvomyo557jiz8/WhiteChristmas.csv?rlkey=gwi4z0rrg7myg1cm0dg4leo8x&dl=0 WhiteChristmas.csv], [https://www.dropbox.com/scl/fi/lh5qb7vhe38z8b9brw34e/HR.csv?rlkey=lutfrwn0qh2y6sf31t4oaai8s&dl=0 HR.csv]). | ||
=== Домашние задания === | === Домашние задания === | ||
Строка 88: | Строка 120: | ||
| Домашнее задание 2 || [https://www.dropbox.com/scl/fo/ueuojrsjk7bhmnfmqdyjd/h?rlkey=z13iorzbvibl0idng5siw0o1t&dl=0 ipynb] [https://www.dropbox.com/scl/fi/90eps5rgq2w9hgfys2b0c/hp_upd.csv?rlkey=duoftrdijmqjc6hfqomfsg81q&dl=0 hp_upd.csv] || 10.11 23:59 || Dropbox: [https://www.dropbox.com/request/MfPz2yPGhXugqEPqu4qc 211] [https://www.dropbox.com/request/RPOAac4i7Niy17LhXPvw 212] [https://www.dropbox.com/request/eNLndXjDntjQSuWEW0qS 213] [https://www.dropbox.com/request/5zZO38myqvytbXn06SNj 214] | | Домашнее задание 2 || [https://www.dropbox.com/scl/fo/ueuojrsjk7bhmnfmqdyjd/h?rlkey=z13iorzbvibl0idng5siw0o1t&dl=0 ipynb] [https://www.dropbox.com/scl/fi/90eps5rgq2w9hgfys2b0c/hp_upd.csv?rlkey=duoftrdijmqjc6hfqomfsg81q&dl=0 hp_upd.csv] || 10.11 23:59 || Dropbox: [https://www.dropbox.com/request/MfPz2yPGhXugqEPqu4qc 211] [https://www.dropbox.com/request/RPOAac4i7Niy17LhXPvw 212] [https://www.dropbox.com/request/eNLndXjDntjQSuWEW0qS 213] [https://www.dropbox.com/request/5zZO38myqvytbXn06SNj 214] | ||
|- | |- | ||
− | | Домашнее задание 3 || | + | | Домашнее задание 3 || [https://www.dropbox.com/scl/fo/jtbgu3t9srlmi3wj3tuce/h?rlkey=297v60rfpreeyml85oztcbs39&dl=0 ipynb] [https://www.dropbox.com/scl/fi/vpfq7gv57115idmpzvr3h/order_details.csv?rlkey=6syyhpqpsyvrdvwb1o4jtu73k&dl=0 order_details.csv] [https://www.dropbox.com/scl/fi/uk85o21c0zkm90992dcwf/orders.csv?rlkey=p8zmw7sma359yd7p036wus4sk&dl=0 orders.csv]|| 20.11 23:59 || Dropbox: [https://www.dropbox.com/request/bXKDl738Pslnp8KzKBEZ 211] [https://www.dropbox.com/request/3MWkXV5z4yv3g3GEXD5L 212] [https://www.dropbox.com/request/qsdhL81hxEzW900aSD8L 213] [https://www.dropbox.com/request/l3XgahaNRsJeXr2v9nhh 214] |
− | |||
− | |||
|- | |- | ||
− | | Домашнее задание | + | | Домашнее задание 4 || [https://www.dropbox.com/scl/fo/5mbmvph2yej4pgfwcupsi/h?rlkey=451th1f67wequf6hndijzzkz7&dl=0 ipynb] [https://www.dropbox.com/scl/fi/b1l3qvk4du50nakh8gmik/mushrooms.csv?rlkey=t415e4tfplkdqis6u7hicsqy6&dl=0 mushrooms.csv]|| 10.12 23:59 || Dropbox: [https://www.dropbox.com/request/2BdsGxVoKz4qY4zmps12 211] [https://www.dropbox.com/request/ydP3L3UiVfjtOpeLSLmL 212] [https://www.dropbox.com/request/tLjsZ0UrQhMLUgnncJSJ 213] [https://www.dropbox.com/request/cmgAfl5Ew5lqn1bBDVwE 214] |
|- | |- | ||
− | | Домашнее задание | + | | Домашнее задание 5 || [https://www.dropbox.com/scl/fo/syzupoxk93cek5ep4pq24/h?rlkey=8jtwqbcn0vahh5nr5u01j274l&dl=0 ipynb] [https://www.dropbox.com/scl/fi/y638ziw6l429rtf7rr6sr/insurance.csv?rlkey=sxv1gf539k4ho9ea150czirtu&dl=0 insurance.csv] || 17.12 23:59 || Dropbox: [https://www.dropbox.com/request/x3heyJ6FAPdarUnb3dXG 211] [https://www.dropbox.com/request/9Uu2mh7P3uoCwdOGnY2v 212] [https://www.dropbox.com/request/kFnWDItVaV3sRPEK67dV 213] [https://www.dropbox.com/request/lIayctJH1o9BGMqOZjhl 214] |
|- | |- | ||
|} | |} |
Текущая версия на 03:31, 4 мая 2024
Дорогие студенты!
Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.
Преподаватель: Тамбовцева Алла Андреевна.
Правила игры и план курса
- Программа курса, организационная презентация.
- Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
- Подробный план курса, с примерными датами.
- Сопровождающий онлайн-курс «Сбор и анализ данных в Python».
Программное обеспечение
Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).
Установка Anaconda и запуск Jupyter Notebook:
- Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
- Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
- Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
- Набор текста в Jupyter (видео, ipynb).
Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.
Материалы
Введение в выборочные обследования
Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок.
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).
- Лекция 1. Введение в выборочные обследования (слайды, ipynb с примерами, файл students.csv).
- Практикум 1. Модуль random. Обработка данных с pandas (читать, ipynb, beasts.csv), решения (читать, ipynb).
Дополнительно:
- Массивы NumPy и датафреймы Pandas (читать).
- Основные операции с датафреймами Pandas (читать, Salaries.csv)
Описание данных
Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики.
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.
- Лекция 2. Описательные статистики (слайды).
- Практикум 2. Описательные статистики, группировка и агрегирование в pandas (читать, ipynb, c.xlsx), решения (читать, ipynb).
Визуализация данных
Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.
- Лекция 3. Визуализация данных (слайды).
- Практикум 3.1. Обработка пропущенных значений и визуализация количественных данных (читать, ipynb, c.xlsx), решения (читать, ipynb).
- Практикум 3.2. Обработка опросных данных и визуализация качественных данных (читать, ipynb, NPK_fin.xlsx), решения (читать, ipynb).
- Опрос: ссылка.
Выборочное оценивание
Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего.
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.
- Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
- Иллюстрация действия статистических законов (читать, ipynb).
Проверка статистических гипотез
Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость.
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.
- Лекция 5. Проверка статистических гипотез (слайды).
- Практикум 4. Доверительные интервалы в Python (читать, ipynb, c.xlsx), решения (читать, ipynb).
- Практикум 5. Проверка гипотез в Python (читать, ipynb), решения (читать, ipynb).
Поиск связей в данных
Оценка связи между двумя признаками в количественной шкале: коэффициенты корреляции Пирсона и Спирмена.
Оценка связи между двумя признаками в качественной шкале: таблицы сопряженности и хи-квадрат критерий согласия Пирсона.
- Лекция 6. Поиск связей в данных (слайды).
- Практикум 6. Поиск связей в данных: введение (читать, ipynb, TaskB4.xlsx, c.xlsx), решения (читать, ipynb).
- Практикум 7. Повторение (Netflix.csv, читать, ipynb).
Введение в машинное обучение
Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация,
снижение размерности.
Метод k ближайших соседей и его использование для задач классификации.
- Лекция 8.1. Задачи машинного обучения (слайды).
- Лекция 8.2. Знакомство с методом k-ближайших соседей (слайды).
- Практикум 8.1. Метод k ближайших соседей: работаем с изображениями (читать, ipynb, данные).
- Практикум 8.2. Метод k ближайших соседей: работаем с числовыми данными (читать, ipynb, penguins.csv).
Линейная регрессия
- Лекция 9. Парная линейная регрессия.
- Практикум 9. Парная и множественная линейная регрессия с точки зрения машинного обучения (ipynb, c.xlsx), решения (читать, ipynb).
- Визуализация множественной линейной модели, визуализация градиентного спуска.
Дополнительно – линейная регрессия с точки зрения классической статистики:
- Парная линейная регрессия (практикум), модели с фиктивными переменными (практикум), множественная регрессия (практикум).
- Линейные модели с эффектом взаимодействия, выгрузка результатов регрессионного анализа (практикум).
- Файлы с данными: flats.csv, tooth.csv, networks.csv, ug_replication_data.csv.
Логистическая регрессия
- Лекция 10. Логистическая регрессия.
- Практикум 10. Множественная логистическая регрессия (ipynb, WhiteChristmas.csv, HR.csv).
Домашние задания
Домашнее задание | Файлы | Дедлайн | Сдача |
---|---|---|---|
Домашнее задание 1 | ipynb owls.csv | 08.10 23:59 | ссылка на Dropbox |
Домашнее задание 2 | ipynb hp_upd.csv | 10.11 23:59 | Dropbox: 211 212 213 214 |
Домашнее задание 3 | ipynb order_details.csv orders.csv | 20.11 23:59 | Dropbox: 211 212 213 214 |
Домашнее задание 4 | ipynb mushrooms.csv | 10.12 23:59 | Dropbox: 211 212 213 214 |
Домашнее задание 5 | ipynb insurance.csv | 17.12 23:59 | Dropbox: 211 212 213 214 |