Перейти к основному содержимому

Машинное обучение на Python

Онлайн-учебник DeepMachineLearning.ru сопровождается обучающими примерами работы с данными, а также примерами практического использования машинного обучения на языке Python с помощью библиотек numpy, matplotlib, seaborn, pandas и sklearn.

Формат программ

Код представлен в формате jupyter-ноутбуков, которые открываются непосредственно в google colab. Вы можете их просматривать и сохранять, а если войдёте через google-аккаунт, то и интерактивно менять и запускать непосредственно в браузере.

Ниже представлен список практических обучающих материалов с краткой аннотацией каждого урока:

  • Визуализация признаков для задачи регрессии

    Изучим способы визуализации и анализа признаков для задачи регрессии.

  • Визуализация признаков для задачи классификации

    Рассмотрим методы визуализации и анализа признаков для задачи классификации.

  • Разбиение на подвыборки, оценка качества моделей

    Продемонстрируем способы разбиения исходных данных на обучающие, валидационные и тестовые подвыборки для раздельной оценки параметров, гиперпараметров и оценки точности работы моделей на новых данных.

  • Заполнение пропусков в данных

    Разберём основные варианты работы с данными, содержащими пропущенные значения признаков.

    Это важный этап предобработки, поскольку большинство моделей машинного обучения требуют полностью заполненной матрицы данных.

  • Нормализация вещественных признаков

    Изучим способы нормализации вещественных признаков перед использованием путём

    • приведения признаков к одинаковому масштабу,

    • удаления корреляции между ними,

    • преобразования к заданному распределению.

  • Кодирование категориальных переменных

    Разберём основные варианты представления категориальных признаков в числовом виде.

    Это необходимый этап предобработки данных, поскольку большинство моделей машинного обучения работают только с числовыми входами.

  • Генерация признаков

    Рассмотрим популярные преобразования вещественных признаков для генерации новых признаков, которые повышают гибкость и точность прогнозирования линейными моделями.

  • Ограничения линейной регрессии

    Покажем ограничения линейной регрессии для моделирования нелинейных зависимостей.

    Покажем, как решать эти ограничения с помощью трёх подходов:

    • преобразование целевой переменной,

    • добавление нелинейных признаков в модель,

    • использование нелинейной модели.

  • Квантильное преобразование

    Рассмотрим квантильное преобразование, которое монотонно преобразует непрерывные величины так, чтобы результирующая величина имела заданное распределение (стандартное нормальное или равномерное).

    Продемонстрируем это преобразование применительно к входным признакам и к прогнозируемым откликам для повышения качества прогнозов.