Перейти к основному содержимому

Посвящается моей жене Ирине.

Машинное и глубокое обучение

Машинное обучение (machine learning) решает задачу построения прогноза по входному описанию исследуемого объекта (object), при этом параметры прогнозирующей функции или модели не задаются явно, а определяются автоматически в результате процедуры обучения (model training) на так называемой обучающей выборке (training set) - размеченном (в задаче с учителем) или не размеченном (в задаче без учителя) наборе объектов.

Автоматическая настройка параметров позволяет существенно упростить и ускорить построение прогнозирующих моделей, поскольку их настройка производится автоматически. Также это позволяет использовать более сложные модели, содержащие большое количество автоматически настраиваемых параметров, что повышает точность прогнозов.

Глубокое обучение (deep learning) представляет собой подобласть машинного обучения и решает те же самые задачи, просто более сложными моделями, поэтому предварительно рекомендуется изучить следующие разделы первой части книги по машинному обучению:

В дальнейшем будет предполагаться знакомство с этими разделами.

Не обязательной, но полезной для интерпретации работы моделей глубокого обучения будет глава про интерпретацию сложных моделей.

Принцип глубокого обучения

Объекты представляются в виде исходного низкоуровневого представления объектов (raw representation).

Например, в обработке изображений низкоуровневым представлением изображения будет:

  • в случае черно-белого изображения H×WH\times W: матрица интенсивностей пикселей IRH×WI\in\mathbb{R}^{H\times W}

  • в случае цветного изображения H×WH \times W: тензор интенсивностей IR3×H×WI\in\mathbb{R}^{3 \times H\times W} (объединение 3-х матриц для красного, зелёного и синего каналов).

При обработке звуков низкоуровневым представлением будет последовательность амплитуд (силы звуковой волны) в каждый момент времени.

Применять прогнозирующую модель к низкоуровневому представлению непрактично - слишком велика размерность признакового пространства, поэтому модель необходимо настраивать на небольшом числе высокоуровневых и высокоинформативных признаков (high level representation).

Традиционный подход в машинном обучении, называемый неглубоким обучением (shallow learning) полагается на человека при генерации высокоуровневых признаков для прогнозирующей модели:

Для изображений, например, можно в качестве признаков построить распределение цветов по красному, зелёному и синему каналам, посчитать их средние и стандартные отклонения. Для звуков - среднюю силу звуковой волны, её стандартное отклонение, количество и длительность пауз и т.д.

Сразу понятны ограничения этого подхода:

  • необходимо тратить дополнительные ресурсы на придумывание признаков и разработку процедуры их извлечения.

  • это в любом случае будут несложные преобразования, которые не будут оптимальными для конечной задачи.

В глубоком обучении настраивается не только модель, но и последовательность преобразований, генерирующих признаки, которые будет использовать конечная модель для прогнозов:

Каждое преобразование генерирует промежуточное представление признаков (intermediate representation), которое с каждым следующим преобразованием получается всё более сложным и общим. Например, в случае изображений, сначала будут извлекаться границы, потом - углы, потом - геометрические фигуры, а начиная с некоторого этапа станут извлекаться уже сложные объекты, такие как глаз человека, колесо машины, окно дома, и т.д., на основе которых уже несложно будет решить итоговую задачу (например, классифицировать, что именно показано на изображении).

Преимущества подхода:

  • извлечение информативных признаков происходит автоматически по данным - точно так же, как в машинном обучении производилась настройка прогнозирующей модели; не нужно расходовать человеческие ресурсы на извлечение признаков вручную.

  • признаки подбираются быстрее, причём это будут более сложные и подходящие признаки для конечной задачи, до которых человек самостоятельно, скорее всего, не догадался бы.

Для применения глубокого обучения требуется гораздо больше обучающих данных, поскольку теперь настраиваются не только параметры модели, но и параметры промежуточных преобразований признаков.

Применительно к изображениям необходимы уже десятки тысяч размеченных примеров, как минимум. Более сложные модели требуют обучающих выборок (датасетов от англ. dataset), содержащих несколько миллионов обучающих примеров, таких как ImageNet.

Сила глубокого обучения

Глубокое обучение устраняет разрыв между исходным высокоразмерным низкоуровневым описанием объекта и конечной моделью, способной обрабатывать лишь маломерное компактное описание объекта из высокоуровневых признаков.

Принцип глубокого обучение успешно применяется и в других областях, таких как обработка текста, речи и графов.

Какой ранее изученный подход классического машинного обучения укладывается в идеологию глубокого обучения?
Стэкинг моделей, при котором конечная модель строит прогноз, используя прогнозы базовых моделей в качестве признаков. Здесь также признаки, с которыми работает конечная модель настраиваются автоматически. Можно рассмотреть и стэкинг, состоящий из большего числа уровней.

Для реализации принципа глубокого обучения используются нейросети (neural networks), поскольку нейросеть представляет собой последовательность нелинейных преобразований, которые как раз и описывают последовательное преобразование признаков и построение прогноза по ним.

Нейросети показывают отличные результаты и зачастую способны решать широкий класс задач быстрее и лучше среднестатистического человека не только там, где нужно предсказать число (регрессия) или категорию (классификация), но и в более творческих задачах, где нужно сгенерировать изображение, текст, звук (например генерация вокала по словам песни) или граф (описывающий, например, химическое соединение вещества или лекарства).

Сильный и слабый искусственный интеллект

Решение частных формализованных задач методами машинного обучения и, в частности, нейросетями, называется слабым искусственным интеллектом (или прикладным, узким ИИ).

Также в научном сообществе существует гипотеза общего искусственного интеллекта (artificial general intelligence, AGI), способного решать любую задачу путём самообучения и развития. Детальнее о нём можно прочитать здесь. В частности, большим шагом к созданию общего искусственного интеллекта стало развитие больших языковых моделей (large language models), таких как ChatGPT, способных поддерживать разговор и отвечать на вопросы общего вида.

Также существует гипотеза сильного искусственного интеллекта (artificial consciousness), способного мыслить и осознавать себя как отдельную личность. Насколько искусственно созданная система теоретически способна к этому - большой философский вопрос. Автор книги эту гипотезу не разделяет. Скорее всего, будет создан общий искусственный интеллект, способный качественно имитировать самосознание живых людей.

Развитие глубокого обучения

Глубокое обучение получило импульс к развитию, начиная с 2010-х годов с появлением

  • доступных вычислительных мощностей, способных производить большой объём вычислений (графические ускорители, FPGA-чипы);

  • больших обучающих выборок данных, содержащих миллионы размеченных наблюдений.

Глубокое обучение без преувеличения осуществляет революцию в экономике, политике и социальной сфере. Глубокие нейросети позволяют быстрее и эффективнее осуществлять торговлю на бирже (см. algorithmic trading), управлять технологическими процессами, распознавать людей в системах видеонаблюдения, отслеживать и предугадывать их поведение по их финансовым транзакциям, перемещениям, поведению в интернете, генерировать реалистичные тексты, изображения, звуки, видео, практически неотличимые от настоящих, а также компилируемый программный код по запросу. Нейросети постепенно вытесняют людей даже из таких творческих профессий, как написание рассказов, рисование графических сюжетов и создание музыки.

Этические вопросы

Стремительное развитие технологий искусственного интеллекта несёт в себе не только возможности, но и вызовы, которые широко обсуждаются не только в экспертном сообществе, но и в среде обычных пользователей.

Риски глубокого обучения заключаются в том, что его технологии

  • приводят к вытеснению людей из многих профессий;

  • позволяют создавать фейковые новости, практически неотличимые от настоящих;

  • смещают погружение и вовлеченность людей из реального мира в виртуальный;

  • дают очень большую власть над обществом, причем технологии концентрируются в узком круге больших компаний, обладающих данными и оборудованием для внедрения и развития этой науки.

Изучающим глубокое обучение необходимо задаться вопросами, насколько их деятельность приводит к положительным изменениям в обществе? Делает ли она общество более свободным, расширяя его возможности или, наоборот, делает его заложником технологий и контролирующих их компаний?

Технологии существуют для человека, а не человек для технологий.

Однозначных и простых ответов, как справиться с вызовами новых технологий так, чтобы общество воспользовалось их преимуществами, не став при этом их заложником, пока нет. Это сложная этическая проблема, которая должна решаться сообща государствами, технологическими компаниями и общественными движениями. Заинтересованные читатели могут детальнее ознакомиться с проблемой в книге со-основателя DeepMind и Inflection AI Мустафы Сулеймана “The Coming Wave”.