Рады вас видеть
Восстановление пароля
Введите адрес электронной почты или телефон, указанные при регистрации. Вам будет отправлена инструкция по восстановлению пароля.
Некорректный формат электронной почты или телефона
5 Августа 2019
Виталий Мильке
Виталий Мильке о больших данных для обучения машин

Для машинного обучения нужны данные. Мы уже использовали пример о том, как нейросеть научилась отличать квадрат от прочих геометрических фигур, и это произошло благодаря тому, что она, нейросеть, получила данные.

Стремительное развитие технологий искусственного интеллекта (Artificial Intelligence, AI) объясняется не только прогрессом в области алгоритмов, но и доступностью так называемых «больших данных» (Big Data). США — одни из первых, кто открыл доступ к государственным данным для всех желающих. Это был смелый шаг! В октябре 2016 года администрация Обамы предложила национальную стратегию исследований и разработок в области AI с целью инвестирования в исследования, разработку методов сотрудничества человека и AI, решения проблем безопасности, этических, правовых и социальных последствий развития AI, создания общедоступных наборов данных для обучения AI и оценки технологий AI с помощью стандартов и критериев.

Но еще раньше, в 2009 году, правительство США запустило портал Data.gov и опубликовало там огромный массив правительственных данных. С тех пор свои данные открыто публикуют многие органы власти, например бюро трудовой статистики и казначейство. Страна рассматривает большие данные как очень ценный национальный ресурс, и именно этим обусловлен резкий скачок в развитии машинного обучения в США.

Согласно отчёту WIPO Technology Trends 2019 Artificial Intelligence, США занимает лидирующую позицию в топ-30 стран по числу крупнейших коммерческих компаний, занимающихся разработками в области искусственного интеллекта. Однако по числу патентов, регистрируемых в области AI, лидирует Китай, так же как и в общем объёме научных работ, связанных с этой темой. В 2018 году компании IDC и Seagate провели исследование The Digitization of the World. From Edge to Core, согласно которому в течение следующих семи лет китайская информационная сфера вырастет в среднем на 30% и станет самой большой информационной областью уже к 2025 году.

Практически все данные в Китае открыты. Университеты, компании и отдельные разработчики должны проверять свои новые методы и алгоритмы (пройти валидацию) на определённом наборе данных, который считается практически эталонным.

В России пока нет единой политики по работе с данными. В проекте новой Национальной стратегии развития искусственного интеллекта данным уделяется особое внимание. В соответствии со Стратегией государство создаст стандарты обмена данными и их хранения, включая требования к качеству данных, обеспечит их регулярное обновление, а также единые условия доступа к данным. Конечно, существуют особо чувствительные данные, такие как медицина и данные с беспилотных аппаратов, которые надо обсуждать отдельно.

Также необходимо стимулировать создание больших платформ данных, подобных Alibaba, которые ускоряют процесс торговли и увеличивают валовый внутренний продукт (ВВП) за счёт уменьшения срока с момента сделки и оплаты до момента поставки.

Часто высказываются мнения, что необходимо сделать многоступенчатую платформу доступа к данным. Считаю, что подобная идея вредна с точки зрения развития AI в России. В этом случае будут ограничения на вход и доступ, который скорее всего получат не лидеры в сегменте, и точно не получит сообщество независимых разработчиков и отдельные сильные команды data scientists. Мировой опыт говорит, что самые интересные идеи в области машинного обучения появлялись в стартапах, то есть маленьких командах неизвестных ранее разработчиков.

Все понимают, что необходимо уменьшить разрыв в области AI между Россией и странами-лидерами, такими как Китай, США и Великобритания. Можно смело утверждать, что скорость развития AI-технологий прямо пропорциональна открытости и доступности Big Data (в первую очередь — государственных).

Рост объёма доступных данных потребует роста вычислительных мощностей специальных типов процессоров для машинного обучения, а также поиска способа надёжного, дешёвого и долгосрочного хранения данных. И об этом мы с вами поговорим на следующей неделе. Следите за обновлениями!

Материал подготовил:
Виталий Мильке,
Советник президента по экономике и финансам, АО «Бизнес Альянс»,
PhD reseacher in Computer Science & Machine Learning

Статьи на тему
Аналитика на тему