нефинансовый институт развития
крупнейший организатор конгрессно-выставочных мероприятий
Вход в Единый личный кабинет
Восстановление пароля
Введите адрес электронной почты или телефон, указанные при регистрации. Вам будет отправлена инструкция по восстановлению пароля.
Некорректный формат электронной почты или телефона
5 августа 2019
Виталий Мильке

Виталий Мильке о больших данных для обучения машин

Для машинного обучения нужны данные. Мы уже использовали пример о том, как нейросеть научилась отличать квадрат от прочих геометрических фигур, и это произошло благодаря тому, что она, нейросеть, получила данные.

Стремительное развитие технологий искусственного интеллекта (Artificial Intelligence, AI) объясняется не только прогрессом в области алгоритмов, но и доступностью так называемых «больших данных» (Big Data). США — одни из первых, кто открыл доступ к государственным данным для всех желающих. Это был смелый шаг! В октябре 2016 года администрация Обамы предложила национальную стратегию исследований и разработок в области AI с целью инвестирования в исследования, разработку методов сотрудничества человека и AI, решения проблем безопасности, этических, правовых и социальных последствий развития AI, создания общедоступных наборов данных для обучения AI и оценки технологий AI с помощью стандартов и критериев.

Но еще раньше, в 2009 году, правительство США запустило портал Data.gov и опубликовало там огромный массив правительственных данных. С тех пор свои данные открыто публикуют многие органы власти, например бюро трудовой статистики и казначейство. Страна рассматривает большие данные как очень ценный национальный ресурс, и именно этим обусловлен резкий скачок в развитии машинного обучения в США.

Согласно отчёту WIPO Technology Trends 2019 Artificial Intelligence, США занимает лидирующую позицию в топ-30 стран по числу крупнейших коммерческих компаний, занимающихся разработками в области искусственного интеллекта. Однако по числу патентов, регистрируемых в области AI, лидирует Китай, так же как и в общем объёме научных работ, связанных с этой темой. В 2018 году компании IDC и Seagate провели исследование The Digitization of the World. From Edge to Core, согласно которому в течение следующих семи лет китайская информационная сфера вырастет в среднем на 30% и станет самой большой информационной областью уже к 2025 году.

Практически все данные в Китае открыты. Университеты, компании и отдельные разработчики должны проверять свои новые методы и алгоритмы (пройти валидацию) на определённом наборе данных, который считается практически эталонным.

В России пока нет единой политики по работе с данными. В проекте новой Национальной стратегии развития искусственного интеллекта данным уделяется особое внимание. В соответствии со Стратегией государство создаст стандарты обмена данными и их хранения, включая требования к качеству данных, обеспечит их регулярное обновление, а также единые условия доступа к данным. Конечно, существуют особо чувствительные данные, такие как медицина и данные с беспилотных аппаратов, которые надо обсуждать отдельно.

Также необходимо стимулировать создание больших платформ данных, подобных Alibaba, которые ускоряют процесс торговли и увеличивают валовый внутренний продукт (ВВП) за счёт уменьшения срока с момента сделки и оплаты до момента поставки.

Часто высказываются мнения, что необходимо сделать многоступенчатую платформу доступа к данным. Считаю, что подобная идея вредна с точки зрения развития AI в России. В этом случае будут ограничения на вход и доступ, который скорее всего получат не лидеры в сегменте, и точно не получит сообщество независимых разработчиков и отдельные сильные команды data scientists. Мировой опыт говорит, что самые интересные идеи в области машинного обучения появлялись в стартапах, то есть маленьких командах неизвестных ранее разработчиков.

Все понимают, что необходимо уменьшить разрыв в области AI между Россией и странами-лидерами, такими как Китай, США и Великобритания. Можно смело утверждать, что скорость развития AI-технологий прямо пропорциональна открытости и доступности Big Data (в первую очередь — государственных).

Рост объёма доступных данных потребует роста вычислительных мощностей специальных типов процессоров для машинного обучения, а также поиска способа надёжного, дешёвого и долгосрочного хранения данных. И об этом мы с вами поговорим на следующей неделе. Следите за обновлениями!

Материал подготовил:
Виталий Мильке,
Советник президента по экономике и финансам, АО «Бизнес Альянс»,
PhD reseacher in Computer Science & Machine Learning

Статьи на тему
Аналитика на тему
Интересное на портале
Исследование
Умные города: цифровые решения для повышения жизненного комфорта
В отчёте Глобального института McKinsey анализируется то, как использование цифровых сервисов в городской среде помогает решать различные практические задачи в области безопасности, транспорта, медицины и экологии.
Статья
Перспективы развития торговых отношений в Каспийском регионе для Российской Федерации
В статье рассматриваются ключевые вопросы, связанные с развитием Каспийского региона. Основным направлением международного сотрудничества в рамках развития данной территории является интенсификация торговой деятельности, которая позволит всем странам региона повысить свой экономический потенциал. Уже сегодня Каспийский регион привлекает внимание инвесторов, и для дальнейшего укрепления торговой деятельности требуется преодоление тех преград, которые сегодня оказывают негативное влияние на развитие сотрудничества на прикаспийском пространстве. В рамках большого евразийского региона Каспийский бассейн играет существенную роль, и в случае успешного развития инфраструктуры в данном регионе он может принести экономическую выгоду всем участникам торговой деятельности.
Экспертное мнение
Внедрение цифровых технологий - приоритет дальневосточной медицины. Министр здравоохранения Российской Федерации Вероника Скворцова — o новых проектах на Дальнем Востоке
Министр здравоохранения Российской Федерации Вероника Скворцова — о новых проектах на Дальнем Востоке, сотрудничестве с азиатскими медиками и санитарной авиации
Аналитический дайджест
Журнал V Восточного экономического форума
Фонд Росконгресс выпустил журнал юбилейного, V Восточного экономического форума. Основные материалы номера посвящены реализации национальных проектов на территории ДФО, а также его интеграции в экономику Азиатско-Тихоокеанского региона. Читатели узнают о знаковых проектах транспортной инфраструктуры, социальной сферы, планах по развитию инновационного и туристического кластеров.