Виталий Мильке о больших данных для обучения машин

Для машинного обучения нужны данные. Мы уже использовали пример о том, как нейросеть научилась отличать квадрат от прочих геометрических фигур, и это произошло благодаря тому, что она, нейросеть, получила данные.

Стремительное развитие технологий искусственного интеллекта (Artificial Intelligence, AI) объясняется не только прогрессом в области алгоритмов, но и доступностью так называемых «больших данных» (Big Data). США — одни из первых, кто открыл доступ к государственным данным для всех желающих. Это был смелый шаг! В октябре 2016 года администрация Обамы предложила национальную стратегию исследований и разработок в области AI с целью инвестирования в исследования, разработку методов сотрудничества человека и AI, решения проблем безопасности, этических, правовых и социальных последствий развития AI, создания общедоступных наборов данных для обучения AI и оценки технологий AI с помощью стандартов и критериев.

Но еще раньше, в 2009 году, правительство США запустило портал Data.gov и опубликовало там огромный массив правительственных данных. С тех пор свои данные открыто публикуют многие органы власти, например бюро трудовой статистики и казначейство. Страна рассматривает большие данные как очень ценный национальный ресурс, и именно этим обусловлен резкий скачок в развитии машинного обучения в США.

Согласно отчёту WIPO Technology Trends 2019 Artificial Intelligence, США занимает лидирующую позицию в топ-30 стран по числу крупнейших коммерческих компаний, занимающихся разработками в области искусственного интеллекта. Однако по числу патентов, регистрируемых в области AI, лидирует Китай, так же как и в общем объёме научных работ, связанных с этой темой. В 2018 году компании IDC и Seagate провели исследование The Digitization of the World. From Edge to Core, согласно которому в течение следующих семи лет китайская информационная сфера вырастет в среднем на 30% и станет самой большой информационной областью уже к 2025 году.

Практически все данные в Китае открыты. Университеты, компании и отдельные разработчики должны проверять свои новые методы и алгоритмы (пройти валидацию) на определённом наборе данных, который считается практически эталонным.

В России пока нет единой политики по работе с данными. В проекте новой Национальной стратегии развития искусственного интеллекта данным уделяется особое внимание. В соответствии со Стратегией государство создаст стандарты обмена данными и их хранения, включая требования к качеству данных, обеспечит их регулярное обновление, а также единые условия доступа к данным. Конечно, существуют особо чувствительные данные, такие как медицина и данные с беспилотных аппаратов, которые надо обсуждать отдельно.

Также необходимо стимулировать создание больших платформ данных, подобных Alibaba, которые ускоряют процесс торговли и увеличивают валовый внутренний продукт (ВВП) за счёт уменьшения срока с момента сделки и оплаты до момента поставки.

Часто высказываются мнения, что необходимо сделать многоступенчатую платформу доступа к данным. Считаю, что подобная идея вредна с точки зрения развития AI в России. В этом случае будут ограничения на вход и доступ, который скорее всего получат не лидеры в сегменте, и точно не получит сообщество независимых разработчиков и отдельные сильные команды data scientists. Мировой опыт говорит, что самые интересные идеи в области машинного обучения появлялись в стартапах, то есть маленьких командах неизвестных ранее разработчиков.

Все понимают, что необходимо уменьшить разрыв в области AI между Россией и странами-лидерами, такими как Китай, США и Великобритания. Можно смело утверждать, что скорость развития AI-технологий прямо пропорциональна открытости и доступности Big Data (в первую очередь — государственных).

Рост объёма доступных данных потребует роста вычислительных мощностей специальных типов процессоров для машинного обучения, а также поиска способа надёжного, дешёвого и долгосрочного хранения данных. И об этом мы с вами поговорим на следующей неделе. Следите за обновлениями!

Материал подготовил:
Виталий Мильке,
Советник президента по экономике и финансам, АО «Бизнес Альянс»,
PhD reseacher in Computer Science & Machine Learning

Большие данные Искусственный интеллект Стратегическое развитие

Статьи на тему

Афиша культурных онлайн-мероприятий. Что посмотреть во время самоизоляции 19–24 мая

Фонд Росконгресс и Продюсерский центр РК-АРТ продолжают знакомить с афишей культурных мероприятий, которые можно посмотреть онлайн, не нарушая режима самоизоляции. Мы отобрали самые интересные события театров, музеев, концертных залов тех городов России, которые неоднократно принимали ключевые конгрессно-выставочные мероприятия Фонда и славятся своей богатой культурной жизнью. Также в разделе будет публиковаться документально-развлекательный контент, созданный сотрудниками Продюсерского центра РК-АРТ. Следите за обновлениями.

Культура СидимДомаЭкономика

#времяПМЭФ - Филипп Огульник, DEEP.TECH

Филипп Огульник — CEO стартапа DEEP.TECH, разработки которого нацелены на улучшение сна человека. Участие в ПМЭФ—2019 позволило ему выстроить диалог с тактически важными партнерами и взглянуть на свои инновации под другим углом. В интервью каналу «Инноваторы 2020» он также рассказал, как кризис, связанный с коронавирусом, натолкнул его на мысль о создании нового продукта.

Инновационная инфраструктура Предпринимательство Стартапы

Большие друзья. Основные экономические партнеры России в современном мире

По данным Федеральной таможенной службы (ФТС), основными торговыми партнерами России по итогам 2022 г. стали Китай и Турция. При этом товарооборот с этими двумя странами по сравнению с предыдущим годом вырос на рекордные 28 % и 84 % соответственно. Среди лидеров роста также Казахстан, Белоруссия и Индия. В совокупности эти пять внешнеэкономических партнеров обеспечили 43 % торгового оборота России в 2022 г.

Торговая политика Экономический прогресс

Аналитика на тему

Исследование

13.06.2022

Технологические тренды 2022 года

В докладе компании Deloitte рассматриваются тренды в сфере технологий, автоматизации и аутсорсинга, которые используются компаниями для повышения эффективности и реализации инновационных проектов.

Большие данные Искусственный интеллект IT-индустрия Блокчейн Инновационная инфраструктура Кибербезопасность

Борьба за цифровой суверенитет в условиях усиления глобальной гиперконкуренции и геополитической фрагментации

Статья

31.01.2023

Борьба за цифровой суверенитет в условиях усиления глобальной гиперконкуренции и геополитической фрагментации

В статье обосновывается новая концепция борьбы за цифровой национальный суверенитет в условиях усиления глобального системного кризиса, трансформации мировой экономики, геополитической фрагментации и усиления инновационно-цифровой гиперконкуренции. Дана характеристика глобальных гиперконкурентных компаний-лидеров. В рамках теории управляемого хаоса (управления в хаосе) раскрыта роль глобальных хаос-менеджеров в управлении процессами цифровой трансформации национальных и мировой социально-экономических систем. Сделан вывод о том, что в современном обществе сохранение национального и цифрового суверенитета — это борьба с этропийным хаос-менеджментом, борьба за интеллектуально-идеологический суверенитет, борьба за суверенитет принятия ключевых решений, связанных с программированием и управлением поведением отдельных людей, компаний, стран и человеческого общества.

Сергей Дятлов

Искусственный интеллект Цифровизация

Экспертное мнение

29.12.2022

Культура и экономика: взаимное опыление

Благодаря своему вкладу в восстановление городов и устойчивое городское развитие, творческие индустрии делают города более привлекательными для жизни людей и для развития экономической деятельности. Они обеспечивают городу конкурентоспособность, способствуя инновациям и росту творческой местной экономики с нишевыми отраслями и услугами.

Ольга Якименко

Стратегическое развитие Креативность Культура Уровень и качество жизни Устойчивое развитие