Этика алгоритмов сбора и анализа данных: предвзятость роботизированных систем и алгоритмов

Интернет-пользователь как этический субъект. Роль гражданина и его персональных данных в эпоху цифровизации. Виды и последствия алгоритмической необъективности. Репутационные кейсы бизнеса и ИТ-компаний, где задействована работа роботизированных систем.

Рубрика Журналистика, издательское дело и СМИ
Вид дипломная работа
Язык русский
Дата добавления 23.08.2020
Размер файла 102,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное государственное автономное образовательное учреждение высшего образования

«Национальный исследовательский университет

«Высшая школа экономики»»

Факультет коммуникаций, медиа и дизайна

Этика алгоритмов сбора и анализа данных: предвзятость роботизированных систем и алгоритмов

Выпускная квалификационная работа

по направлению 42.04.02 Журналистика

Рунович Марина Владиславовна

Москва 2020

Введение

Все, о чем грезили Айзек Азимов, Филип К. Дик и другие писатели «Золотого века научной фантастики», в наши дни становится неопровержимой реальностью. Человечество еще не осваивает далекие планеты, но сфокусировалось на развитии технологий, которые могут улучшить его жизнь здесь и сейчас.

Такие технологии -- «умные» роботизированные системы. Сегодня они могут одобрить кредит, с высочайшей точностью обнаружить онкологическое заболевание, выиграть у Каспарова в шахматы или выполнить просьбу зажечь свет и вскипятить чайник -- с помощью систем распознавания речи в помощниках вроде Alexa от Amazon или «Алисы» от Яндекса.

Впервые термин «искусственный интеллект» был озвучен в 1956 году на двухмесячном семинаре в Дартмутском колледже в Ганновере, США. Организаторами того летнего семинара стали несколько ученых: Клод Шеннон, Джон Маккарти, Натаниэль Рочестер и Марвин Мински. С тех пор изучение ИИ плотно вошло в сферу компьютерных наук и положило начало отдельной научной дисциплине «Исследование искусственного интеллекта».

Что такое искусственный интеллект? Современная лингвистика по-разному рассматривает этот термин -- для языка это понятие относительно новое. В данной работе мы будем ориентироваться на толкования Оксфордского и Кембриджского словарей, а также на «Толковый словарь по искусственному интеллекту», составленный Аверкиным А.Н., Гаазе-Рапопорт М.Г. и Поспеловым Д.А«Толковый словарь по искусственному интеллекту». Российская ассоциация искусственного интеллекта . Так, согласно последнему, ИИ -- это свойство роботизированных систем выполнять те функции человеческой деятельности, которые традиционно считаются интеллектуальными. Подробнее понятие искусственного интеллекта и смежных с ним терминов мы рассмотрим в первой главе данного исследования.

Фундаментальный вопрос научной области, изучающей ИИ, таков: может ли машина мыслить? Точнее, следуя тезисам статьи Алана Тьюринга «Вычислительные машины и разум»Тьюринг А. М. Вычислительные машины и разум //В сб.: Хофштадер Д., Деннет Д. Глаз разума.-Самара: Бахрах-М. - 2003. - С. 47-59., способна ли машина воспроизводить когнитивные навыки человека и совершать действия, которые мы могли бы назвать обдуманными? Тест Тьюринга, названный им «Игрой в имитацию», проверяет эту способность среди цифровых компьютеров и, как следствие, роботизированных систем и алгоритмов. CAPTCHA, прохождением которой привыкли подтверждать свои действия все интернет-пользователи, тоже разновидность теста Тьюринга -- но обратная.

Впервые тест Тьюринга программа прошла только в 2014-м году. По крайней мере, именно этот случай получил наиболее широкую огласку в СМИ. Суперкомпьютер Eugene Goostman (чат-бот разработчиков российского происхождения), который «притворялся» подростком из Одессы, сумел убедить нескольких членов жюри университета Рединга в Великобритании в том, что с ними говорит человек «IT-программа из России прошла тест на человечность». Русская служба Би-Би-Си. URL: .

Тестов на интеллект для роботизированных систем масса. Большинство из них очень строги, но все их при желании можно оспорить. Поэтому, по мнению автора данной работы, их прохождение говорит только о развитии науки, но никак не о том, что в ближайшее время мы правда увидим действительно мыслящий суперкомпьютер.

Развитие науки и, как следствие, ИИ-технологий, дало толчок к формированию философского, религиозного, политического и этического дискурса вокруг машинного интеллекта. Вопрос о том, насколько система может быть похожа на нас, людей, и где грань между «живым» и «искусственным», можно назвать междисциплинарным. Однако явное сходство между роботизированными системами и людьми есть: как и человек, ИИ может быть предвзятым. В компьютерных науках такое свойство обозначается термином «алгоритмическая необъективность».

Таким образом, актуальность данного исследования определяется самой его темой: искусственный интеллект и машинное обучение -- одни из самых важных и фундаментальных технологических трендов. Объем российского рынка ИИ в 2019 году составляет $139 млн, а к 2023 обещает вырасти на 30% «Рынок искусственного интеллекта в России в 2019 г. вырастет до $140 миллионов». CNews. URL: . В свою очередь, по прогнозам исследователей, глобальный рынок Big Data -- то есть больших данных, необходимых для обучения «умных» систем, -- достигнет $61,42 млрд к 2026 году «Интернет вещей, IoT, M2M. Мировой рынок». Tad .

Обученный машинными инструментами ИИ имитирует поведение человека в том числе через поиск закономерностей в данных. Проблема исследования заключается в том, что «предвзятость» ИИ определяется нахождением неверных паттернов или неверной их интерпретацией. Это ведет к ряду проблем, в том числе этических, подробнее о которых мы будем говорить ниже. При этом понятия о том, насколько этичным или неэтичным может быть ИИ, не существует. Мы можем руководствоваться только степенью его предвзятости, а также человеческими понятиями об этике.

В большинстве случаев вопросы этики в области ИИ прецедентны: пока технология не столкнулась с реальной ситуацией в обществе, все последствия ее внедрений не могут быть учтены на этапе разработки.

Другая проблема заключается в том, что как таковой искусственный интеллект еще не создан. То, что разработчики и ученые сейчас называют ИИ, не умнее микроволновки, запрограммированной на разморозку или гриль. То, как будет поступать машина, зависит от человеческого действия, которое мы не можем предсказать. Так, предвзятость ИИ может влиять на этику принимаемых человеком, государством или бизнесом решений. В том числе -- жизненно важных, если говорить о медицине, экономике, юриспруденции и других индустриях.

Новизна данного исследования -- в попытке понять, чем обусловлена предвзятость ИИ, и подкрепить выводы комментариями экспертов. Практическая ценность работы заключается в том, что рассматривать мы будем реально существующие кейсы.

Объект исследования -- существующие роботизированные системы и алгоритмы сбора и анализа данных.

Предмет исследования -- предвзятость роботизированных систем и их влияние на реальную жизнь человека, бизнеса и государства.

Цель исследования -- понять, что именно влияет на предвзятость роботизированных систем и алгоритмов и как ее можно предотвратить.

Задачи исследования, таким образом:

1) Дать полное определение понятию «предвзятость ИИ» и выяснить его социально-общественную сущность;

2) Изучить репутационные кейсы бизнеса и ИТ-компаний, где так или иначе задействована эффективная -- или неэффективная работа роботизированных систем и алгоритмов;

3) Описать, как работает правовое регулирование ИИ в разных странах.

В ходе исследования будет подтверждена или опровергнута следующая гипотеза: путем анализа существующих кейсов мы можем определить, в каких индустриях предвзятость ИИ будет критической, и что влияет на его предвзятость. алгоритм данные кейс

Целевая аудитория исследования -- журналисты, которым интересна тема технологий, представители бизнеса, а также экспертное сообщество. Теоретическую базу данной работы составили монографии и статьи Иванова А. Д., Маковкина А.С., Цыбульской Е. В., Михайловой Т. Л., Варламова О.О., Калачевой Е.А., Макулина А.В., Верещагиной Н.В., Ройзензона Г.В. и и других исследователей.

Эмпирической базой стали существующие типы ИИ и кейсы бизнеса, государственных, образовательных, промышленных и других учреждений, которые внедряют, разрабатывают либо используют системы искусственного интеллекта, а также законодательные российские и зарубежные акты.

Структура работы классическая: исследование состоит из введения, первой, второй и третьей глав, а также заключения, списка литературы и приложения. В первой главе мы рассмотрим разницу между искусственным интеллектом, машинным и глубоким обучением, коснемся концепции больших данных и правового регулирования индустрии. Для этого мы изучим теоретический базис проблемы, российские и международные инструменты регулирования, а также опишем историю происхождения и развития ИИ.

Во второй главе исследования мы подробно изучим вопрос этики роботизированных систем и алгоритмов сбора и анализа данных, а также место интернет-пользователя и рядовых граждан в этой системе. Для этого исследуем понятие алгоритмической необъективности, затронем область компьютерной этики, рассмотрим реальные этические кейсы и некоторые последствия «предвзятости» искусственного интеллекта. Заключительную практическую главу мы посвятим комментариям экспертов в области ИИ и цифрового права.

Глава 1. Искусственный интеллект: история и определение понятия

1.1 Теория и происхождение ИИ

Идея о мыслящей машине, которая способна принимать автономные от человека решения, появилась не в 20 веке, как обычно принято думать, а гораздо раньше. Человечество с древних времен пыталось наделить сознанием неодушевленный предмет: и речь не только о сакральном значении ритуальных предметов, но и о действительно «оживающих» вещах. Так, например, в Древнем Египте существовала «живая» механическая статуя бога Ра Смолин Д. Введение в искусственный интеллект. Конспект лекций. - Litres, 2018. . В «Илиаде» Гефест создавал железных человекоподобных машин, которые были способны выполнить простую работу. Идея сотворения живого из неживого волновала умы Шелли и Байрона, а традиционные Пигмалион и Пиноккио или современные андроиды из «Бегущего по лезвию» и других продуктов поп-культуры -- по сути воплощение одной и той же мечты о мыслящем искусственном существе.

Первые настоящие, но пока еще не «мыслящие» машины появились в 17 и 18 веках, которые ученые называют «механической эпохой». Это время расцвета механики и первых удобных для человека приборов: от часов до вычислительных механизмов. Многие исследователи считают началом зарождения современных технологий знаменитую суммирующую машину Паскаля, «Паскалину», изобретенную им в 1662 году в возрасте 19 лет, а следом причисляют к фундаментальным открытиям и ступенчатый механизм Лейбница «Современные проблемы информатики». НГУ. URL: https://clck.ru/NNQpr , способный оперировать четырьмя арифметическими действиями, то есть вычитанием, сложением, делением и умножением.

Настоящим прообразом современных компьютеров считается машина английского математика Чарльза Бэббиджа, созданная им в период с 1819 по 1822 год. Она содержала части современных ЭВМ и представляла собой механический аппарат, который был способен автоматически выполнять вычисления через аппроксимацию функций многочленами и выявление конечных разностей «Разностная машина Чарльза Бэббиджа». Galanix. URL: https://clck.ru/NNQsH . Идею математик увидел в работах французского барона и ученого Гаспара де Прони, который руководил переписью при правительстве Франции в конце 18 века.

Де Прони боролся с ошибками в переписи, астрономических, алгоритмических и тригонометрических таблицах -- и придумал разделить сборщиков данных на три группы. За основу своей вычислительной машины Бэббидж взял такую разгруппировку -- но заменил людей-вычислителей механическими деталями. Большую версию машины Бэббидж завершить не сумел из-за недостатка финансирования и разногласий с инженером и строителями, однако даже за прототип получил медаль британского Астрономического общества.

Несмотря на то, что история появления первых ЭВМ или их прототипов почему-то традиционно связывается с появлением понятия «искусственный интеллект», прародителем ИИ считается ученый, философ и поэт 13 века из Испании -- Раймонд Луллий. Он создал так называемую «всеобщую классификацию понятий» и предпринял первую попытку построить механическую машину для решения задач на основе этой классификации. Принцип такой логической машины он описал в своей работе Ars Magna et Ultima, «Великое и окончательное искусство» «Логическая машина Раймонда Луллия». Vicent. URL: https://vikent.ru/enc/2295/. Луллий стал родоначальником современной комбинаторики: ученый был уверен, что через разные комбинации человек или машина способны создавать новые истины.

Его идеи независимо друг от друга позднее продолжили Декарт и Лейбниц, хотя мысль о единстве наук и понятий мы можем встретить еще у Платона и Аристотеля. Характерное для Нового времени стремление к единству у Лейбница ознаменовалось теорией о «всеобщей науке», которая заключала в себе науку о Боге как творце и науку о творении, то есть изобретательстве. Проверять гипотезы Лейбниц предлагал, отталкиваясь от существующих априорных истин Осминская Наталья Александровна Проблема всеобщей науки и классификации наук в ранних текстах Г. В. Лейбница 1666--1669 гг. // Вестник РУДН. Серия: Философия. 2013. №1. URL: https://clck.ru/NNQwV . Принципы комбинаторики, занимавшие философов прошлой эпохи, лежат в основе современных «умных систем».

Как мы говорили во введении, современное понятие «искусственный интеллект» появилось после 1940-х, то есть после изобретения первых настоящих ЭВМ. Тот самый летний семинар в Дартмутском колледже, который назывался Artificial Intelligence (AI), ученые посвятили решению не вычислительных, а логических задач. Здесь появилось понятие ИИ, и здесь же началась фундаментальная языковая ошибка для русского перевода термина.

«Intelligence» с английского значит вовсе не интеллект, а «способность разумно рассуждать». Поэтому существующие AI часто путают широкую общественность: робот-оператор колл-центра, который последовательно отвечает на ваши вопросы по телефону, рассуждает вполне разумно и даже по голосу может быть неотличим от человека «Эмоциональный робот: как стартап меняет отрасль клиентских коммуникаций». РБК. URL: https://clck.ru/NNQvY. Обладает ли он интеллектом? Ответ очевиден -- нет, не обладает. По крайней мере пока.

Одними из организаторов Дартмутского семинара в 1956-м были Джон Маккарти -- автор первого программного «языка обработки списков» для задач ИИ, названного LISP (List Processing language), и Марвин Мински, создатель идеи фреймов и фреймовой модели представления знаний. С 1956 по 1963 года исследователи от науки, философии, психологии и лингвистики пытались создать или описать алгоритмы человеческого мышления, но потерпели неудачу. Тогда за развитие ИИ взялись представители кибернетики.

С конца 1950-х до середины 1970-х кибернетики создали и опробовали несколько подходов. Первые программы, описанные в ранних учебниках по искусственному интеллекту Хант Э. Искусственный интеллект [Текст]. - 1978., были созданы по модели лабиринтного поиска. В рамках такого поиска задачу для ИИ представляют как пространство состояний в виде графа. Внутри него система ищет оптимальный путь от входных данных к выходным, то есть к результату. Такие программы умели, например, играть в шахматы или шашки. Однако системы с лабиринтным поиском не получили практического применения.

Позднее, в 1960-х, на Западе началась эпоха эвристического программирования. Этот вид программирования помогает получать результат без заранее известного алгоритма действий и дробить сложную задачу по переработке большого массива информации на более простые информационные процессы «Эвристическое программирование». Национальная психологическая энциклопедия. URL: .

С середины 60-х параллельно в области развития программирования и ИИ работают два выдающихся математика: на Западе -- Джон Алан Робинсон, в СССР -- Юрий Маслов. Первый в 1965 году создал так называемый метод резолюций, а второй -- обратный метод. Принцип резолюций используется в логическом программировании для вывода машинных данных «Логическое программирование». IPC. URL: , а метод Маслова -- для построения машинных алгоритмов поиска логического вывода Маслов С. Ю. Обратный метод установления выводимости для логических исчислений //Труды Математического института имени ВА Стеклова. - 1968. - Т. 98. - №. 0. - С. 26-87.. Два этих метода решают одну и ту же задачу двумя разными способами.

Позднее в 1973 году на основе принципа резолюций Робинсона французский математик Ален Колмероэ создал язык программирования Prolog (ПРОЛОГ в русскоязычных статьях и учебниках). Это декларативный язык: логика заключена в терминах отношений, которые представлены как правила или факты. С помощью ПРОЛОГа можно выполнить запрос к так называемой базе знаний, а следом система логического программирования ответит на запрос подтверждением «истины» либо «лжи».

Хороший пример логического программирования -- программа Logic Theorist (LT), или «Логик-Теоретик», которая доказывала школьные аксиомы и теоремы. Она носит статус «первой программы искусственного интеллекта» «Logic Theorist». Википедия. благодаря способности автоматизированного рассуждения. Однако человек при выполнении своих рабочих задач не руководствуется классической логикой, поэтому логические системы на деле оказываются довольно ограниченными. На какое-то время из-за дискуссий в научном сообществе развитие систем ИИ приостановилось -- но вскоре началось с новой силой благодаря коммерциализации.

В 1970-х фокус с поиска универсального алгоритма мышления сменился на другой, более практический. Исследователи в США начали моделировать конкретные знания экспертов. Это положило начало появлению коммерческих экспертных систем, или ЭС. У таких систем две функции Лебедев Л. С. Обзор экспертных систем и перспективы их применения в энергетике //Вестник Иркутского государственного технического университета. - 2014. - №. 4 (87).:

1. Создание базы знаний;

2. Представление знаний в нужной предметной области.

Первыми и самыми ранними экспертными системами стали MYCIN и Dendral, созданные в лаборатории Стэнфордского университета.

MYCIN была написана на языке программирования Lisp. Ее задачами были диагностирование некоторых бактерий-катализаторов тяжелых заболеваний и составление рекомендаций по нужному количеству антибиотиков. Система ориентировалась на массу тела больного. Dendral же создавалась для идентификации молекулярной структуры неопознанного органического соединения через анализ масс-спектрограмм.

Представление знаний -- в то время свежий подход к решению задач ИИ. В российской науке аналогичное направление называлось «ситуационным управлением». Основателем этого направления стал профессор Поспелов Д.А., ставший пионером развития ИИ в СССР и одним из самых видных ученых тех лет Поспелов Д. А. Становление информатики в России. - Новосибирск, Научно-издательский центр ОИГГМ, 2015.. Именно Поспелов сумел справиться с настороженным отношением советской Академии наук к области искусственного интеллекта и в 1974 году стал председателем созданного в АН СССР Комитета по системному анализу. Позднее, в 1988 году, профессор возглавил Ассоциацию Искусственного Интеллекта, которая ведет деятельность до сих пор.

В 70-х на системы, близкие к современному пониманию ИИ, обратило внимание правительство. Например, в те годы Пентагон предложил базировать компьютерные разработки Министерства обороны США на принципах искусственного интеллекта.

Общепринятая оценка развития вычислительной техники такова Казакова И. А. История вычислительной техники. - 2011.: первое поколение -- это ламповые компьютеры, второе -- транзисторные, а третье и четвертое соответственно -- ЭВМ на интегральных схемах либо с микропроцессорами. В 80-е в технологическую гонку развития ЭВМ и «умных» систем включилась Япония, и правительство объявило о старте программы создания компьютеров пятого поколения: они должны были обладать мощностями самых продвинутых суперкомпьютеров и содержать в себе функции искусственного интеллекта. Японский компьютер пятого поколения должен был работать за счет неограниченного количества микропроцессоров.

Эксперимент Японии стоил стране около 500 млн долларов «5 поколение ЭВМ». История развития ЭВМ. , но не удался. Зато послужил основой для создания технологического хаба из тысяч молодых (на тот момент) специалистов.

С тех пор, как эта область науки окончательно укоренилась в научном сообществе и стала интересна не только ученым, но также политикам и бизнесу, системы ИИ прочно вошли в нашу жизнь.

Современные системы искусственного интеллекта могут быть трех видов: это Artificial Narrow Intelligence (ANI, ограниченный искусственный интеллект), Artificial General Intelligence (AGI, общий ИИ) и Artificial Superintelligence (ASI, сверхразумный ИИ) «Understanding the differences between AI, machine learning, and deep learning». TechRepublic. URL: .

В чем их отличие? Ограниченный ИИ решает прикладные задачи, заданные человеком. С помощью Artificial Narrow Intelligence Google находит для вас похожие изображения, а приложение на смартфоне способно сразиться в покер или шахматы. Сегодня это единственный изобретенный и доступный ИИ. Общий же искусственный интеллект ничем не уступает человеку и может решать несколько разных задач. К его созданию сегодня стремятся ученые.

Сверхразумный ИИ, или «искусственный суперинтеллект» (ASI), по концепции должен превосходить интеллект конкретного человека или даже человечества. Однако фантазии кинопроизводителей, литераторов, публицистов или технофобов о господстве ASI над человеческой жизнью скорее всего так и останутся мифом.

Даже ограниченный прикладными задачами ИИ пока что несовершенен. Ученые, исследователи и разработчики сегодня трудятся в нескольких направлениях его развития: это обработка естественного языка, синтез и распознавание речи, компьютерное зрение, интеллектуальные системы поддержки принятия решений (например, банковский скоринг или бизнес-аналитика) и совершенствование разработок на пути к общему ИИ.

1.2 ИИ, машинное и глубокое обучение. Сходства и различия понятий

В предыдущем блоке мы коснулись истории появления ЭВМ и понятия «искусственный интеллект». В данной подглаве мы рассмотрим различия и связи между родственными понятиями: ИИ, машинное обучение (ML, machine learning) и глубокое обучение (DL, deep learning).

Сам по себе термин «искусственный интеллект» ничего не говорит о тех методах, с помощью которых компьютер способен обладать функциями ограниченного ИИ. Машинное обучение -- тот набор инструментов, благодаря которому ИИ способен существовать и даже обучаться. Это подобласть искусственного интеллекта.

Согласно Оксфордскому словарю, понятие «машинное обучение» вошло в массовое употребление в 1959 году. Так, в одном из первых изданий словаря, где встречается упоминание термина, машинное обучение -- это «вычислительная способность компьютера к обучению на основе опыта, то есть к изменению работы в соответствии с полученной информацией» Бруссард М. Искусственный интеллект. Пределы возможного //М.: Альпина Нон-фикшн. - 2020..

Сегодня ученые считают эту формулировку несколько устаревшей. Одно из самых понятных объяснений термину machine learning дал первопроходец в области искусственного интеллекта Том Митчелл: «Компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E»«Руководство по машинному обучению для новичков». Medium. URL.

Таким образом, машинное обучение является подразделом ИИ. Машинное обучение по сути выступает в качестве «родителя» систем ИИ: его задача -- научить систему учиться самостоятельно. Алгоритмы такого обучения помогают искать схожие паттерны в огромных массивах данных, строить модели и распознавать, предсказывать или продуцировать вещи без явного программирования, а на основе полученного ранее из данных опыта. Такие алгоритмы лежат в основе ИИ -- а значит и всех технологий, которые влияют или только будут влиять на нашу повседневную жизнь.

Подходы к машинному обучению чаще всего делят на четыре группы:

Supervised Learning, или обучение с учителем;

Unsupervised Learning, или обучение без учителя;

Reinforcement Learning, или обучение с подкреплением;

Semi-supervised learning, или частичное обучение.

Рассмотрим каждую из этих групп подробнее.

Обучение с учителем -- алгоритм, состоящий из зависимой или целевой переменной, которая должна быть предсказана из заданного набора независимых переменных. Используя его, разработчик генерирует некую функцию, которая «ищет» сопоставления между входными и нужными выходными данными. Обучение продолжается, пока модель не достигнет нужной точности данных обучения. Проще говоря, алгоритм Supervised Learning «предсказывает» новые данные путем создания модели из входных маркированных данных. К этому виду алгоритмов относятся древо решений, случайный лес, линеи?ная и логистическая регрессии Галимов Р. Г. Основы алгоритмов машинного обучения -- обучение с учителем // Аллея науки. - 2017. - Т. 1. - №. 14. - С. 810-817.. Областями применения таких алгоритмов может быть любое прогнозирование: например, прогнозирование цен на недвижимость или продукты, и, как следствие, оптимизация цен.

В отличие от предыдущего вида алгоритмов, при обучении без учителя компьютеру даются немаркированные (без пометок и классификаций) данные. Машине дается возможность найти схожие паттерны и создать новую структуру данных для получения результата. Этого можно добиться через форматы dimensionality reduction (уменьшения размерности) и clustering (кластеризации) Barlow H. B. Unsupervised learning //Neural computation. - 1989. - Т. 1. - №. 3. - С. 295-311.. Такой тип обучения может быть как автономным, так и одной из ступеней обучения. Благодаря кластеризации алгоритм может быть применен в таких областях: например, рекомендация товаров на маркетплейсе с учетом покупательского интереса конкретного пользователя или сегментация целевой аудитории для маркетинговых нужд.

Что касается обучения с подкреплением, в этом случае разработчик наблюдает за действиями обучаемого объекта и в зависимости от результата либо поощряет, либо наказывает данный объект. При этом наблюдатель не подсказывает объекту, как именно ему нужно действовать Зуева В. Н. Обучение с подкреплением в нейронных сетях //Вестник СевКавГТИ. - 2013. - №. 14. - С. 125-128.. Пригодной для тестирования такого алгоритма средой считаются компьютерные аркады: например, компьютер видит, что проигрывает, если не ловит условный «мячик», и учится действовать так, чтоб его поймать и не проиграть. Обучение с подкреплением используют при разработке систем для беспилотных автомобилей, промышленных роботов и в целом для оптимизации процессов в промышленных индустриях.

Последний вид обучения -- обучение с частичным привлечением учителя. В данном виде обучения алгоритмы учатся сразу на размеченных и неразмеченных данных (labeled и unlabeled data). Обычно для исключения ошибки, вызванной человеческим фактором, неразмеченных данных больше. Кроме того, использование неразмеченных данных позволяет сэкономить как время, так и бюджет: маркировать массив данных, где могут быть десятки или сотни тысяч значений, долго и дорого. Так, минимизируя время с помощью unlabeled data, можно сделать алгоритм более точным. Этот метод -- некий компромисс между методами Supervised Learning и Unsupervised Learning.

Обычно массив данных, который будет использован для обучения, делят на две части: на обучающую и тестовую выборку Кафтанников И. Л., Парасич А. В. Проблемы формирования обучающей выборки в задачах машинного обучения //Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. - 2016. - Т. 16. - №. 3.. Рассмотрим на примере.

Предположим, у разработчика есть датасет из 200 000 данных покупателей интернет-магазина. В датасете есть вся история их покупок и тип получения заказа: самовывозом либо курьерской доставкой. Разработчик делит датасет на тестовую и обучающую выборки. Обучающая нужна, чтобы создать модель, которая будет выдавать тот результат, который он и так знает -- какой покупатель скорее всего предпочтет доставку самовывозу. Тестовая выборка нужна для того, что проверить результаты, при необходимости улучшить модель и избежать так называемого переобучения -- когда оценка качества созданной модели становится оптимистически смещенной из-за того, что модель проверяется на том же сете данных, на которых училась. Иногда, если построенных моделей несколько, используют третью выборку -- проверочную. Она нужна для того, чтобы выбрать наиболее результативную модель.

Вне зависимости от выбранного способа, «обучение» еще не означает, что у компьютера появилась способность рассуждать или делать интеллектуальные выводы. По Митчеллу, окончание процесса обучения значит лишь то, что машина стала точнее -- то есть стала больше соответствовать метрикам, которые, в свою очередь, определяет для нее человек.

Но что именно «обучают» с помощью machine learning? В отличие от традиционных математических алгоритмов, способность обучаться есть у так называемых искусственных нейронных сетей (ИНС). Первые попытки создать модель ИНС предпринимали ученые У. Маккалок и У. Питтс, которую потом уточнил Клини «Модель Маккалока-Питса». Распознавание. .

Искусственный нейрон -- это элементарная ячейка вычислений, а сама ИНС -- некая математическая модель, построенная на основе организации и работы биологических сетей нервных клеток в живом организме. Общее значение ИНС описывается так: как и человеческий мозг, это огромный распределенный параллельный процессор, который состоит из искусственных нейронов, накапливающих экспериментальные знания и представляющих их для обработки. Связи, благодаря которым нейроны могут копить знания, называются синаптическими весами Хайкин С. Нейронные сети: полный курс, 2-е издание. - Издательский дом Вильямс, 2008.. Обучение ИНС состоит в настройке таких весов и функций. Нейронные сети -- один из самых старых и известных методов машинного обучения.

ИНС чаще всего используются в методе глубокого обучения (deep learning). Такой метод -- еще одно подмножество ИИ после машинного обучения.

Заимствуя часть методов машинного обучения, DL решает реальные задачи методом нейронных сетей, которые способны имитировать процесс принятия решения человеком. DL считается дорогостоящей и трудной областью: необходимо учесть большое количество параметров в алгоритме обучения и использовать огромные массивы данных, чтобы избежать ложных результатов.

Например, разработчик хочет научить алгоритм «узнавать» на фотографиях и даже рисунках собаку. Для того, чтобы обучить модель, придется использовать сотни тысяч или даже миллионов изображений псов, чтобы нейронная сеть изучила мельчайшие паттерны, характеризующие нужный объект, и научилась отличать собаку от волка и других представителей семейства псовых. При этом разработчику не нужно размечать данные, указывая «признаки» собаки: алгоритм сам справится с нахождением схожих паттернов, если качество данных достаточно высоко. В этом основное различие между ML и DL. Разница в том, как именно и в каком виде данные передаются системе. Сети глубокого обучения полагаются на слои искусственных нейронных сетей «Deep learning & Machine learning: в чем разница?» DataStart. URL .

В 2016-м году ИИ повторил подвиг своего предшественника Deep Blue от компании IBM, выигравшего у Каспарова в шахматы: программа AlphaGo DeepMind выиграла 4 из 5 партий в игру «Го» у чемпиона мира Ли Седоля «Чемпион мира завершил карьеру». Газета.ру. URL: . Система DL для программы работала через комбинацию метода Монте-Карло для поиска в дереве с нейросетями, обученными с учителем на данных игр профессионалов и с подкреплением на играх с собой. В отличие от Deep Blue, разработка Google не привязана к конкретному аппаратному решению.

Согласно исследованию PWC, благодаря развитию ИИ к 2030 году мировая экономика может вырасти на 15,7 трлн долларов «Прогнозы развития технологии искусственного интеллекта на 2019 год». PWC. URL: https://www.pwc.ru/ru/publications/artificial-intelligence-predictions-2019.html. В целях развития искусственного интеллекта в России указом Президента РФ от 10 октября 2019 г. № 490 утверждена Национальная стратегия развития искусственного интеллекта до 2030 года «Развитие искусственного интеллекта». Министерство экономического развития РФ. URL: .

Однако многие исследователи считают взрыв интереса к DL некоторым популизмом: так, Сергей Бартунов из ВШЭ уверен, что этот алгоритм -- только один из множества вариантов обучения нейронной сети, и при этом не самый лучший. Но, определенно -- самый популярный в массмедиа «Что такое deep learning и почему о нем все говорят?» Хайтек.фм. URL: и в практическом user experience. Так, больше всего DL популярно в проектах, связанных с компьютерным зрением, распознаванием аудио и диагностике заболеваний. Например, система распознавания лиц DeepFace определяет человеческие лица с точностью до 97,35%. Она примерно так же точна, как человеческое зрение (97,53%) Taigman Y. et al. Deepface: Closing the gap to human-level performance in face verification //Proceedings of the IEEE conference on computer vision and pattern recognition. - 2014. - С. 1701-1708..

Тем не менее, системы, обученные методом DL, могут быть алгоритмически необъективными, то есть «предвзятыми». К этому понятию мы вернемся во второй главе. «Предвзятость» в том числе зависит от качества сбора и предварительного анализа предоставляемых данных. Для обучения продвинутых систем ИИ используются так называемые большие данные, понятие которых мы рассмотрим в следующем подразделе.

1.3 ИИ и большие данные. Правовое регулирование в разных странах

Правовое регулирование в Российской Федерации

Новая технология или новое явление должны быть своевременно вписаны в существующий правовой контекст. Их необходимо урегулировать таким образом, чтобы они не способствовали нарушению законов и прав граждан. Однако, государства и корпорации обычно стремятся к урегулированию новых технологий в своих интересах и для усиления своих позиций. В странах, где есть достаточно сильная система сдержек и противовесов, граждане могут влиять на эти процессы и следить за ними.

В России сами законы не всегда исполняются и известны некоторой двойственностью применения Цитаты известных личностей. . Поэтому новые технологии, в том числе искусственный интеллект, могут быть вписаны одним образом, а реализованы другим (или вписаны частично).

Весной 2020-го года на территории России был введен режим «повышенной готовности». В некоторых регионах, в первую очередь -- в Москве, был введен пропускной режим. Жители обязаны оформлять пропуск в виде QR-кода для каждого выхода из дома через специальное интернет-приложение и с указанием цели выхода. Они должны демонстрировать полученный QR-код полицейским и, соответственно, носить с собой смартфон.

Смартфон с SIM-картой позволяет следить за передвижениями человека. Власти Москвы и раньше собирали данные телефонов для отслеживания транспортных потоков, называя их обезличенными, но в ситуации пандемии коронавируса обезличенные данные легко стали персонализированными -- и никто этого не скрывает. Людям, вернувшимся из заграничных поездок, начали приходить сообщения на телефон, которые наоборот дают понять, что правительство знает достаточно. Например: «Недавно вы прилетели из Испании. Вы и проживающие с вами близкие обязаны 14 дней соблюдать режим самоизоляции» «»Умный город» или «Старший брат»? Как мэрия научилась знать о москвичах все», Захаров А., «Русская служба BBC». URL: . Кто проживает с вами -- легко понять по данным тех же операторов сотовой связи. Человек, нарушивший «режим самоизоляции», может быть оштрафован или даже отвезен в отдел полиции, если у него нет паспорта или он оказал сопротивление.

Созданную в Москве систему наблюдения горожане иногда называют «Большой брат» (отсылка к роману Оруэлла «1984»), а сами создатели -- «Умный город». Она развивается в рамках стратегии «Умный город -- 2030» «Москва-2030: Умный город», Официальный сайт мэра Москвы. . Суть стратегии -- создать «общегородскую платформу данных», которая помогала бы чиновникам принимать «быстрые и обоснованные решения». Big data должна уметь предсказывать очереди, заторы, пробки, аварии и несчастные случаи, а также «поведение отдельных лиц» «»Умный город» или «Старший брат»? Как мэрия научилась знать о москвичах все», Захаров А., «Русская служба BBC». URL: .

Система демонстративного слежения и QR-кодов для выхода на улицу стала возможна в том числе благодаря технологиям искусственного интеллекта. Она масштабна, и она не вписывается в существующее в России законодательство. Эта система нарушает и основной закон страны, «Конституцию Российской Федерации» Конституция Российской Федерации. URL: , и ФЗ №152 «О персональных данных» ФЗ «О персональных данных» от 27.07.2006 №152-ФЗ. . Даже в случае введения режима чрезвычайного положения ФКЗ от 30.05.2001 №3-ФКЗ (ред от 3.07.2016) «О чрезвычайном положении». эта система была бы незаконна.

Однако специальная законодательная база для реализации технологий искусственного интеллекта уже формируется.

Как раз в период «режима повышенной готовности», 24 апреля 2020-го, принят новый федеральный закон -- «О проведении эксперимента по установлению специального урегулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации -- городе федерального значения Москве и внесении изменений в статьи 6 и 10 федерального закона «О персональных данных» Федеральный закон от 24.04.2020 N 123-ФЗ «О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации -- городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных»». URL: .

В чем суть изменений в ФЗ №152? Во-первых, добавлен пункт о том, что сбор обезличенных данных «осуществляется в целях повышения эффективности государственного или муниципального управления, а также в иных целях». Во-вторых, обозначена необходимость сбора данных о состоянии здоровья граждан. В Москве устанавливается «экспериментальный правовой режим» -- с 1 июля 2020 года, на 5 лет.

Задачи «экспериментального режима»:

1) создание благоприятных правовых условий развития технологий искусственного интеллекта;

2) апробация технологий искусственного интеллекта и результатов его применения в субъекте Российской Федерации -- городе федерального значения Москве;

3) оценка эффективности и результативности установления специального регулирования по результатам установления экспериментального правового режима.

Правительство Москвы наделяется полномочиями определять:

условия и порядок создания и внедрения технологий искусственного интеллекта;

сферы обязательного применения ИИ;

порядок передачи данных с систем фото- и видеонаблюдения.

Все собираемые данные должны храниться на территории Москвы. Предполагается, что они будут уничтожены по окончании эксперимента.

Что российские законодатели называют обезличенными данными? Министерство цифрового развития, связи и массовых коммуникаций РФ сформировало свое определение для этого понятия осенью 2019 года. Министерство разместило для публичного обсуждения законопроект «О внесении изменений в ФЗ «О персональных данных»» «Обезличенные данные просятся на бумагу», Устинова А., ComNews. . Было предложено внести в закон определение обезличенных данных и разрешение передавать их третьим лицам. Передача третьим лицам и обработка данных разрешается: для анализа, сбора статистики и исследований, для предотвращения имущественного ущерба, предупреждения и предотвращения противоправных деяний и для достижения общественно значимых целей «Обезличенные данные» или что планируется в 152-ФЗ», «Хабр .

В проекте разграничиваются понятия «обезличенные данные» и «обезличенные персональные данные».

Обезличенные данные -- «информация, которая в результате обезличивания не позволяет даже при использовании дополнительной информации определить ее принадлежность конкретному субъекту персональных данных». Кроме того, предлагается разрешить оформлять согласие на обработку персональных данных для нескольких целей одновременно. Также вводится понятие «гражданско-правовой оборот данных»: данные разрешается продавать или передавать третьим лицам в коммерческих целях.

Такие изменения упрощают и легализуют работу компаний, которые имеют дело с большими массивами информации. Что касается определения обезличенных данных, некоторые эксперты называют его фикцией. Например, член Комиссии по правовому обеспечению цифровой экономики Московского отделения Ассоциации юристов России Борис Едидин комментирует ситуацию так ««Обезличенные данные» или что планируется в 152-ФЗ», «Хабр : «Во многих случаях, вопрос идентификации человека по обезличенным данным -- это вопрос алгоритмов и технологий. Сегодня они не позволяют вас идентифицировать, а завтра такая возможность технически будет реализована. Кроме этого, с введением данного определения остаются открытыми вопросы безопасности данных как персональных, которые были преобразованы в обезличенные, так и самой технологии обезличивании. Любая утечка предоставляет массу возможностей для реализации обратного процесса создания на основе обезличенных данных профиля конкретного человека». При этом у граждан России нет инструментов контроля за тем, что происходит с их данными, нет информации о том, какие ведомства собирают данные и где они их хранят. Также нет возможности получить компенсацию в случае утечки этих данных. Ничто из этого не прописано ни в законах, ни в законопроектах.

Данный законопроект апеллирует к национальной программе «Цифровая экономика» Национальный проект «Цифровая экономика», . В чем ее суть? Это программа, направленная на создание информационно-телекоммуникационной инфраструктуры

высокоскоростной передачи, обработки и хранения больших объемов данных. Декларируется, что она должна быть доступна для всех организаций и домохозяйств. Еще одна цель -- внедрить российское программное обеспечение во все бюджетные организации. Срок реализации программы -- до 2024 года.

Среди наиболее интересных задач:

обеспечить всеобщий широкополосной доступ к интернету (для 97% населения и 100% социально значимых объектов);

увеличить долю услуг по хранению и обработке данных в РФ на мировом рынке;

законодательно закрепить обязательную предустановку российских антивирусов на все ПК, ввозимые и созданные в РФ;

создать систему отраслевого регулирования использования киберфизических систем, включая «Интернет вещей»;

создать типовое автоматизированное рабочее место госслужащего на базе российского программного обеспечения;

создать единую государственную облачную систему;

создать единую государственную геоинформационную систему;

создать российскую цифровую платформу сбора, обработки, хранения и распространения данных дистанционного зондирования Земли из космоса (проект «Цифровая Земля»);

создать цифровую платформу инвентаризации, учета и контроля состояния всех видов энергоресурсов;

ввести электронные паспорта вместо бумажных.

Часть обозначенных сервисов дублируют существующие, но будут более подконтрольны государству. Например, уже существуют карты «Яндекс» и других компаний. Существуют крупные облачные сервисы. Необходимость создания государственных интернет-карт комментируется следующим образом: «Государство не может использовать существующие открытые сервисы, такие как «Яндекс.Карты», поскольку они не обеспечивают необходимую точность, юридически не гарантируют ее: на основе таких данных нельзя организовать надежный государственный сервис, нельзя решать системные задачи национальных проектов» «В Росреестре предложили создать государственный аналог «Яндекс карт»», Балашова А., «РБК». URL: .

Мы смеем предположить, что замысел данного проекта не просто в создании сервисов и обеспечении комфорта, но в получении абсолютного и легального доступа к максимально возможному количеству данных об организациях и жителях РФ. Сейчас, например, правительству Москвы приходится ежегодно покупать данные у сотовых операторов, агрегаторов каршеринга и такси «»Умный город» или «Старший брат»? Как мэрия научилась знать о москвичах все», Захаров А., «Русская служба BBC». .

Это не было бы необходимостью, если бы сервисы были подведомственны государству. Люди почти всегда пользуются картами для прокладывания своих маршрутов. Создание государственных карт и, например, блокировка остальных -- идеальное решение для централизованного сбора информации о планах и передвижениях людей.

Те, у кого нет постоянного доступа в интернет или кто не пользуется им активно -- это тоже своеобразное «белое пятно». Если его заполнить, то информации будет больше. То же самое касается данных о госучреждениях и их сотрудниках. Типовое автоматизированное рабочее место -- идеальный инструмент контроля. А цифровой документооборот, в том числе электронные паспорта, -- концепция, требующая гарантий приватности и защиты данных, которых в Российской Федерации нет. Также нет единообразия систем и защищенных каналов передачи данных между ними. Это особый вид опасности: самые частые утечки -- при передаче «на флешке» и пересылке в личных сообщениях. Дальнейшая судьба этих данных точно неизвестна, но высоко предсказуема.

Есть, конечно, и оборотная сторона медали в национальной программе «Цифровая экономика», сторона более очевидная -- создание условий для технологического прогресса в стране, в том числе для развития технологий искусственного интеллекта.

Эксперты из CNews Analytics отмечают, что в темпах реализации программы наблюдается серьезное отставание ««Цифровая экономика». Как реорганизовать нацпрограмму, чтобы она заработала в полную силу», CNews Analytics. URL . О том же самом говорят представители власти -- например, председатель Совета Федерации Валентина Матвиенко. В 2019 году она назвала состояние дел с исполнением программы «совсем недопустимым» Там же..

CNews Analytics попробовали разобраться в проблемах реализации программы «Цифровая экономика» Там же. . Среди них:

Не дано определение: что такое «Цифровая экономика»?

Большинство целей и задач сформулированы не по методике SMART: они не измеримы, не конкретны, не всегда очевидна их достижимость и значимость. Часть из них носят формальный характер.

Цели и задачи продиктованы пунктами указа Президента РФ от 7 мая 2018. Лаконичность, нормальная для указа Президента, перешла в паспорта программы и проектов, где наоборот требуется подробность.

Часть целей и задач чисто коммерчески ориентированы. Например, цель №1 выглядит так: «Увеличение внутренних затрат на развитие цифровой экономики за счет всех источников (по доле в ВВП) не менее чем в 3 раза по сравнению с 2017 г». Увеличение затрат само по себе не влечет развитие направления и технологий.

Невозможен общественный контроль. Не публикуются ни планы мероприятий, ни объемы их финансирования, ни научно-исследовательские работы, проведенные в рамках программы.

Нет единой информационной точки входа, где можно было бы увидеть все события и материалы, связанные с программой.

Таким образом, сейчас сложно прогнозировать: как сильно повлияет национальная программа «Цифровая экономика» на развитие IT-технологий и технологий искусственного интеллекта в частности. Однако очевиден государственный курс на финансовую поддержку данной отрасли в России и на взятие ее под контроль.

Правовое регулирование в Китайской Народной Республике

Китай -- один из мировых лидеров в области искусственного интеллекта. В 2019 году он занимаЛ второе место в рейтинге стран по количеству научных статей, представленных на самых престижных конференциях об искусственном интеллекте («Конференция по нейронным системам обработки информации» и «Международная конференция по машинному обучению») «Кто мировой лидер в сфере искусственного интеллекта? Рейтинг искусственного интеллекта на ведущих конференциях 2019 года», Чувпило Г. . Кроме того, он второй в мире по количеству компаний, связанных с разработкой искусственного интеллекта. По состоянию на 2019 год, в Китае этим занимаются 1011 компаний «Где создают искусственный интеллект: топ-10 стран мира». .

Китай известен политикой «приоткрытой двери» Там же. : он активно перенимает технологии у компаний из открытого рынка, не позволяя при этом иностранцам закрепиться у себя, используя такие методы как поглощение иностранных компаний для получения доступа к технологиям. Передача технологий может быть обязательным условием выхода иностранцев на китайский рынок. Китайские компании делят сферы влияния на мировом рынке так, чтобы не конкурировать друг с другом.

В Китае сформулирована своя «стратегия-2030» -- «План развития искусственного интеллекта нового поколения» Next Generation Artificial Intelligence Development Plan. . Коммунистическая партия Китая призвала свою страну достичь высшего уровня искусственного интеллекта к 2020 году, крупных прорывов в этом направлении к 2025 году и стать мировым лидером к 2030 году.

В КНР развивается концепция «Умного города» (Smart City). В 2017 году она затронула около 500 городов, среди которых -- большинство районных центров. Например, в Иньчуане посетителей мэрии встречают голограммы, в автобусах повсеместно внедрена система распознавания лиц, урны работают на солнечных батареях и автоматически сообщают своей компании о наполнении мусором. В Ханчжоу трафик регулирует искусственный интеллект, магазины принимают оплату с помощью технологии распознавания лиц «Все под контролем. Что представляют из себя «умные города» в Китае», Тищенко М., Republic. URL.

«Умный город» в Китае -- это еще и государственная система социального кредита (Social Credit System). Впервые она была внедрена в городе Жунчэн в 2013 году. Каждому жителю города автоматически присваивается рейтинг, от которого зависит возможность взять кредит, выехать за пределы города, найти работу, поступить в университет. Оценивать граждан помогают технологии интернета вещей и анализ больших данных.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.