Мифы о больших данных и цифровая культура

Исследование особенностей применения методов машинного обучения для выявления преступников по фотографиям. Определение необходимости обучения цифровой грамотности. Рассмотрение и характеристика основных причин масса мифов вокруг software engineering.

Рубрика Программирование, компьютеры и кибернетика
Вид доклад
Язык русский
Дата добавления 09.10.2022
Размер файла 13,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

НИУ ВШЭ

Мифы о больших данных и цифровая культура

Блог компании Инфосистемы Джет

Big Data

Борис Асенович Новиков, доктора физико-математических наук, профессора департамента информатики

Слово big в нашем случае относится больше к мифам, чем к данным, поэтому я расскажу, в основном, о первых, но в контексте вторых. Поскольку я уже несколько десятилетий делаю вид, что работаю в научном сообществе, я начну с определения, чтобы это выглядело, как точное знание.

Мифы - неотъемлемая часть культуры общества, они существовали всегда и продолжают появляться в современном мире. Привожу примеры:

Более старшая часть аудитории должна помнить шум вокруг 2000-го года, который на самом деле является одним из 400 относительно честных способов извлечения денег из заказчика, не более того. Конечно, катастрофы тогда не случилось.

Возникает масса мифов вокруг software engineering - здесь есть много разных точек зрения, и на этой теме я концентрироваться сейчас не буду.

К этому докладу меня подтолкнула инициатива сверху: в том университете, где я работал, появилась необходимость обучить цифровой грамотности поголовно всех, от детского сада до аспирантуры. Никто не знал, что это такое, и я опрометчиво признался руководству, что я примерно понимаю, как это делать… и попался. Нужно было учить разные специальности по одной программе:

Основной мой вклад в дело заключался в том, что я переименовал этот курс из «Цифровой грамотности» в «Цифровую культуру».

На одной из международных конференций я услышал такое высказывание: для того, чтобы привлечь внимание аудитории, нужно добавить в доклад хоть какой-то намек на сексуальность, так вот: несколько лет назад в прессе (в частности, в российской) широко обсуждался случай, как американской школьнице стали присылать рекламу для беременных (на этом сексуальный контекст истории исчерпывается), потом семья обратилась с иском, но в итоге иск пришлось отозвать… Потому что девушка действительно оказалась беременной. История понаделала много шума, мол, эти аналитики знают о нас больше, чем мы сами (это уж вряд ли)! Все это очень опасно, и надо усиливать защиту. Так родились мифы:

Большие данные крайне опасны

Они знают о нас больше, чем мы сами

Необходимы дополнительные меры по безопасности

Поймите меня правильно: безопасность важна, но давайте посмотрим, как оценивать этот случай профессионально.

Какой вывод можно сделать? Анализ ИНОГДА может давать правильные результаты, и мы можем также сказать, что иногда мы ничего не знаем.

Мои друзья и коллеги обращают внимание на то, что случайная рассылка тоже иногда дает правильные результаты, и мы ничего не можем сказать о качестве рассылки, если не оценим какие-нибудь количественные показатели. Прежде всего, необходимо оценивать полноту и точность.

Следующие виды мифов я позаимствовал из зарубежного контекста. Например, на одной из топовых конференций по обработке данных SIGMOD 2019 проходила панельная дискуссия (или, как говорят у нас, «круглый стол») на тему «Responsible Data Science». Там обсуждались примеры того, каким образом случается безответственное применение средств анализа данных, машинного обучения и т.п. В качестве одного из примеров привели историю с определением пола человека по фотографии глаз. Люди работали над этим несколько лет, достигли точности аж 80%, пока один скептик не выяснил, что на самом деле они определяют наличие или отсутствие косметики. машинный цифровой software миф

Это курьез, но вот дальше пример, в котором опасность уже абсолютно реальная: речь идет о применении методов машинного обучения для выявления преступников по фотографиям. Как выяснилось, в самом принципе работы этой обучающейся системы есть проблемы с политкорректностью: во-первых, они давали ложноположительные ответы с разной частотой в зависимости от расы, а во-вторых, как оказалось потом, на самом деле они определяли наличие или отсутствие улыбки на фотографии, не более того. Однако были попытки применения этой системы, и офицерам, которые должны были использовать результаты, в случае несогласия полагалось писать письменное объяснение, почему именно они не согласны с результатами, которые выдает система. Вот это уже пример того, каким образом мифы могут стать опасными для общества.

Почему-то мы говорим Data Science, хотя речь идет о промышленных применениях. Во всех остальных областях - Computer Science, но… Software Engineering. Уравнения математической физики и какое-нибудь мостостроение, или что-то еще? Коллеги, ученым нельзя верить! Хотелось бы думать, что Data Science относится к разделу «Науки», и к сожалению, формулировка Data Engineering уже занята другим понятием.

Я возвращаюсь к истории с проектом курса для всего университета независимо от подготовленности и специальности. Картинка с правой стороны (лебедь, рак и щука) показывает, каким образом работала команда, собранная из представителей всех факультетов университета.

Тем не менее, мы попытались сделать что-то разумное. Идея состояла в том, чтобы показать простые вещи, которые каждый исследователь может делать сам независимо от той области, в которой он работает. При этом чтобы он мог понять, в какой момент (это самое важное!) нужно обратиться к профессионалам по обработке данных. Я пытался избежать таких рецептов для начинающих (но из этого мало что получилось), типа «Сделайте сложение популярным, но не практическим руководством».

Итак, мифы неизбежны, и мы должны понимать, что с ними все-таки придется иметь дело. Мифы являются источником многих ошибок, неудач и проблем, а иногда могут быть даже опасны - необдуманное применение мифических «знаний» может иметь негативные последствия.

Кроме того, что мы развиваем технологии, надо заниматься просвещением общества, и это забота постоянная, которая никогда не будет решена полностью, потому что человечество в общем развивается не так быстро, как технологии. Обучить людей намного труднее, чем искусственный интеллект - один из источников мифов. Нам надо научиться работать и жить с этим так, чтобы избежать больших опасностей.

Размещено на Allbest.ru

...

Подобные документы

  • Разъяснения по использованию систем цифровой подписи в связи с ведением закона "Об электронной цифровой подписи". Пример практического применения механизма электронно-цифровой подписи: программа контроля подлинности документов, хранимых в базе данных.

    контрольная работа [180,1 K], добавлен 29.11.2009

  • Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.

    дипломная работа [917,1 K], добавлен 31.01.2015

  • Рассмотрение общей характеристики данных. Исследование особенностей и назначения линейных, табличных и иерархических структур данных, анализ процесса их упорядочения. Рассмотрение основных режимов обработки данных. Описание алгоритма решения задачи.

    реферат [27,4 K], добавлен 20.04.2019

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • ISDN как цифровой вариант аналоговых телефонных линий с коммутацией цифровых потоков. Использование его в качестве средства традиционной телефонной связи и Internet. Практический опыт применения интерфейсов ISDN: BRI и PRI. Системы передачи данных.

    реферат [905,7 K], добавлен 12.12.2013

  • Преимущества применения компьютера в учебной деятельности. Перспектива применения автоматизированной системы обучения: информационное и математическое обеспечение. Пути обучения медсестер сестринскому делу с помощью автоматизированной системы обучения.

    дипломная работа [3,4 M], добавлен 11.02.2013

  • Понятие и отличительные черты аналоговой и цифровой информации. Изучение единиц измерения цифровой информации: бит (двоичная цифра) и байт. Особенности передачи, методы кодирования и декодирования текстовой, звуковой и графической цифровой информации.

    реферат [479,4 K], добавлен 22.03.2010

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

  • Популярность алгоритмов машинного обучения для компьютерных игр. Основные техники обучения с подкреплением в динамической среде (компьютерная игра "Snake") с экспериментальным сравнением алгоритмов. Обучение с подкреплением как тип обучения без учителя.

    курсовая работа [1020,6 K], добавлен 30.11.2016

  • Организационно-правовое обеспечение электронной цифровой подписи. Закон "Об электронной цифровой подписи". Функционирование ЭЦП: открытый и закрытый ключи, формирование подписи и отправка сообщения. Проверка (верификация) и сфера применения ЭЦП.

    курсовая работа [22,9 K], добавлен 14.12.2011

  • Получение и обработка данных о веб-сайте. Иерархическая классификация, алгоритмы машинного обучения. Решающие деревья, плоские классификаторы. Метрики оценки качества. Полная точность (accuracy), кросс-валидация. Параллельные вычисления, хранение данных.

    курсовая работа [276,8 K], добавлен 04.09.2016

  • Machine Learning как процесс обучения машины без участия человека, основные требования, предъявляемые к нему в сфере медицины. Экономическое обоснование эффективности данной технологии. Используемое программное обеспечение, его функции и возможности.

    статья [16,1 K], добавлен 16.05.2016

  • Общая информация о Siemens Teamcenter Engineering. Составные части приложения "Мой навигатор". Изменения в конструкции крыла ИЛ-76МД-90А. Модернизирование топливной системы самолета, моделирование компенсатора в Unigraphics NX. Изменение материала.

    контрольная работа [1,0 M], добавлен 27.05.2014

  • Назначение и особенности применения электронной цифровой подписи, история ее возникновения, алгоритмы, схемы. Использование хэш-функций. Подделка подписей, модели атак и их возможные результаты. Управление ключами открытого типа. Хранение закрытого ключа.

    презентация [883,5 K], добавлен 18.05.2017

  • Понятие "информационная культура", её структура и основные факторы развития. Международный стандарт компьютерной грамотности. Когнитивный, эмоционально-ценностный и действенно-практический компонент культуры. Содержание модулей ECDL. Уровни грамотности.

    презентация [4,8 M], добавлен 24.11.2014

  • Схема формирования электронной цифровой подписи, её виды, методы построения и функции. Атаки на электронную цифровую подпись и правовое регулирование в России. Средства работы с электронной цифровой подписью, наиболее известные пакеты и их преимущества.

    реферат [27,8 K], добавлен 13.09.2011

  • хDSL как цифровая абонентская линия, позволяющая повысить пропускную способность абонентской линии телефонной сети общего пользования путём использования линейных кодов и адаптивных методов цифровой обработки сигнала. Преимущества xDSL перед ISDN.

    лекция [108,5 K], добавлен 15.04.2014

  • Рассмотрение основных этапов проектирования базы данных "Расписание": создание информационных таблиц, определение схем для связи данных в реестрах. Изучение методов организации форм (режимы автоматический, Мастер, конструктор), запросов и отчетов.

    курсовая работа [1,7 M], добавлен 06.02.2010

  • Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.

    курсовая работа [664,7 K], добавлен 01.01.2018

  • Изучение понятия локальной вычислительной сети, назначения и классификации компьютерных сетей. Исследование процесса передачи данных, способов передачи цифровой информации. Анализ основных форм взаимодействия абонентских ЭВМ, управления звеньями данных.

    контрольная работа [37,0 K], добавлен 23.09.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.