Кэти О'Нил
1,462,728 views • 13:18

Алгоритмы повсюду. Они сортируют людей, отделяя победителей от проигравших. Победители получают желаемую работу или выгодное кредитное предложение. Неудачники даже не получают шанса на собеседование или платят больше за страхование. Нас «считывают» по секретным формулам, которые мы зачастую не понимаем, без возможности обжалования решения. Назревает вопрос: что, если эти алгоритмы ошибочны?

Для построения алгоритма вам нужны две вещи: вам нужны данные о прошлых событиях и определение понятия «успех» — того, к чему вы стремитесь и на что надеетесь. Вы обучаете алгоритм, наблюдая за результатом. Алгоритм вычисляет всё то, что связано с успехом. Какая ситуация приводит к успеху?

Каждый из нас использует алгоритмы. Мы просто не записываем их в виде формул и кодов. Приведу пример. Я использую алгоритм каждый день, когда готовлю еду для своей семьи. Данные, которые я использую, — это ингредиенты у меня на кухне, моё время, мои цели, и я организовываю эти данные. Я не считаю эти пакетики лапши пищей.

(Смех)

Вот моё определение успеха: блюдо удалось, если мои дети едят овощи. Мой младший сын думает по-другому. Для него успех — это если он получит много Нутеллы. Но определяю успех я. Я главная. Именно моё мнение имеет значение. Это первое правило алгоритмов.

Алгоритмы — это мнения, встроенные в код. Это отличается от того, как большинство людей воспринимают алгоритмы. Алгоритмы для них объективны, истинны и научны. Это маркетинговый трюк. Этот трюк используют для того, чтобы запугать вас алгоритмами, чтобы вы доверяли им и боялись их, как вы доверяете математике и боитесь еë. Опасно вкладывать слепую веру в «большие данные».

Это Кири Соареш. Она директор средней школы в Бруклине. В 2011 году она рассказала, что её учителей оценивали с помощью сложного секретного алгоритма — «модели добавленной стоимости». Я сказала ей: «Выясни-ка, что это за формула и покажи мне, я попробую объяснить еë тебе». Она сказала: «Ну, я хотела получить формулу, но в отделе образования мне сказали, что это математика, и я не ничего пойму».

Ситуация ухудшается. Газета «Нью-Йорк Пост», согласно Закона о свободе информации, опубликовала инфо с именами всех учителей и их баллами в попытке пристыдить их. Когда я сама попыталась получить формулы и исходный код, мне их не дали. Мне отказали. Позже я узнала, что никто в Нью-Йорке не имеет доступа к этой формуле. Никто её не понимал. Пока за дело не взялся кто-то умный — Гари Рубинштейн. Он обнаружил, что 665 учителей в базе данных Нью-Йорка имели две оценки. Это могло бы быть, если они преподают математику в седьмом и восьмом классах. Он решил создать график. Каждая точка представляет собой учителя.

(Смех)

Что это?

(Смех)

Это нельзя было использовать для индивидуального оценивания. Это почти что генератор случайных чисел.

(Аплодисменты)

Однако так и было. Это Сара Высоцки. Её уволили вместе с 205 другими учителями из школы в Вашингтоне округа Колумбия, даже не смотря на отличные рекомендации от директора её школы и родителей учеников.

Я знаю, о чём думают многие из вас, особенно специалисты ИТ, ИИ-эксперты. Вы думаете: «Ну, я бы никогда не создал такой непоследовательный алгоритм». Но алгоритм может не сработать, и даже благие намерения могут иметь глубоко разрушительный эффект. И в то время как самолёт с ошибками в проекте упадëт на землю, и все это увидят, алгоритм с ошибками может работать долгое время, бесшумно давая волю хаосу.

Это Роджер Айлз.

(Смех)

Он основал Fox News в 1996 году. Более 20 женщин жаловались на сексуальные домогательства. Они сказали, что им не дали возможности преуспеть в Fox News. Его сняли и в прошлом году, но понятно, что проблемы так и остались нерешёнными. Это вызывает вопрос: что должны делать Fox News, чтобы начать всё сначала?

Что, если бы они заменили процесс найма машинным алгоритмом? Неплохо, не так ли? Подумайте об этом. Данные, какими будут данные? Разумно было бы проанализировать 21 год опыта приёма на работу в Fox News. Разумно. Как насчёт определения успеха? Разумным было бы выбрать тех, кто преуспевает в Fox News? Я думаю, тех, кто скажем, проработал там четыре года и получил продвижение хотя бы один раз. Звучит разумно. А затем алгоритм можно было бы натренировать. Он мог бы искать людей, которые способны достичь успеха, узнать, какие из претендентов на должность были успешными в прошлом. По этому определению. Подумайте о том, что произошло бы, если применить эту формулу ко всем претендентам. Женщин можно сразу исключить, потому что среди них немного тех, кто достиг успеха в прошлом.

Алгоритмы не обеспечивают справедливости. Если вы безропотно, слепо применяете алгоритмы, они не обеспечат честность. Они повторяют наш прошлый опыт, наши шаблоны. Они автоматизируют статус-кво. Было бы здорово, если бы у нас был идеальный мир, но у нас его нет. Кстати, большинство компаний обошлись без судебных процессов, но учёным в данных компаниях велено следить за данными, чтобы сосредоточиться на их точности. Подумайте, что это значит. Поскольку все мы не лишены предвзятости, данные могут кодифицировать сексизм или другие формы дискриминации.

Вот мысленный эксперимент, потому что мне они нравятся: общество с полной сегрегацией — расовое разделение во всех городах, всех районах. Мы отправляем полицию только в окрестности меньшинств расследовать преступления. Данные об аресте будут очень предвзятыми. А что, если, мы нашли бы специалистов и заплатили им за прогноз места следующего преступления? Окрестность меньшинств. Или же за прогнозирование следующего преступника? Кто-то из меньшинств. Специалисты обработки данных хвалятся тем, насколько гениальны и точны их модели, и они правы.

Теперь реальность не настолько радикальна, но у нас есть серьёзное разделение во многих городах, и у нас есть много доказательств предвзятости в политической и судебной системах. И мы прогнозируем горячие точки — места преступлений. И мы на самом деле предсказываем преступления отдельных лиц, преступные действия индивидов. Новостной ресурс ProPublica недавно рассмотрел один из алгоритмов — «риск рецидива», как его называют, который используется во Флориде при вынесения приговора судьями. Бернар, чернокожий человек слева, получил 10 из 10. Дилан, справа, — 3 из 10. 10 из 10 — это высокий риск. 3 из 10 — низкий риск. Они оба были привлечены за хранение наркотиков. Они оба имели аресты, но у Дилана было уголовное преступление, а у Бернарда нет. Это имеет значение, потому что чем выше оценка, тем больше вероятность того, что вам дадут более длительный срок.

Что происходит? «Отмывание» данных. Это процесс сокрытия правды в «чёрном ящике» алгоритмов, алгоритмов объективных и заслуживающих одобрения. Они секретны, важны и разрушительны. Я придумала термин для них: «оружие математического уничтожения».

(Смех)

(Аплодисменты)

Они повсюду, и это не ошибка. Частные компании строят частные алгоритмы для себя. Даже алгоритмы для учителей и полиции были построены частными компаниями и проданы государственным учреждениям. Они называют это своим «секретом» — вот почему они не рассказывают ничего. Это также частная власть. Они пользуются преимуществом, обеспеченным секретностью. Так как всё частное и присутствует конкуренция, свободный рынок — это выход. Но это не так. В этой несправедливости — куча денег.

И мы не рациональны с точки зрения экономики. Мы все предвзяты. Мы все расисты и фанатики, к сожалению, часто подсознательно. Мы это знаем, но, в совокупности, социологи демонстрируют это своими экспериментами. Они рассылают заявки квалифицированных работников, и по их именам можно понять, белые они или чернокожие. И результаты всегда разочаровывают.

Мы предвзяты и внедряем предубеждения в алгоритмы, отбирая данные. Вот я решила не думать о лапше, я решила, что это неприемлемо. Но, доверяя собранным ранее данным и выбирая своё определение успеха, можно ли ожидать, что алгоритмы окажутся непредвзятыми? Нет. Мы должны их проверять. Мы должны проверять их на справедливость.

Хорошей новостью является то, что мы можем это сделать. Алгоритмы можно допросить, и они всегда скажут нам правду. И мы можем их исправить. Мы можем их улучшить. Это алгоритмический аудит, и я вам сейчас объясню.

Во-первых — проверка целостности данных. Для алгоритма определения риска рецидива, о котором я говорила ранее, проверка целостности данных означает принятие факта о том, что в США белые и чёрные курят марихуану одинаково, но чернокожих чаще задерживают. Вероятность ареста в 4–5 раз выше, в зависимости от района. Как это выглядит в других сферах права, и как это можно объяснить?

Во-вторых — успех, проверьте его. Помните? Алгоритм принятия на работу? У кого стаж четыре года и одно продвижение? Это — успешный сотрудник, но это и тот, кого поддерживает культура компании. И это может быть довольно предвзятым. Нам нужно разделять эти две вещи. Вот слепое cобеседование для примера. Прослушивают людей, не видя их. Я думаю о том, что прослушивающие люди решили, что важно для них, а что нет. И больше они не отвлекаются на эту тему. Когда начались «слепые оркестровые прослушивания», число женщин в оркестрах выросло в пять раз.

Затем мы должны учитывать точность. Тут модель добавленной стоимости для учителей провалилась бы сразу. Конечно, нет идеальных алгоритмов, поэтому мы должны учитывать ошибки всех алгоритмов. Когда бывают ошибки, к кому эта модель не подходит? Какова цена этой неудачи?

И, наконец, мы должны рассмотреть долгосрочные эффекты алгоритмов, петли обратной связи. Это звучит абстрактно, но представьте, если бы об этом подумали творцы Facebook, прежде чем они решили показать нам публикации наших друзей.

У меня есть ещё два сообщения, одно для ИТ специалистов. Ребята, мы не должны быть судьями правды, мы должны передавать этику широкой общественности.

(Аплодисменты)

А для остальных, не специалистов ИТ: это не математический тест. Это политическая борьба. Нужна отчётность собственников алгоритмов.

(Аплодисменты)

Эре слепой веры в «большие данные» конец!

Спасибо большое.

(Аплодисменты)