Блез Агюера и Аркас
2,003,997 views • 17:34

Я возглавляю команду в Google, работающую над машинным интеллектом, другими словами, занимающуюся инженерией, созданием компьютеров и устройств, способных делать то, что делает наш мозг. Мы не можем не интересоваться настоящей мозговой деятельностью, а также неврологией. И особенно нас интересуют действия нашего мозга, в которых он до сих пор превосходит возможности компьютеров.

Исторически одной из этих областей было восприятие — процесс, благодаря которому всё в мире, все звуки и изображения в нашем сознании превращаются в понятия. Это совершенно необходимо для нашего разума, однако полезно и для компьютера. Например, наша команда создаёт машинные алгоритмы восприятия, которые позволяют вам находить картинки на Google Photos по тому, что на них изображено. Обратная сторона восприятия — творчество: превращение задумки во что-то реальное. Таким образом, за прошедший год наша работа над компьютерным восприятием также неожиданно стала связана с миром компьютерного творчества и машинного искусства.

Я считаю, что у Микеланджело было точное понимание двойственного отношения между восприятием и творчеством. Вот его известная цитата: «Внутри каждого камня скрыта статуя, задача скульптора — её обнаружить». Я думаю, что Микеланджело говорит о том, что мы создаём посредством восприятия, а само восприятие — это акт воображения и материал для творчества.

Орган, который думает, воспринимает и представляет, — это, конечно же, мозг. Я хотел бы начать с небольшого экскурса в историю исследования нашего мозга. Потому что, в отличие от сердца или кишечника, нельзя много сказать о мозге, просто посмотрев на него невооружённым глазом. Первые анатомы, которые смотрели на мозги, давали поверхностной структуре этого óргана причудливые имена, например, гиппокамп, что означает «креветка». Но, конечно, такого рода наблюдения мало говорят нам о происходящем внутри мозга.

Первый человек, у которого действительно было некоторое понимание того, что происходит в мозге, был великий испанский нейрофизиолог Сантьяго Рамон-и-Кахаль, живший в XIX веке. Он использовал микроскоп и специальный краситель, который мог выборочно заполнить отдельные клетки мозга или придать им контрастность, чтобы понять их морфологию. А вот изображения нейронов, которые он нарисовал в XIX веке.

Это нейроны мозга птицы. Вы видите здесь невероятное разнообразие различных видов клеток, даже клеточная теория сама по себе была в то время довольно нова. И эти структуры, эти клетки, которые имеют разветвления и эти очень длинные ответвления, — всё это было тогда очень ново. Они напоминают провода. Это могло быть очевидным для некоторых людей в XIX веке: как раз начиналась электрификация. Но во многом такие микроанатомические зарисовки Рамона-и-Кахаля всё ещё остаются непревзойдёнными.

Мы до сих пор, более ста лет спустя, пытаемся закончить работу, начатую Рамоном-и-Кахалем. Это необработанные данные от наших коллег из Института Неврологии Макса Планка. Наши коллеги изобразили маленькие кусочки ткани головного мозга. Весь образец составляет примерно один кубический миллиметр, а я показываю вам очень маленький его кусочек. Та риска слева равна одному микрону. Структуры, которые вы видите, — это митохондрии, они размером с бактерию. А это последовательные срезы этого очень маленького кусочка ткани. Просто для сравнения: диаметр волоса в среднем составляет около 100 микрон. Мы здесь видим нечто гораздо меньшее, чем человеческий волос.

Из этой серии микроскопических срезов можно начать делать 3D реконструкции нейронов, похожие на эти. По стилю они похожи на рисунки Рамона-и-Кахаля. Отдельные нейроны подсвечены, иначе мы бы здесь ничего не увидели. Тут было бы полно́ всего, сплошные структуры и провода, соединяющие один нейрон с другим.

Итак, Рамон-и-Кахаль немного опережал своё время, и прогресс в понимании мозга продвигался медленно в течение следующих десятилетий. Но мы знали, что нейроны используют электричество, и ко Второй мировой войне технологии были развиты достаточно, чтобы начать электрические эксперименты на живых нейронах, чтобы лучше понимать, как они работают. Именно тогда изобрели компьютеры, во многом основанные на идее моделирования мозга, или «искусственного интеллекта», как называл его Алан Тьюринг, один из отцов информатики.

Уоррен Мак-Каллок и Уолтер Питтс посмотрели на рисунки Рамона-и-Кахаля. Сейчас я показываю вам это изображение зрительной коры. Эта кора головного мозга обрабатывает образы, поступающие от органов зрения. По их мнению это выглядело, как замкнутая схема. В схеме Мак-Каллока и Питтса многие детали не совсем точны, но основная идея, что зрительная кора работает как серия вычислительных элементов, которые каскадом передают друг другу информацию, по сути верна.

Давайте немного поговорим о том, что должна делать модель обработки визуальной информации. Основная задача распознавания — это взять картинку, такую как эта, и сказать: «Это птица». Для нашего мозга это простая задача, но вы должны понимать, что для компьютера всего несколько лет назад подобное было почти невозможно. Согласно классической парадигме расчётов, это не то задание, которое можно выполнить легко.

Так что же происходит между пикселями, между изображением птицы и словом «птица»? По сути, группа нейронов связана друг с другом в нейронной сети, как я показываю здесь. Эта нейронная сеть в коре головного мозга могла быть биологической, а в наше время мы можем смоделировать такую нейронную сеть на компьютере. И я вам покажу, как это выглядит.

Поэтому о пикселях можно думать как о первом слое нейронов — именно так происходит в глазу — это нейроны в сетчатке. А остальные нейроны связаны по цепи слой за слоем, их соединяют между собой синапсы различных весов. Поведение этой сети характеризуется силой этих синапсов. Они характеризуют вычислительные свойства этой сети. В конце концов один или несколько нейронов загораются, говоря: «птица».

Теперь я собираюсь представить эти три вещи — входные пиксели и синапсы в нейронной сети и, как результат, птицу при помощи трёх переменных: Х, W и Y. Существует миллион или около того X — миллион пикселей в изображении. Миллиарды или триллионы W — представляющих весá всех этих синапсов в нейронной сети. И очень маленькое количество Y — значений на выходе сети. «Птица» же состоит всего из 5 букв. Давайте представим, что это простая формула: X «х» W = Y. Я ставлю умножение в кавычки, потому что на самом деле там просисходит очень сложная серия математических расчётов.

Это одно уравнение с тремя переменными. И всем известно, что если у нас есть уравнение, то мы можем найти одну переменную, зная две другие. Таким образом, задача по распознаванию птицы в изображении птицы заключается в следующем: Y неизвестен, а W и X известны. Вы знаете нейронную сеть, вы знаете пиксели. И как видите, это относительно простая задача. Вы умножаете два на три, и всё готово. Я покажу вам искусственную нейронную сеть, которую мы построили недавно, делая то же самое.

Она работает в реальном времени на мобильном телефоне. Удивительно уже само по себе то, что мобильные телефоны могут выполнять миллиарды и триллионы операций в секунду. Мы видим телефон, который смотрит на изображение птиц одно за другим и не только говорит: «Да, это птица», но также через такую же сеть определяет вид этой птицы. На этой картинке X и W известны, а Y неизвестен. Я, конечно, пропускаю самую сложную часть — то, каким непостижимым образом мы находим W — мозг, который может это сделать. Сможем ли мы сделать такую модель?

Этот процесс нахождения W, будь это простым уравнением, где мы думаем о неизвестных, как о числах, мы бы знали, как именно это сделать: 6 = 2 * W, делим на 2, и готово. Но проблема именно в этом преобразовании, в делении. Мы использовали его здесь, так как оно обратно умножению, но, как я сказал, умножение здесь — это фикция. Это чрезвычайно сложная нелинейная операция, она не имеет обратного действия. Мы должны найти способ решить это уравнение без деления. И способ довольно простой. Давайте проделаем маленький математический трюк и перенесём 6 в правую часть уравнения. Сейчас мы используем умножение. И этот ноль, давайте примем его за отклонение. Другими словами, если мы посчитаем W правильно, то отклонение будет равно нулю. А если мы посчитали неверно, то отклонение будет больше нуля.

Теперь мы можем подбирать числа, чтобы минимизировать отклонение, а это как раз то, в чём компьютеры очень хороши. Сначала мы предположили: что если W = 0? Тогда отклонение равно 6. Если W = 1, то отклонение — 4. И потом компьютер начинает играть в «угадайку» и приближает отклонение к нулю. Так он приближается к верному значению W. Обычно он не находит точного решения, но сделав с десяток шагов, мы приближаемся к W = 2,999, что достаточно близко к истине. Это и есть процесс обучения.

Напомню, что именно мы делаем: мы берём много известных X и Y и посредством процесса повторения находим W. Мы сами учимся точно так же. В детстве мы встречаем множество образов, и нам говорят: «Это птица, а это не птица». Со временем через повторение мы находим W, то есть нейронные связи.

Теперь у нас есть готовые X и W для нахождения Y и быстрого повседневного восприятия. Мы узнаём, как найти W, — это обучение, и оно сложно, так как надо минимизировать погрешности методом проб и ошибок.

Около года назад Алекс Мордвинцев из нашей команды решил попробовать, что будет, если попытаться найти X, зная W и Y. Другими словами, вы знаете, что это птица, и вашей нейронной сети тоже это известно. Но как же выглядит птица? Оказывается, что используя ту же самую процедуру минимизации погрешностей, можно проделать это c нейронной сетью, обученной распознавать птиц, и в результате получается изображение птицы. Это изображение птиц создано нейронной сетью, обученной распознавать птиц, просто находя X, а не Y, через множество повторений.

Вот другой интересный пример. Это работа, сделанная Майком Тайком из нашей команды. Он назвал её «Парад зверей». Она немного напоминает мне работы Уильяма Кентриджа, в которых он делает эскизы, потом их стирает, снова рисует и стирает, и так создаёт фильм. В данном случае Майк меняет Y различных видов животных в сети, созданной для распознавания разных видов животных. Получается парадоксальное, в стиле Эшера, изображение животных.

Здесь он и Алекс попытались упростить Y до двухмерного пространства, тем самым создавая карту из пространства всех объектов, распознаваемых данной сетью. Выполняя такого рода синтез или создавая изображения на всей поверхности, изменяя в ней Y, вы делаете подобие карты — визуальную карту всех вещей, которые может распознать сеть. Здесь есть все животные. Вот «броненосец».

То же можно проделать с другими типами сетей. Эта сеть создана, чтобы распознавать лица и отличать одно лицо от другого. Здесь мы добавляем Y, который значит «я», мои параметры лица. И когда эта сеть находит X, то создаёт это довольно сумасшедшее, кубическое, сюрреалистическое, психоделическое изображение меня с разных сторон одновременно. И причина, по которой изображение так выглядит, в том, что сеть стремится избавиться от неопределённости, возникающей из-за разных положений головы

или разных углов освещения. При такого рода преобразованиях, если нет опорного изображения или опорных данных, то вы получите мешанину изображений, сделанных с разных сторон, из-за неопределённости. Вот что происходит, если Алекс использует своё лицо как опорное изображение во время оптимизации программы по воссозданию моего лица. Как видите, не всё идеально. Нам предстоит ещё много работы по оптимизации процесса оптимизации. Но полученное лицо становится чётче, при его создании опорным было моё лицо.

Вам не нужно начинать с чистого листа или белого шума. Когда вы ищете X, вы можете начать с X, который сам по себе является другим изображением. Вот о чём эта маленькая демонстрация. Эта сеть которая разработана, чтобы категоризировать самые различные объекты — искусственные сооружения, животных... Здесь мы начинаем с простого изображения облаков, и по мере оптимизации эта сеть определяет, что именно она видит в облаках. И чем дольше вы смотрите, тем больше сможете увидеть в облаках. Можно использовать сеть распознавания лиц, чтобы вызвать галюцинации и получить довольно сумасшедшие вещи.

(Смех)

Майк провёл и другой эксперимент, в котором он берёт изображение óблака, галлюцинирует, приближает, галлюцинирует, приближает. И таким образом получается что-то типа состояния диссоциативной фуги сети или подобие свободных ассоциаций, в которых сеть ловит свой хвост. Каждое изображение становится основой для ответа на вопрос: «Что же я увижу дальше? Что же я увижу дальше? Что же я увижу дальше?»

Первый раз я показал это группе в Сиэттле на лекции «Высшее образование». Это было как раз после легализации марихуаны.

(Смех)

Я хотел бы быстро подвести итог и отметить, что возможности этой технологии безграничны. Я показал вам лишь визуальные примеры, потому что на них интересно смотреть. Но это не только визуальная технология. Наш сотрудник, художник Росс Гудвин, провёл эксперимент с камерой, на которую делал снимок, а в рюкзаке у него был компьютер, пишущий стихи посредством нейронных сетей, которые брали за основу фотографию. И эта поэтическая нейронная сеть была «натренирована» на обширном корпусе поэзии XX века. И знаете, получившиеся стихи, по-моему, не не так уж и плохи.

(Смех)

В завершение скажу, что считаю, Микаленджело был прав: восприятие и творчество очень тесно связаны между собой. Мы только что увидели нейронные сети, полностью обученные различать и распознавать разные физические объекты, а также работать в обратном направлении, воспроизводя их. На эту мысль меня наводит не то, что Микеланджело действительно видел скульптуру в глыбе камня, а то, что любое существо, даже инопланетное, способное к такому восприятию, также способно творить, потому что действия в обоих случаях одинаковые.

Кроме того, я думаю, что восприятие и творчество присущи не только человеку. У нас начинают появляться компьютеры, которые могут делать то же самое. И это неудивительно, ведь мозг — своего рода компьютер.

И наконец, информатика зарождалась в попытках создания искусственного интеллекта. Её во многом сформировала концепция о том, как можно сделать машины умнее. И сейчас мы начинаем выполнять некоторые обещания тех первопроходцев, Тьюринга и фон Неймана, Мак-Каллока и Питтса. Я считаю, что компьютеры — это не только расчёты, пасьянс «Косынка» или что-то подобное. Мы изначально делали компьютеры похожими на свой мозг. И они дали нам возможность лучше понять собственный мозг и развивать его.

Большое спасибо.

(Аплодисменты)