на главную | войти | регистрация | DMCA | контакты | справка | donate |      

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я


моя полка | жанры | рекомендуем | рейтинг книг | рейтинг авторов | впечатления | новое | форум | сборники | читалки | авторам | добавить



11

Искусственный интеллект третьей волны

В книге мы увидели, почему ИИ не работает так, как нам хотелось бы. Мы обращались к примерам непонимания, расизму, замаскированному под аналитику, и разбитым вдребезги мечтам. Теперь пришло время обсудить более приятные вопросы: совместный путь, требующий максимальных усилий со стороны человека и со стороны машины. Человек в паре с машиной эффективнее человека или машины поодиночке.

Начнем с истории обо мне и моей лужайке. Дом моих родителей был бывшей фермой, занимавшей примерно 40 соток. С 11 лет я должна была стричь газон. У нас была небольшая газонокосилка с сиденьем. Это было потрясающе, я считала, что нахожусь в шаге от вождения автомобиля. И, как и большинство детей из пригорода, я не могла дождаться, когда получу права. Так что, если погода позволяла, каждую субботу я рассекала по участку, подстригая газон. Мне не нравилось стричь газон, но мне действительно нравилось управлять газонокосилкой.

Это был старый дом с большим участком, расположенный на холме, так что благоустройство было сложной задачей. По сути, мне нужно было стричь неровную поверхность участка позади дома, два сада по бокам и небольшой кусочек газона в форме буквы J.

Обычно я стригла газон по кругу. Начинала позади дома и делала круг по периметру, доставая до самых краев. Колеса оставляли на земле параллельные следы. Затем, на следующем круге, я проезжала так, чтобы правое колесо газонокосилки попадало на прошлый след левого колеса. Это обеспечивало ровные ряды, и когда я смотрела из окна во двор, то видела хитрую спираль. Она мне нравилась.

Будучи весьма увлеченным садоводом, моя мама создала небольшие островки сада в разном микроклимате участка. У некоторых были резкие углы под 90°. Выглядело изящно. Однако поворотный радиус колес и расположение ножей на газонокосилке не позволяли мне стричь такие углы, не въезжая при этом на метр прямо в цветник. Я могла косить по дуге, но это не угол.

Большую часть работы можно было выполнить верхом на газонокосилке, затем приходилось заканчивать при помощи ручной косилки – так углы обретали задуманные формы. Ральф, парень, который косил газон до тех пор, пока мне не стукнуло 11, занимался этим. На самом деле он стриг весь двор ручной газонокосилкой. И, если бы я была хорошей дочерью, я бы тоже так делала. Миллион раз мама меня об этом просила. И я почти никогда не делала. Конечно, я находила отговорки (аллергия, изнеможение, тепловой удар), но полагаю, реальная причина была в том, что я была упрямым ребенком, который попросту не хотел делать то, что ему не нравилось. Я ненавидела, когда из-под косилки вылетали травинки и палочки, ударяя меня по ногам и оставляя раны и сыпь. Я ненавидела испарения бензина и волны жара, исходившие от нее. Каждый раз, толкая агрегат, мне казалось, будто я постоянно задыхаюсь, поскольку у меня аллергия на траву. А вот на самоходной газонокосилке я находилась над точкой разброса травы. В общем, ручная газонокосилка делала меня несчастной.

В конечном итоге мама сдалась и переделала цветник так, чтобы у него были дугообразные края, а не углы.

Газонокосилка с сиденьем похожа на компьютер. Родители купили ее, поскольку, как предполагалось, она позволит сэкономить усилия. Точнее, вместо того, чтобы нанимать Ральфа, они «нанимали» меня – в этом заключался смысл экономии труда. Хотя езда на газонокосилке (которую я направляла каждый раз по тем же кругам подобно автономному пылесосу Roomba) отличалась от того, что делал Ральф. Результат отличался. Кроме того, была очевидна разница в персонале: Ральф был озеленителем, он выполнял работу на профессиональном уровне. У меня же, угрюмой девочки с аллергией на траву, получалось весьма непрофессионально. В итоге моя мама встала перед дилеммой: сохранить недорогую с финансовой точки зрения эксплуатацию меня, стригущей газон при помощи занятной машинки, которая при этом не делала ту работу, которую мама ожидала, или же она была готова на более дорогой вариант, при котором не применялись сложные технологии, однако результат был точно тем, что был ей нужен.

Моя мама была практичным человеком, у которого было много детей и много садов, так что она просто изменила формы цветников, сделав их округлыми. По сути, так же принимает решения человек, когда дело доходит до автоматизации. Последняя позволяет выполнять рутинную работу, однако не справляется с «углами». Они требуют ручного управления. Иными словами, чтобы машина справилась с углами, нужно встроить в нее человеческое усилие. Иначе работа не будет выполнена.

Сам факт того, что вы предполагаете, что технология не справится со сложными случаями – углами, – уже важен. Эффективный антропоцентричный дизайн требует, чтобы и инженер это учитывал – что вам придется вручную заканчивать работу, если это требуется. Скажем, автоматическая телефонная система позаботится о большинстве рутинных проблем, с которыми сталкиваются люди, однако для некоторых случаев все же понадобятся колл-центр и профессионал. Или, например, в отделе новостей автоматизация может помочь во множестве сфер, однако всегда понадобится кто-то, кто ответит на телефон, проверит автоматически сгенерированную статью перед публикацией – ведь у технологий есть свои пределы. Что-то замечают люди, но не замечают машины.

Существует даже термин, отображающий системы, в работу которых вовлечен человек: системы с оператором в контуре управления. Последние несколько лет меня интересует разработка технологий такого рода[156]. Как-то в 2014 г. я искала новые проекты на базе ИИ и спросила некоторых журналистов и программистов, каким, по их мнению, будет следующая веха развития ИИ. Финансирование избирательной кампании было принято большинством голосов. Приближались выборы президента США; в 2010 г. организация Citizens United способствовала формированию специальных политических комитетов (super PAC), которые во многом повлияли на сбор денег. Дата-журналисты были на гребне этой волны.

Я решила присоединиться к сражению и разработала новый движок ИИ, чтобы фиксировать мошеннические действия в финансировании кампаний и изучить приватность. Это как раз пример автоматической системы обнаружения и анализа событий, правда с оператором в контуре. Как и большинство проектов на базе ИИ, до некоторых пор мой работал прекрасно. Изучение того, как были разработаны те или иные проекты, помогает понять, почему ИИ подходит для одних задач и совершенно не справляется с другими.

Некоторые расследования похожи на стрельбу по рыбе в бочке, и именно к ним стоит применить ИИ. Ведь, чтобы использовать компьютер для поиска истории, нужно быть уверенным в том, что есть что искать. Истории можно найти в «бассейнах с деньгами». И, если мы знаем, что где-то есть «большой бассейн с деньгами», можно быть уверенными в том, что кто-то пытается их украсть. Восстановление последствий урагана, пакеты экономической помощи, неконкурентные контракты: если вы хотите поймать кого-то, кто задумал недоброе, то его точно нужно искать рядом с кучей денег.

Большая куча денег под названием «федеральная политическая кампания» всегда привлекает нескольких не слишком достойных людей. В общем, политики известны своим превосходным распорядительством общественными средствами и истовой службой на благо общества. Но не всегда. В общем, среди дата-журналистов тогда бытовало мнение, что стоит внимательно следить за финансированием кампании в преддверии президентских выборов 2016 г.

Я разработала софт для системы учета учебных материалов, о которой рассказывала в главе 5. Мне стало любопытно, смогу ли я применить программу, которую назвала Story Discovery Engine в другом контексте. В мире высоких технологий мы часто говорим об использовании уже работающих продуктов на новом улучшенном уровне. Это я и хотела сделать. Я создала программный инструмент, который позволял визуализировать проблемные сайты в одном из школьных округов. Могу ли я изменить программу так, чтобы она делала то же самое в другом округе, в Вашингтоне?

При щедрой финансовой поддержке гранта Центра цифровой журналистики Тау Колумбийской школы журналистики я решила разработать новый движок для Story Discovery Engine, который помогал бы при расследовании нарушений при финансировании. Предыдущий движок был основан на идее писать журналистам истории о книгах в школах. На этот раз я хотела создать то, что поможет обнаружить спектр сюжетов в какой-то определенной теме. Я хотела создать более масштабную систему и автоматизировать немалую долю работы журналиста, занимающегося расследованиями. Эта идея появилась задолго до выборов, было предостаточно времени для того, чтобы создать подобную технологию и опробовать на практике.

Я слышала о «темных деньгах» и появлении общественных консультативных комитетов после судебного процесса с движением «Объединенные граждане» в 2010 г. Однако я также знала, что было еще много неизвестного для меня во всей этой системе. Подобно общественному образованию, финансирование избирательных кампаний представляло собой сложную бюрократическую систему, изобилующую разного рода информацией. Кроме того, это был отличный тренировочный кейс. И вот я задумалась: могу ли я обнаружить законодателей, не придерживавшихся собственных правил?

Для начала я задействовала дизайн-мышление. Другими словами, я поговорила с людьми, которым было известно многое о том, что я собираюсь делать, и далее действовала согласно их представлениям об устройстве мира. Я пообщалась с экспертами по финансированию избирательных кампаний: журналистами, Федеральным избирательным советом (FEC), адвокатами, людьми из групп наблюдателей за финансированием избирательных кампаний. Особенно полезным оказалось общение с дизайнерами и разработчиками, работавшими с 18F, государственной системой быстрого реагирования.

Пока я разрабатывала свой инструмент, 18F создавали новый пользовательский интерфейс для морально устаревшего сайта Федерального избирательного совета. Его старая версия, что неудивительно, была слишком сложной для использования и, значит, сложной для понимания. Предполагалось, что новый сайт сделает информацию более наглядной. Однако это вовсе не означает, что он будет отражать данные, необходимые журналистам. Вместо этого дизайн был создан вокруг идеи простого и эффективного распространения данных совета (как благородно). По сути, я собиралась разработать интерфейс, который бы делал для журналистов то, что невозможно на новом сайте авторства 18F. Моим ключевым информатором был Дерек Уиллис из ProPublica, журналист, которому (возможно) было известно о финансировании кампаний больше, чем сотрудникам Федерального избирательного совета. Уиллис, десятилетиями работавший с темой выборов, разработал целый ряд инструментов. OpenElections, Politwoops и другие созданные им программы были настолько хороши, что не имело никакого смысла их переделывать. Но я хотела создать что-то именно для «полевой работы» – как инструменты Уиллиса, но для того, чтобы сделать процесс расследования быстрее. Кроме того, я читала. Самая сложная часть моей работы состояла в том, чтобы читать сотни страниц свода законодательства США и документы Федерального избирательного совета. Я также отмечала близкие моей работе возникающие темы и проблемы и обращала внимание на язык, которым все это было написано.

Первым делом нужно было спроектировать архитектуру системы. У программного обеспечения есть базовая архитектура, примерно как фундамент у зданий. Story Discovery Engine – это система на основе ИИ, однако она не полагается на машинное обучение. Оригинальная идея родом из 1980-х гг. состоит в том, что система представляет собой «эксперта в ящике». Вы задаете ящику вопрос – подобно тому, как спрашиваете врача или адвоката, – и получаете ответ. К сожалению, экспертные системы никогда не работали. А человеческие экспертные возможности слишком сложны для представления посредством системы двоичного кода (чем по сути являются компьютеры). Однако я решила хакнуть экспертную систему и превратить ее в систему с оператором в контуре управления. Предполагалось, что она будет работать, основываясь на правилах, принятых в экспертной области репортера. Это сработало. Я не создала ящик, выдававший ответы, но разработала движок, который помогает мне как журналисту быстрее обнаруживать прецеденты.

Я решила, что правила нового движка должны соответствовать правилам существующей политической системы. Это было умным решением – мне бы не пришлось самой разрабатывать правила, – но не безупречным, поскольку правила финансирования избирательных кампаний США невероятно сложны. Попробую кратко пояснить: каждый кандидат каждого федерального подразделения имеет свой авторизованный агитационно-пропагандистский комитет. Сумма к переводу через комитет в пользу кандидата не превышает $2700 за одну выборную кампанию для граждан. Комитеты могут переводить друг другу деньги. Правда, они ограничены в том, сколько могут переводить и что говорить. А вот специальные общественные консультативные комитеты или независимые комитеты по финансированию имеют право привлекать неограниченное количество средств от лица кандидата. При этом они не обязаны отчитываться о затратах перед кандидатом или его агитационным комитетом. Кроме того, существуют управления общественных консультативных комитетов, комитеты по совмещенному фандрайзингу, организации типа 527 и 501 (с)[157]. И все они так или иначе собирают средства от лица кандидата или против одного или нескольких кандидатов. Комитеты должны отчитываться о расходах Федеральному избирательному совету (FEC). Также организациям типа 527 и 501 (с) необходимо передавать отчеты Службе внутренних доходов США (IRS).

Вы можете говорить о бюрократическом гении США сколько угодно, но все это идеально вписывается в логику моделирования данных. Бюрократия – это византийский лабиринт обстоятельно сформулированных правил и норм, а компьютерный код – гигантский набор правил. Кроме того, если мы творчески подойдем к проблеме выражения правил вычислительными методами, то сможем предложить эффективную модель логики реальной работы системы финансирования предвыборных кампаний. И после этого можно будет разобраться в том, что пошло не так. Я выведу диаграмму, благодаря которой появится возможность моделировать элементы и взаимосвязи между ними. Элементы превратятся в объекты.

Мошенничество в системе финансирования избирательной кампании – удобная фраза, но это лишь вершина айсберга. По факту мошенничества там осталось немного, поскольку неподзаконной осталась небольшая часть их практик. Еще в 1970-х гг. в США сформулировали четкие ограничения, определяющие, сколько и из каких источников кандидат мог привлечь средств и как потратить. Решение работало до тех пор, пока ограничения не начали снимать. Это произошло в 2002 г. благодаря кампании по реформированию избирательной системы, поддержанной обеими партиями: теперь лимит финансовой поддержки федеральных кандидатов и политических партий повышается каждые несколько лет. В 2010 г. по итогам процесса «Объединенных граждан» получилось, что сторонние группы вроде общественных консультативных комитетов могут привлекать неограниченное количество финансовых средств от лица кандидатов. Другим важным решением, принятым в 2010 г. по итогам процесса Speechnow.org против Федерального избирательного совета, стало снятие ограничений на сбор средств внешними группами вроде 527. Теперь им едва ли вообще нужно было раскрывать источники своих средств. В 2014 г. процесс Маккатчен против Федерального избирательного совета способствовал снятию ограничения на сумму к переводу гражданами в пользу кандидатов, партий и специальных комитетов[158]. Полноценное описание специфики финансирования избирательных кампаний не входит в число основных тем этой книги, но я очень рекомендую почитать статьи на сайте «Центра за ответственную политику» (Center for Responsive Politics), где предлагается почти учебник по финансированию избирательных кампаний для обывателей.

Поговорив с моими экспертами, я выделила общие моменты. Все они – эксперты – искали и изучали конкретные аномалии в рамках махинаций при финансировании избирательных кампаний, определенные красные метки, возникающие снова и снова. Чтобы разобраться с феноменом административных растрат, нужно начать с определения: все политические комитеты фактически являются некоммерческими организациями. И, в отличие от обычных некоммерческих организаций, они подают финансовые отчеты напрямую в Федеральный избирательный совет, а не в Службу внутренних доходов. Все некоммерческие организации тратят деньги на реализацию своей миссии и на поддержание жизнеспособности. Первый тип расходов называется программными расходами. Внутренние расходы – административными. В случае политических комитетов программные расходы могут также быть избирательными расходами: на телевизионную рекламу, печатную и цифровую, на рекламно-пропагандистские щиты, а также спонсирование кандидатов. Под административными расходами понимают зарплаты, материально-техническое обеспечение офиса и затраты на фандрайзинг. Соотношение административных расходов с общей суммой расходов – это мера качественного функционирования некоммерческой организации. Многие используют ее, чтобы оценить, насколько хорошо управляется НКО, и, соответственно, принять решение о финансовом переводе в пользу организации.

Другой пример – сеть поставщиков и подрядчиков. Скажем, кандидат Джейн Доу баллотируется в президенты. Джо Биггс хочет поддержать кандидата и перевести $1 млн. Так вот, переведенные средства не попадают напрямую кандидату, а поступают на счет основного избирательного комитета кандидата под названием «Джейна Дона в президенты!» (Jane Doe for President, JDP). Однако Биггс не может перевести миллион в пользу комитета, поскольку, будучи физическим лицом, он имеет ограничение $2700. Но Биггс может перевести эти средства на счет общественного консультативного комитета – «Агитационно-пропагандистскому комитету за справедливость и демократию» (Justice and Democracy Political Action Committee, JDPAC), который может распоряжаться средствами по собственному усмотрению, чтобы добиться конечной цели – победить на выборах. JDPAC тратит переведенные Биггсом деньги на то, что называется независимыми расходами. Проблема с группами по координации расходов (вроде агитационно-политических комитетов) заключается в том, что они не сверяют расходы с основным избирательным комитетом, так что JDPAC может не координировать свою деятельность с JDP.

Теперь, допустим, JDP нанимает дизайнеров в Уичито для разработки рекламы избирательной кампании. Компания Wichita Design появилась в отчетах JPD о расходах, передаваемых Федеральному избирательному собранию. Допустим, JDPAC нанимает тех же дизайнеров. И в их отчетах Wiсhita Design также появится. Они действительно могут не координировать свои действия. Возможно, у дизайнерской компании превосходная производственная дисциплина: она могла установить файерволл и объяснить сотрудникам, что не должно быть никакого взаимодействия, и в итоге ведение двух проектов оказалось бы хорошим делом. Это вполне возможно, легально и адекватно. Это также показывает, как многие и многие комитеты обращаются к одним и тем же подрядчикам. Например, в США существует несколько компаний, выполняющих расчет заработной платы. Большинство кампаний и сторонних групп используют автоматическую обработку данных для расчета зарплат, и это не выдумка. Однако есть вероятность того, что координация деятельности существует на уровне подрядчиков. Таким образом, если журналист может выяснить, что JDP и JDPAC обратились к одной и той же дизайнерской фирме в Уичито, которая, как оказывается, управляется бывшей соседкой Джейн Доу по общежитию, он продолжит раскапывать информацию в этом направлении и выяснять, есть ли в данном случае что-то противоправное. И тогда это может вылиться в журналистский материал.

Новому айтишному проекту принято давать имя – как питомцу. Имя формулирует общий маркер, на который могут ссылаться все, кто вовлечен в его разработку. Свой проект я решила назвать «Бейливик» (Bailiwick). Согласно словарю Мерриам – Уэбстер, слово имеет два значения: «округ или юрисдикция бейлифа» и «сфера компетенций или интереса». Оба определения подходят, особенно с учетом того, что бейлиф – это «офицер в судебном органе, который помогает судье следить за порядком на судебном заседании». Я представила, как моя программа станет метафорой высокого храброго бейлифа по имени Булл или хитроумного бейлифа Роуза, как в телешоу 1980-х гг. «Ночной суд». Он бы переносил документы и носители с данными по залу туда-сюда и выполнял функцию посредника. Кроме того, мне нравилось слово «бейливик», оно звучало мило и игриво. В моем случае категорически приветствовалось все, что могло привнести хотя бы каплю игривости в анализ данных финансирования избирательных кампаний.

С практической точки зрения софту необходимо название для того, чтобы можно было создать соответствующую директорию на компьютере – у нее должно быть название. Важно в самом начале назвать свой проект, почти как дать имя ребенку. В то же время вы, назвав ребенка Джозеф, можете через два дня передумать и назвать его Йосси, и именно это имя начнете писать на изнанке его футболок. Если же вы переименуете директорию с программой, в коде, скорее всего, появится огромное количество нестыковок.

Итак, «Бейливик». Его можно найти в интернете на платформе campaign-finance.org.

Переходим непосредственно к процессу разработки. Некоторые проблемы, с которыми я столкнулась, были традиционными повседневными сложностями при разработке любого программного проекта. В частности, мне пришлось нанять помощника-кодера, поскольку в какой-то момент сроки стали поджимать. Наем разработчика не похож на наем юриста: настоящие профессионалы невероятно дорого стоят. Кроме того, их сложно найти, и они не рекламируют свои услуги. Им не нужно. Есть, конечно, несколько вариантов, но для обычного человека они будут сложными. Поисковый запрос «нанять разработчика Django» принес лишь бесконечную кучу спама. Вот один из показательных результатов выдачи:

Работа Django | Разработчики Django | Работа фриланс

Django team – одна из самых популярных django фриланс-платформ для поиска работы. Django team – это ярмарка лучших разработчиков django, инженеров, программистов, кодеров и разработчиков архитектуры системы…

Поиск разработчика онлайн оказался исключительно сложной задачей. Вместо этого я решила обратиться к своим контактам в поисках рекомендации. Предполагалось, что технологии позволят облегчить поиск профессиональных услуг онлайн, на деле – они лишь усложнили процесс. Слои алгоритмов, подверженных внешнему управлению с целью выгоды, осложняют выполнение обычной задачи вроде поиска разработчика. Та же проблема возникла, когда я попыталась найти мастера, чтобы починить кое-что у себя дома. И это напомнило мне о том, почему администрирование контента так важно. В онлайн мире, где у каждого своя правда, выполнение простых задач может занять вечность. Парадокс: выбор может быть тяжелым бременем.

Я поняла, что, увы, столкнулась с той же проблемой, что и математики в XIX в.: им нужно было больше вычислителей, которых невозможно было найти. Я хотела нанять целую команду женщин и цветных. Я просмотрела все свои контакты, но задача оказалась сложнее, чем я ожидала. Я говорила с одной разработчицей – и владелицей собственного магазина, – но ее услуги оказались слишком дороги. Наконец, я наняла фрилансеров – женщину и троих мужчин, в итоге гендерное соотношение женщин и мужчин в проекте стало 2:3. В случае маленькой команды и близкого дедлайна это должно было сработать.

В работе над проектами, связанными с написанием софта, есть один «секрет»: никто не знает, сколько времени потребуется на проект. Это обусловлено отчасти тем, что написание компьютерного кода больше похоже на написание эссе, нежели на конвейерное производство. Обычно для нового проекта код пишется впервые, так что не существует по-настоящему релевантного способа оценить, как много времени потребуется на его создание – особенно если предполагается, что разрабатываемые функции будут делать что-то, что не делалось раньше. Другая проблема заключается в том, что код пишут люди, а не машины. Люди не слишком хорошо оценивают время и требуемые усилия: они отправляются в отпуск, проводят вторую половину дня на Facebook вместо работы. Короче, люди есть люди. Они – переменные, а не константы.

Настоящим испытанием стало то, что нам предстояло показать сложные взаимосвязи мира финансирования избирательных кампаний простым и понятным способом. Я обратилась к эксперту в области пользовательских интерфейсов Эндрю Гарварду, разработавшему несколько проектов, которые помогали журналистам организовать и систематизировать важную для них информацию. Журналисты уровня штата США обычно стремятся обнаружить истории, связанные с избирательной кампанией в их штате. Журналисты национального уровня фокусируют свое внимание на президентской гонке и ключевых кампаниях в штатах. В любом случае система предлагает выбрать конкретную кампанию и кандидата. И вы это видите в предлагаемом списке, когда входите в систему. Рисунок 11.1 показывает, что видит пользователь, если в списке оказались Хиллари Клинтон, Дональд Трамп и Берни Сандерс. Клик по имени открывает страницу с информацией. Каждое досье предполагает набор финансовых отчетов, переданных в Федеральный избирательный совет. При помощи «Бейливика» репортер может просмотреть все эти отчеты по отдельности или вместе.


Искусственный интеллект. Пределы возможного

Финансовые пожертвования бывают «за» кандидата и «против». Согласно законодательству, в финансировании избирательных кампаний переводы делятся по группам. Помните, что есть еще авторизованные переводы и независимые расходы? Так вот «Бейливик» отслеживает все это в отчетах и структурирует по группам поддержки и оппозиции. Это сильно экономит время и ресурсы. Кроме того, так проще просмотреть имена и заметить интересные детали.

Внешние и внутренние группы, представленные в виде плоской древовидной структуры – базового типа при визуализации данных, – появляются внизу страницы каждого кандидата. Сложно анализировать цифры, гораздо проще обнаружить закономерности в графических данных, особенно когда расходы группируются по категориям. В древовидной структуре каждая категория представлена прямоугольником. Относительный размер каждого из них имеет значение, поскольку отражает количество спонсоров и суммы. Я могу нажать на любой прямоугольник и увидеть более детальную информацию. Так, например, Great America PAC больше всех потратил на независимые расходы в рамках инаугурации (рис. 11.2).

Кликнем на этот прямоугольник и увидим, что этот спонсор потратил $12,7 млн в поддержку избирательной кампании Трампа, разбив сумму на десятки трансакций в течение всей избирательной кампании.

Нередко визуализация данных вдохновляет на журналистское расследование. Так, когда я впервые увидела визуализацию расходов избирательного комитета Трампа, я заметила этот прямоугольник, помеченный словом «шляпы» (рис. 11.3). А в 2016 г. в рамках кампании комитет потратил $2,2 млн на шляпы производства компании Cali-Fame (рис. 11.4).


Искусственный интеллект. Пределы возможного

Осенью 2016 г. я ничего не знала о Cali-Fame, но мне казалось, что из этого может получиться расследование о том, как Трамп тратит деньги на шляпы. Та же идея пришла в голову репортеру Филиппу Бампу. 25 октября 2016 г. он опубликовал в Washington Post статью под названием «В период избирательной кампании Дональд Трамп тратит на шляпы, а не на опросы»[159]. И не только на это, надо сказать. Трамп также потратил $14,3 млн на футболки, кружки, стикеры и перевозку всего этого – все это было произведено компанией Ace Specialities LLC, специализирующейся на производстве рабочей одежды для нефтегазовых компаний. Владелец компании Кристл Махфуз состоит в совете директоров фонда Эрика Трампа[160]. Значит ли это что-нибудь? Я не знаю. Однако, будь я политическим журналистом, это послужило бы основой для нового расследования.


Искусственный интеллект. Пределы возможного

Эндрю Шивашман, журналист, пишущий об индустрии туризма для сайта Skift, иначе видел ситуацию. Он использовал данные в статье «Клинтон против Трампа: где кандидаты в президенты тратили свои доллары». В рамках статьи он анализирует то, как, пользуясь средствами избирательной кампании, Трамп платит собственной фирме TAG Air за перелеты[161]. Это не незаконно, но примечательно. Это также представляет почву для обсуждения множества вещей, которые не являются незаконными, но едва ли уместны. И журналистские расследования – единственный способ придать таким обсуждениям начальный импульс. Ведь истории помогают понять мир. Кроме того, не существует простых ответов. Чтобы разрешить эти вопросы в демократической манере, необходима социальная дискуссия, в которой бы присутствовали разные мнения.

Story Discovery Engine – это, скорее, система с оператором в контуре управления, нежели автономная система. Разница между ними подобна разнице между дроном и реактивным ранцем. И эта разница имеет значение в случае проектирования программного обеспечения. Если вы ждете от компьютера всевозможных чудес, то будете разочарованы. Однако если вы ожидаете, что он ускорит выполнение рутинных задач, то все будет хорошо. Позиция в пользу машинной поддержки человека набирает популярность в хедж-фондах с оборотом $2,9 млн – а они всегда были показательны с точки зрения внедрения новых количественных методов. Миллиардер Пол Тюдор Джонс, глава Tudor Investment Group, как-то произнес свою легендарную фразу: «Ни один человек не лучше машины, и ни одна машине не лучше человека»[162].

Другой способ разобраться в том, как работает движок, – это представить, что он отражает разницу между что есть и чем должно быть. Что должно быть: административные расходы не должны превышать 20 % от общих расходов. Что есть: независимо от процентов ежегодные расходы относятся к административным – согласно отчетам, передаваемым в Федеральную избирательную комиссию. И, если обнаруживается аномалия – если административные расходы превышают 20 %, тогда появляется почва для журналистского расследования.

Что я имею в виду под почвой для расследований? Нельзя гарантировать, что в каком-то случае совершенно точно есть готовая история, поскольку для больших объемов административных расходов в определенном квартале есть причина. И мы не хотим создавать механизм, который будет констатировать, что существует вероятность, равная 47 %, что та или иная политическая группа действует нелегитимно, ведь ее административные расходы в этом месяце превышены на 2 %. Это абсурд – и, вероятно, клевета.

Нередко, когда я беседую с учеными-информатиками, они советуют обращать внимание на пять самых высоких и пять самых низких показателей, а также на среднее значение по массиву данных. Это хорошая идея, но она не всегда работает с точки зрения журналистики. Допустим, мы «скормим» нашей программе список зарплат сотрудников школьного округа. Пять самых высоких позиций наверняка будут принадлежать директору и ключевым руководящим позициям. Пять самых низких позиций окажутся у низкооплачиваемых сотрудников, тех, кто не состоит в профсоюзах и работает неполный рабочий день. Ничего нового. Это может заинтересовать тех, кто не в курсе уровня зарплат в этой области, однако это точно не считается инфоповодом. Как журналисты мы должны быть одновременно точны и интересны массовому читателю. В этом смысле выкладки ученых могут быть интересными небольшому кругу лиц или достаточно подготовленной аудитории (я всегда им завидовала из-за этого). Порог интереса различается в каждой категории.

Так что, если бы я собиралась изучать крупные административные расходы, я бы обратила внимание на те, у которых были наивысшие проценты трат. Выбросы на графике – легкие данные. Поэтому я бы изучала категории как с самыми высокими процентами, так и с самыми низкими, и пыталась бы понять, есть ли там что-то любопытное.

Я также внесла одну важную правку в Story Discovery Engine. Когда я пыталась объяснить людям, что делает программа, они часто спрашивали: «Ты хочешь сказать, что создала программу, которая фонтанирует идеями для расследований?» Я объясняла, что это не так и что все сложнее, и рассказывала об автоматизации. Постепенно глаза моих слушателей стекленели. Поэтому для второй версии программы я решила придумать систему, представляющую настоящие идеи для историй. На рисунке 11.5 показан обновленный интерфейс программы.

Замечу, что это дополнение в данных является так называемым «минимально жизнеспособным продуктом» (Minimum Viable Product, MVP). Оно работает, вы видите результаты его работы – однако только для одного случая, а не для всех сразу, которые вы запланировали. И это упомянуто в справочной документации. Как по мне, дополнение работает достаточно хорошо, чтобы утверждать, что оно действительно работает. С моей точки зрения, с позиции разработчика, проблема решена. Однако с точки зрения компьютера, чтобы что-то работало, этому «что-то» необязательно работать хорошо. Это не бинарное понятие. Человек не может быть слегка беременным, в то время как софт, может немного работать. Так, суть минимально жизнеспособного продукта заключается в достаточном уровне функциональности для демонстрации заказчикам – чтобы получить новые заказы или финансирование для следующего круга разработки. Это не пример хорошей разработки, продукт неэффективен для пользователей, и уж тем более практика представления на рынок полифункционального продукта не является хорошим делом, но при этом такой подход стал обычным делом. Мне кажется, мы способны на большее. Ведь в большинстве случаев проблема одинакова для всех, и я столкнулась с ней, создавая «Бейливик»: у команды закончились деньги и время на разработку до того, как проект был завершен.


Искусственный интеллект. Пределы возможного

Есть и другой пример типичной проблемы, которая может принимать разные формы. Однажды код выдал ошибку, я не могла понять ее природу. Я решила создать новую базу данных и протестировать код на всех моих 3,5 млн записей – тот же результат. Первые 10 секунд все работало, затем появилась другая ошибка. Я исправила то, что – как мне казалось – стало ее причиной, и затем пыталась загрузить данные снова. Не сработало. Я что-то еще поменяла в коде, и все стало только хуже. Я переключилась на первую базу данных и попыталась воссоздать первую ошибку. Не вышло – вылезла новая ошибка. Тогда я поняла, что не смогу поправить первую базу данных, и перешла ко второй. У меня было плохое предчувствие; другие члены моей команды пользовались первой базой данных, и тот факт, что она была доступна и при этом содержала ошибки, мог сильно повлиять на результат их работы. На самом деле это была обычная ошибка контроля версий ПО, однако в связи с тем, что в программировании важную роль играет точность, получилось, что ошибки, спровоцированные мной, привели к каскаду новых неисправимых ошибок, затрагивавших работу других разработчиков.

Таковы в общих чертах препятствия, с которыми приходится сталкиваться в рамках внедрения того или иного программного обеспечения в новостные редакции. Встречаясь со сложностями, работая с небольшими программами, можно понять, как и что происходит в более крупных масштабах. Можно также увидеть, почему крупные проекты могут потерпеть неудачу. Кроме того, возможно понять, почему процесс написания кода нельзя поставить на поток. Есть модель фабричного производства – с конвейером, – и есть малое производство. В случае с фабричной системой вы смотрите на весь спектр задач и решаете, какая из них может быть автоматизирована и повторяема. В случае малого производства происходит то же самое – и все же часть работы выполняется вручную. Представьте себе вычислительную журналистику как движение за неспешную еду – слоуфуд.

На сегодняшний день мой проект не сильно распространен, но имеет мощное влияние. Я не слежу за тем, сколько репортеров использовали его для создания историй, однако я часто им пользуюсь на занятиях. Каждый семестр я учу около 30 студентов. Это значит, что каждый семестр с помощью «Бейливика» создается как минимум шесть историй. Результат вполне оправдывает затраченные усилия. Если бы им постоянно пользовались в новостных редакциях, можно было бы получать доход, разместив рекламу внизу страниц. Очевидно, что программа не станет ключевым параметром доходов, однако что-то будет капать. И, конечно, «Бейливик» не смог бы привлечь столько же средств, сколько продукты массового спроса, однако мог бы стать ремесленной продукцией, генерирующей небольшой доход.

Пока мой инструмент анализа системы финансирования избирательных кампаний не приносит денег вовсе. На финансовом языке это значит, что у него нет стратегии устойчивого развития. «Бейливик» имеет смысл как инструмент обучения, как модель для проектов – расследований, наконец, в качестве примера практического исследования (имеется в виду «нетеоретическое исследование») в рамках вычислительной журналистики. К моему сожалению, эта неочевидная ценность не помогла мне ежемесячно содержать серверы «Бейливика», что обходилось в $1000. А вот и очередной «секрет» техномира: инновации стоят дорого. Если бы я знала, что проект окажется настолько дорогим, в процессе разработки я бы принимала другие решения. Однако, поскольку никто до нас не создавал такой софт, было совершенно невозможно предсказать расходы. У меня была своя слепая зона – она есть всегда, когда создаешь новую технологию: необходима вера в то, что ты создашь то, что задумала и что на это хватит финансирования. Процесс разработки иногда может быть будоражащим прыжком в неизвестность.


10 Автобус для стартаперов | Искусственный интеллект. Пределы возможного | 12 Стареющие компьютеры