Как разоблачали Джоан Роулинг

0

«А человек, написавший записку, немец. Вы замечаете странное построение фразы?» — сказал Шерлок Холмс в рассказе «Скандал в Богемии», изучив послание клиента, раскрыв инкогнито короля Богемии и невольно проявив блестящий языковедческий талант.

В 1964 году Фредерик Мостеллер и Дэвид Уоллес опубликовали результаты трёхлетнего исследования употребления слов в «Федералисте» и показали едва уловимую разницу в стиле Александра Гамильтона и Джеймса Мэдисона. Так, только Мэдисон пользовался словом whilst, тогда как Гамильтон предпочитал форму while. Слово by встречается у обоих, но у Мэдисона чаще, так что определить автора текста не составляет труда. Тем самым Мостеллер и Уоллес показали, что работы, авторство которых оспаривалось, скорее всего, принадлежат перу Мэдисона.

Сегодня компьютеры справляются с лингвистическим анализом за считанные секунды, раскрывая убийства, замаскированные под суицид, изучая анонимные средневековые поэмы и даже решая вопрос о предоставлении политического убежища беженцам. Например, однажды критик репрессивного иностранного правительства попросил убежища на том основании, что он анонимно выложил в Интернет написанные им статьи и спецслужбы заподозрили именно его. Ищейкам не нужен подробный анализ, им достаточно слабого намёка, а судье по делам иммигрантов понадобились более веские доказательства, что беженец является тем, за кого себя выдаёт. Компьютер подтвердил, что человек не врёт. И ему разрешили остаться.

Анализ слов, связок и стиля

Патрик Джуола из Университета Дюкесна (США) разработал компьютерную программу, которая определяет, кто на самом деле написал тот или иной текст. В июле 2013 г. Джуола получил электронное письмо от журналиста лондонской «Санди таймс» с просьбой помочь в решении одной загадки. Репортёру намекнули на то, что криминальный роман The Cuckoo’s Calling за авторством некоего Роберта Гэлбрейта в действительности написала Джоан Роулинг. Издатели утверждали, что г-н Гэлбрейт служил в Королевской военной полиции и писал, опираясь на свою собственную жизнь и рассказы коллег. Тем не менее, намёк имел смысл: литературный агент и редактор у Роулинг и Гэлбрейта были одними и теми же, к тому же работа выглядела слишком зрелой для начинающего беллетриста. Вдобавок Гэлбрейт, проведший значительную часть жизни в униформе, оказался на удивление хорошим знатоком женского гардероба. Но всё это были только догадки, требовались веские доказательства. И журналист хотел знать, можно ли их получить с помощью компьютерной программы.

«Язык — очень личное дело, — пишет Джуола. – Например, английский язык предлагает огромный выбор слов, обозначающих что-то очень большое: huge, giant, enormous, colossal. Мысль можно выразить несколькими точными словами или длинным пассажем, содержащим слова самые обыкновенные. Сложную мысль можно разбить или не разбить на несколько коротких фраз. И в большинстве случаев решение принимается писателем бессознательно».

Программа JGAAP осуществляет математический анализ громадного количества нюансов, которые человек просто не в состоянии охватить. Так, детище г-на Джуолы охватывает словарный запас нескольких энциклопедий целиком.

Предстояло выбрать, что именно сравнивать в текстах Роулинг и Гэлбрейта. Г-н Джуола остановился на четырёх группах признаков. Важно, что они в некоторой степени зависели друг от друга, то есть появлялась возможность перекрёстной проверки. Одной из переменных, например, стало распределение длины слов: в каждом романе масса слов, в каждом слове некоторое количество букв, и можно посчитать, сколько слов той или иной длины.

Другой признак — распределение сотни наиболее общеупотребительных слов, то есть, какой процент от общего количества слов приходится на the, of и т. п. Двумя оставшимися показателями стали тесты на авторский тезаурус. Первый был посвящён частоте употребления определённых сочетаний четырёх символов (с учётом пробелов) внутри одного слова (например, nsid, как в inside) или в двух стоящих рядом словах (например, n th, как в in the). Второй касался частоты употребления двух слов в одной связке (речь идёт о сочетаниях типа «слов в», «в одной», «одной связке») — ещё один показатель, который хорошо себя зарекомендовал в подобных исследованиях. Проблема такого подхода в том, что при анализе нескольких тысяч характеристик трудно выделить некоторые из них и сказать: вот как пишет Роулинг.

Сказочница или полицейский?

Учёный и журналист выбрали для анализа роман Роулинг «Случайная вакансия» и три других произведения в жанре женского детектива: «Общество Св. Зиты» Рут Ренделл, «Женщина со шрамом» Филлис Дороти Джеймс и «Тугая струна» Вэл Макдермид. Только стиль Роулинг постоянно совпадал со стилем Гэлбрейта. Например, Макдермид пользуется похожими связками двух слов, но у неё совершенно иное распределение длинных и коротких слов.

Итак, все авторы, кроме Роулинг, провалили хотя бы один тест, причём, кандидатура Рут Ренделл отпала самым категорическим образом. Дальнейшее было делом статистического анализа. Гипотетический автор должен быть в равной мере близок к Джеймс и Макдермид или далёк от Ренделл в той же степени, что и Роулинг. Иными словами, если мы возьмём какого-нибудь случайного писателя и сравним его стиль со стилем Гэлбрейта, то будет 50-процентная вероятность того, что у них совпадут результаты одного из четырёх вышеприведённых тестов. Следовательно, только у одного из 16-ти случайно выбранных литераторов (6,25%) результаты всех тестов совпадут с показателями Гэлбрейта. Выходит, стиль Роулинг имел не так уж много шансов случайно совпасть с манерой отставника.

Доказывает ли это авторство Роулинг? Конечно, нет. Даже анализ ДНК доказал бы только то, что здесь замешан некто, имеющий схожие с Роулинг гены, а стилометрия ещё менее надёжна, чем анализ ДНК. ДНК не изменяется в течение жизни, а если бы литература не менялась, мы сравнивали бы сейчас два абсолютно идентичных произведения. Проще говоря, г-н Джуола пришёл к выводу, что автором «Кукушки» была либо Роулинг, либо кто-то другой с похожим стилем. Но журналисту этого было достаточно. «Санди таймс» связалась с её агентом, и 13 июля г-жа Роулинг призналась, что это действительно её роман. Она просто хотела, чтобы литературные способности автора «Гарри Поттера» оценили беспристрастно.

«Эта технология — палка о двух концах, — подводит итог г-н Джуола. — Если Роулинг действительно можно разоблачить с помощью компьютерных расчётов, что будет с теми, кто хотел бы остаться неизвестным? Сумеет ли он скрыться от всевидящего ока современного Шерлока? Пока да. Тайну г-жи Роулинг раскрыл не мой компьютер и не газетчики, а тот человек, который шепнул журналисту и тем самым подсказал, в каком направлении двигаться. Охватить вслепую всех писателей просто невозможно. Без приёмов старого доброго сыска стог был бы слишком велик».

Дмитрий Целиков,
Сompulenta.computerra.ru

Поделиться.

Комментарии закрыты