Розділ 4. Над "білими комірцями" нависла загроза втратити роботу
Одинадцятого жовтня 2009 року бейсбольна команда Los Angeles Angels взяла гору над своїм суперником Boston Red Socks у матчах серії плей-офф Американської Ліги і виборола право позмагатися з New York Yankees за звання чемпіона ліги та за можливість взяти участь у щорічному чемпіонаті США з бейсболу. Для "Янголів" ця перемога ще й була сповнена особливого емоційного змісту, бо за півроку до неї один із найперспективніших гравців цієї команди, пітчер Нік Аденгарт, ставши жертвою п’яного водія, загинув у автокатастрофі. Один спортивний журналіст свою статтю, присвячену цій грі, почав такими словами:
Для "Янголів" ситуація складалася безрадісно — в дев’ятому періоді вони програвали два очки та потім Лос-Анджелес таки зрівняв рахунок завдяки індивідуальній майстерності Владіміра Ґерреро, а потім вирвав перемогу з рахунком 7:6 над Boston Red Socks на стадіоні Fenway Park у неділю.
Ґерреро забезпечив "Янголам" дві перебіжки на базу. На "пластині" його результат був 2:4.
"Коли йдеться про вшанування Ніка Аденгарта і того, що сталося у квітні в Анагаймі, то так — це, напевно, був найкращий удар [в моїй кар’єрі], — сказав Ґерреро. — І я присвячую його моєму колишньому товаришу по команді, хлопцеві, який пішов із життя".
Упродовж усього сезону Ґерреро добре виступав в ролі пітчера, особливо під час денних ігор. У денних іграх відсоток потраплянь на базу плюс відсоток сильних ударів становив у Ґерреро 0,794. Під час денних ігор він зробив п’ять ударів "гоум-ран" і забезпечив тринадцять пробіжок між базами в двадцяти шести іграх.
Напевно, автору цього тексту не загрожує реальна небезпека отримати якусь літературну премію за свої письменницькі вправляння. Утім ця розповідь є неабияким досягненням, але не тому, що вона добре читається, граматично правильна і є точним звітом про конкретну бейсбольну гру, а тому, що її автором є комп’ютерна програма.
Програма, про яку йдеться, і яка називається StatsMonkey, була створена студентами й дослідниками з Лабораторії інтелектуальної інформації при Північно-Західному університеті (Northwestern University’s Intelligent Information Laboratory). Програма StatsMonkey призначена для автоматизації спортивних репортажів шляхом перетворення об’єктивних даних про конкретну гру на цікаву розповідь про неї. Ця система виходить за межі звичайного перелічення фактів; навпаки — вона пише історію, яка містить в собі ті ж самі основні атрибути, які вніс би до неї спортивний журналіст із плоті та крові. StatsMonkey здійснює статистичний аналіз для вирізнення примітних подій, що сталися протягом гри, потім створює природний мовний текст, який відображає загальну динаміку гри, одночасно тримаючи в полі уваги найзначущіші ігри сезону та основних гравців, які додали матеріалу для розповіді.
В 2010 році дослідники Північно-Західного університету, які керували роботою групи з учених-комп’ютерників і дослідників журналізму, які працювали над StatsMonkey, зібрали венчурний капітал і заснували нову компанію з назвою Narrative Science, Inc. з метою подальшої комерціалізації цієї технології. Новостворена компанія найняла групу висококваліфікованих учених-комп’ютерників та інженерів, потім викинула геть початкову комп’ютерну програму StatsMonkey і створила значно потужнішу та всеохоплюючу систему штучного інтелекту з назвою Quill.
Технологія компанії Narrative Science використовується впливовими засобами масової інформації, зокрема журналом Forbes, для автоматичного написання статей на цілу низку тем, включно зі спортом, бізнесом і політикою. Програма Quill видає по одній новинарній історії приблизно щопівхвилини, і більшість із цих статтей публікуються на найвідоміших веб-сайтах, які воліють не визнавати, що вдаються до послуг комп’ютерних "журналістів". Під час галузевої конференції 2011 року Стівен Леві, літератор із видання Wired, підбурив Крістіана Гаммонда, співзасновника Narrative Science, зробити припущення щодо відсотку новинарних статей, які будуть писатися комп’ютерами через п’ятнадцять років. І той відповів: 90%.
Компанія Narrative Science накинула оком не лише на індустрію новин. Quill задумана як універсальна аналітична й письменницька система, здатна продукувати високоякісні звіти як про внутрішнє, так і про зовнішнє споживання по цілому спектру галузей. Спочатку Quill збирає дані з різноманітних джерел, зокрема й з бази даних про трансакції, систем звітності про фінанси й продажі, веб-сайтів і навіть соціальних мереж. Потім ця програма здійснює аналіз, призначений для виокремлення найважливіших і найцікавіших фактів і думок. І, насамкінець, вона сплітає всю цю інформацію в зв’язну розповідь, яка, на переконання представників компанії, утерла б носа найкращим аналітикам в людській подобі. Після відповідного налаштування система Quill здатна продукувати бізнес-репортажі майже миттєво і видавати їх безперервно — і все це робиться без втручання людини. Одним із найперших спонсорів Narrative Science була In-Q-Tel, структура з венчурним капіталом, за якою стояло Центральне розвідувальне управління, і програмні інструменти, що їх створює компанія, будуть, скоріш за все, використовуватися для автоматичної обробки потоків сирої інформації, яку збирають розвідувальні кола Сполучених Штатів, і перетворення її на легкозрозумілий формат розповіді.
Технологія Quill демонструє нам рівень вразливості до автоматизації тих робіт, що колись були винятковою парафією високо досвідчених професіоналів з інститутською освітою. Безсумнівно, робота, базована на знаннях, зазвичай потребує широкого діапазону здібностей. Серед іншого, аналітику можуть знадобитися знання про те, як роздобувати інформацію з розмаїття різних систем, як здійснювати статистичне чи фінансове моделювання, а потім написати зрозумілі й читабельні звіти та презентації. Письменство, яке, зрештою, є і мистецтвом, і наукою водночас, може здатися сферою найменш піддатливою до автоматизації. Однак воно все ж зазнало автоматизації, і відповідні алгоритми швидко прогресують. І дійсно, завдяки тому, що з’явилася можливість автоматизувати базовані на знаннях робо́ти, вони в багатьох випадках можуть виявитися навіть більш вразливими, ніж ті робо́ти, що потребують менш високої кваліфікації і полягають у фізичних маніпуляціях.
Окрім того, письменство, як виявляється, є тією сферою, де роботодавці постійно нарікають на недостатній рівень кваліфікації випускників ВНЗ. Результати одного опитування, проведеного серед роботодавців, свідчать, що приблизно половина щойно винайнятих випускників із дворічною підготовкою та близько чверті випускників із чотирирічною підготовкою мають погані навички писання, а інколи — й читання. Якщо розумна програма здатна, за твердженням компанії Narrative Science, невдовзі скласти конкуренцію найздібнішим людям-аналітикам, то майбутнє зростання кількості робочих місць, де необхідно застосовувати широку базу знань, стає вельми сумнівним для всіх випускників ВНЗ, а особливо для тих, хто має недостатню підготовку.
Великі масиви даних і навчання машин
Письменницька система Quill є лише однією з численних нових комп’ютерних програм, які розробляються з використанням гігантських обсягів даних, зібраних і збережених на підприємствах, в організаціях та урядових структурах усього спектру глобальної економіці. Згідно з одним прогнозом, загальний обсяг даних, які зберігаються в усьому світі, вимірюється нині тисячами ексабайтів (один ексабайт дорівнює мільярду гігабайтів), і ця цифра підвладна власному закону прискорення, схожому на закон Мура — вона подвоюється приблизно щотри роки. Майже вся ця інформація зберігається нині в цифровому форматі, а тому є придатною до комп’ютерної обробки. Одні лише сервери компанії Google щодня обробляють приблизно 24 петабайти (один петабайт дорівнює мільйону гігабайтів) початкової інформації про ті дані, пошуками яких зайняті мільйони її користувачів.
Усі ці дані надходять з великої кількості різних джерел. В одному тільки Інтернеті люди заходять на сайти, надсилають запити, електронні листи, спілкуються в соціальних мережах, — і це лише деякі з прикладів. Усередині підприємств відбуваються ділові операції, контакти між клієнтами, внутрішні контакти, там зберігаються дані, отримані з фінансових, бухгалтерських і маркетингових систем. А назовні, в реальному світі сенсорні пристрої безперервно реєструють в реальному часі дані з фабрик, лікарень, автомобілів, літаків, а також із незчисленних споживацьких пристроїв і промислової машинерії.
Переважна більшість цих даних є, за висловом спеціалістів-комп’ютерників, "неструктурованими". Іншими словами, вони реєструються в різноманітних форматах, як здебільшого важко сполучити або порівняти. Це сильно відрізняється від традиційних баз даних реляційного типу, де інформація акуратно розташовується впорядкованими рядками та стовпчиками, що здійснюють пошук та отримання інформації швидким, надійним і точним. Ця неструктурована природа великих масивів даних спричинилася до розробки нових інструментів, спеціально створених для раціоналізації та упорядкування інформації, збираної з різних джерел. Швидкий прогрес у цій галузі є ще одним прикладом того, як комп’ютери, хоча й в обмежено, починають вторгатися в сфері тих функціональних здібностей, які колись були винятково прерогативою людей. Здатність до безперервної обробки потоку неструктурованої інформації з джерел, розташованих повсюдно в довкіллі, є, зрештою, однією з операцій, до якої люди пристосовані унікальним чином. Звісно, що в царині великих масивів даних комп’ютери здатні здійснювати цю операцію в значно більших, немислимих для людини масштабах. "Великі" дані справляють революційний вплив на широкий спектр напрямків, включно з бізнесом, політикою, медициною і майже кожною галуззю природничих і соціальних наук.
Крупні роздрібні торговці покладаються на великі масиви даних задля отримання безпрецедентно детального й глибокого аналізу купівельних преференцій окремих споживачів і задля забезпечення можливості робити на основі цього аналізу цільові пропозиції, що сприятиме збільшенню доходів і підвищенню лояльності клієнтів. Поліція в усьому світі вдається до алгоритмічних аналізів із метою передбачення часу й місця, де існує найбільша ймовірність скоєння злочинів, а тоді розміщує свої сили й засоби відповідно до отриманих результатів. Інформаційний портал міста Чикаґо дає можливість його мешканцям переглянути як тенденції в історичній перспективі, так і дані реального часу в цілому діапазоні напрямків, що відображають припливи й відпливи життєдіяльності у великому місті, разом зі споживанням енергії, показниками злочинності, показниками ефективності транспортних комунікацій, шкіл, закладів охорони здоров’я, навіть кількості ям у дорогах, залатаних протягом конкретного проміжку часу. Інструменти, які забезпечують нові способи візуалізації даних, зібраних під час контактів у соціальних мережах, а також сенсори, вмонтовані в двері, турнікети й ескалатори, забезпечують міським планувальникам і керівникам міста наочне уявлення про те, як люди пересуваються, працюють і взаємодіють у міському довкіллі, а таку інформацію може безпосередньо брати до уваги з метою розбудови ефективніших і придатніших для життя міських структур.
Одначе тут існує й потенційна темна сторона. Компанія Target, Inc. надала значно суперечливіший приклад того, як можна використовувати великі масиви безпрецедентно детальної інформації про покупців і клієнтів. Спеціаліст з обробки даних, який працює у вищезгаданій компанії, виявив складну сукупність взаємозв’язків, яка стосується покупки приблизно двадцяти п’яти різноманітних медичних і косметичних препаратів, що є потужними передвісниками вагітності. Здійснений цією компанією аналіз навіть забезпечував можливість із високою точністю передбачити дату пологів у тієї чи іншої конкретної жінки. І Target, Inc. почала бомбардувати жінок пропозиціями товарів, пов’язаних з вагітністю, на такій ранній стадії, що деякі жінки ще навіть самі не встигли повідомити про свою вагітність членам своєї родини. В одній статті, опублікованій на початку 2012 року в газеті New York Times, повідомлялося про випадок, коли батько дівчинки-підлітка навіть поскаржився керівництву магазину щодо рекламного листа, який прийшов на їхню адресу, та згодом дізнався, що в компанії Target насправді про його доньку знали значно більше, ніж він сам. Дехто з критиків висловлює побоювання, що ця обурлива історія є лише початком і що великі масиви даних дедалі частіше використовуватимуться для здійснення прогнозів і передбачень, потенційно здатних зазіхнути на приватне життя людей і навіть на їхню свободу.
Результати, отримані після аналізу великих масивів даних, типово ґрунтуються на кореляційних зв’язках і жодним чином не з’ясовують причину досліджуваного феномену. Алгоритм може встановити, що коли А є вірним, то В також, скоріш за все, буде вірним. Однак він не може сказати, що А є причиною В, чи навпаки, або що як А, так і В спричинені якимось зовнішнім чинником. Однак у багатьох випадках, а особливо в сфері бізнесу, де мірою успіху є прибутковість і продуктивність, а не глибоке розуміння, одні лише кореляційні зв’язки самі по собі можуть набувати екстраординарної вартості. Великі масиви даних можуть забезпечити керівництву безпрецедентний рівень аналітичного проникнення до широкого спектру напрямків: усе, починаючи з функціонування окремої машини і закінчуючи загальними показниками роботи багатонаціональної корпорації, можна проаналізувати на так детально, як раніше це було просто неможливо.