Защо „Обаждането на глупости“ е важно четиво във времена на пране на информация - Септември 2022

Дезинформацията и дезинформацията станаха толкова широко разпространени в света, управляван от данни, че сега е задължение на всеки гражданин да бъде скептичен и да го извика

Обаждане на глупости: Изкуството на скептицизма в свят, управляван от данни от Джевин Д. Уест и Карл Т. Бергстрьом

Тази завладяваща книга, която разкрива новината, че числата не говорят сами за себе си, както се рекламират, а тъй като са коригирани, трябва да излезе следващия вторник. Но издателите трябваше да побързат да го публикуват преди месеци, когато избухна пандемията, и графики, базирани на съмнителни данни, изобразяващи напредъка на болестта, пълното безредие в отговора на общественото здравеопазване, шансовете да се заразите и малките подмножество от шанса, че ще умреш, започна да се появява всеки ден на първите страници. Контекстът продължаваше да се променя, заключенията бяха надеждно различни и обединени само в способността си да ви подтикнат да загубите вяра в данните. Уест и Бергстром, които преподават информационни науки във Вашингтонския университет, ни напомнят, че вярата е стара шапка. За да разберете какво точно се случва, трябва да можете сами да оцените данните и тяхното манипулиране. Това е изненадващо лесно.





Когато бяхме в гимназията, статистиката и вероятността бяха надушени като неточни математически полета, които разчитат на p-стойността, стандарт, който често се манипулира. Освен ако не желаете да учите икономика и да видите света, не губите време за тях. Средна стойност, медиана, режим, стандартно отклонение, пермутации и комбинации, ритуално кимване към Паскал и продължихте напред. За булева алгебра, ако компютрите са ви очаровали, и за тригонометрия и смятане за всичко останало. Кой би могъл да си помисли, че статистиката ще се окаже най-важното умение за разбиране на случващото се в човешките дела?

В ерата на големите данни и машинното обучение проблемът изглежда се усилва от големия размер на наборите от данни и непроницаемостта на алгоритмите. Движението търси прозрачност в алгоритмите - ако сте били подминати от компютър, трябва да знаете защо - но целта е по-лесно формулирана, отколкото постигната. Машинното обучение се обучава върху набори от данни, които са класифицирани от хора, и пише програма за категоризиране на бъдещи данни. Но дори и авторите на система може да не знаят как точно работи. Книгата се отнася до ML система, натоварена със задачата да разделя снимки на хъскита и вълци. Но гледаше към фона, а не към животните. AI е осъзнал, че докато хъскита могат да бъдат заснети в различни човешки контексти, дивите вълци най-вероятно ще бъдат снимани на фона на сняг. Беше само гледане на фона и фалшиво, но точно идентифициране на животните.





Освен това повечето алгоритми са собствени, поради добра причина. Ако Google пусне публично своя алгоритъм за класиране, това би предизвикало глобална надпревара във въоръжаването, тъй като всички и техният племенник тийнейджър се опитаха да го играят. Но авторите ни напомнят, че по принцип не е необходимо да се качваме в черната кутия, в която живее алгото. Анализирането на качеството на входа и изхода изисква само обикновена логика и служи на целта.
Нека се върнем към коронавируса и къдравите и диаграмите на първа страница и в обясненията, картографиращи опустошителното му пътуване през човешката раса. За дива непоследователност, помислете за странния провал, свързан с необходимостта от маски, като мнението се отклонява, като замах на чистачка на предното стъкло, между пълната им безполезност и критичната им роля в ограничаването. Най-неудобното е, че СЗО, която винаги е определяла разумно глобалния дневен ред, подклаждаше несигурността, подкопавайки общественото доверие в разрешената версия и в надеждността на самата наука.

И тогава имаше това farrago (темпо Tharoor) от графики, диаграми и визуализации на данни. И тук авторите предлагат прости проверки. Скалата започва ли от нула, началната точка на перспективата или произволно число, което удобно настройва видимите резултати? Линеен ли е мащабът, или 1 см представлява една година в началото и 10 години след това, нарастващи криви? Времевата скала е намалена до степен, че критичните промени стават невидими? Авторите упорито се противопоставят на сексуалното изравняване на графичните изображения, например чрез илюстриране на история от ферма до вилица, като използват зъбците на вилица, извън мащаба, за представяне на данни. Хората са силно визуални животни и настройването на графика е най-лесният начин да ги подведете.



Книгата прави разграничение между BS от старата школа, което само създава впечатлението, че нещо сериозно се прави по нещо, което сериозно ви притеснява (през 1980-те Индия, незабавно изпълнение на план за действие на военна основа, под прякото наблюдение на висшите -упълномощена комисия, оглавявана от пенсиониран съдия от Върховния съд) и новоучилищна бакалавърска степен, която използва езика на математиката, науката и статистиката, за да създаде впечатление за строгост и точност. То е толкова широко разпространено, че извикването му отговорно трябва да се превърне в обществен дълг.

Получателите на пропаганда вярват в първите, само ако са политически склонни към тях, но са безпомощни пред второто. Видът вярва, че е числено предизвикан и унизително се предава, когато е изправен пред данни, без значение колко очевидно фалшиви или подвеждащи може да са те. За съжаление числата никога не говорят сами за себе си. Сега изкривените данни станаха толкова широко разпространени, че проверяващите факти, неукротимите гали на информационната епоха, вече не могат сами да спрат вълната. Време е всички да преминем към дигитално плогиране.