Современный дискурс об управлении данными был скомпрометирован Идеализмом Данных, который рассматривает данные в первую очередь как социальный и технико-правовой артефакт. Существуют различные вариации идеализма данных, такие как этика данных, "Свободный поток с доверием", деколонизация данных, феминизм данных, этичное развитие ИИ и другие, которые в основном предполагают, что многие социальные, политические и экономические последствия нашей цифровой эпохи можно управлять через механизмы прозрачности, справедливости и этического согласования. Это случай структурной слепоты. Здесь я предлагаю Реализм Данных как необходимую корректировку, требующую смещения фокуса с идей вычислительного равенства к более конкретным реалиям инфраструктурной собственности, стандартизационного рычага и стратегической способности управлять этим невзаимозаменяемым активом.
Это требует признания следующих пяти ключевых принципов Реализма Данных:
Отрицать это значит отказаться от эпистемического проекта — данные могут быть несовершенными, сформированными, опосредованными, но всё же контактом с миром. Как только мы принимаем фундаментальную роль данных как интерфейсов к реальности, Реализм Данных требует, чтобы был обеспечен широкий, экономически эффективный доступ к данным. Цель состоит в том, чтобы создать и максимизировать полезность общих данных при минимизации системного риска. Сегодня компаниям и разработчикам ИИ нужна ясность относительно того, какие данные они могут использовать и как. Благоприятная структура поиска источников устранит постоянную угрозу судебных разбирательств, позволяя командам разработчиков сосредоточиться на качестве и производительности своих моделей, а не беспокоиться об управлении юридическими рисками. Текущее узкое место общедоступных данных подавляет конкуренцию в ИИ.
Этот акцент на "заставить вещи работать" означает, что Реализм Данных выступает за политику, которая легализует сбор общедоступных данных. Текущая правовая неоднозначность и этическое порицание калечат стартапы. Безусловно, должны быть четкие технические стандарты для скрапинга (ограничения скорости, соблюдение robots.txt, обязательная анонимизация, исключение конфиденциальных и несущественных данных и т.д.), но, снижая стоимость базового доступа к данным и создавая общие данные, государства могут заставить компании ИИ конкурировать в превосходном моделировании, контекстуальном применении и алгоритмических инновациях, а не в том, кто является самым крупным и злостным накопителем проприетарных данных.
Вместо этого необходимы более государственные и частные инвестиции в курируемые, контекстуальные общедоступные наборы данных. Эти проверенные наборы данных могут снизить начальную стоимость поиска данных для стартапов и создать стандартизированный ориентир для разработки моделей, заменяя дорогостоящие, специальные и юридически рискованные усилия по скрапингу. Регуляторная политика здесь должна предписывать обмен данными или стандартизированные API для основных данных общественного интереса, удерживаемых естественными монополиями, стимулируя добровольный вклад анонимизированных, высококачественных наборов данных в общедоступные ресурсы. Кроме того, если данные — наш контакт с миром, чрезмерная зависимость от конкретных метрик может искажать сигналы, поэтому реализм данных также требует целостного захвата реальности, который включает качественные выводы и множество индикаторов.
Это подразумевает, что производство данных расположено и фильтруется через окружающую среду — данные не абстракция, а критический ресурс, который откуда-то происходит, создается кем-то и формируется инструментами, протоколами и властью. Данные не только представляют, но и осуществляют реальности — особенно по мере того, как все больше и больше информационных систем автоматизируются — данные формируют общественный дискурс, информируют политику и модулируют реальное поведение человека и машины. Материальность инфраструктур данных далека от эфемерности, данные хранятся, циркулируют и поддерживаются физическими системами, которые оставляют значительный экологический и геополитический след. Поскольку каждое взаимодействие оставляет след — Реализм Данных требует, чтобы мы признали, что данные не просто "собираются", а их генезис и производство инфраструктурированы. Когда школы идеализма данных фокусируются на моральных аргументах о данных, они также принимают инфраструктурное доминирование действующих гегемонов (и их этические приоритеты) как неизменную предпосылку, стремясь улучшить преобладающую систему власти, а не оспаривать ее основы.
Поэтому успешное государство Реализма Данных должно способствовать "постоянному взгляду на политику", необходимому для интеграции траектории глобальных технологических разработок в свой собственный стратегический расчет, приоритизировать развитие суверенных технических и даже управленческих стандартов, окружающих данные, и явно связывать цифровые промышленные географии с целями национальной безопасности. Так же, как в мире есть победители и проигравшие, в цифровом обществе есть державы данных и провинции данных.
Реализм данных не является защитой наблюдения, панелей управления, электронных таблиц или технократического управления. Это защита реальности как чего-то внешнего по отношению к человеческому дискурсу и дизайну — чего-то, что может сопротивляться, удивлять и фальсифицировать наши модели. С этой целью Реализм Данных отвергает две доминирующие тенденции:
Наивный эмпиризм — идея о том, что данные "говорят сами за себя", что числа нейтральны, измерение невинно. Этот взгляд не учитывает контекст, предубеждения или интерпретацию.
Радикальный конструктивизм — взгляд на то, что данные — не что иное, как нагруженные властью конструкции, полностью сформированные идеологией, нарративом и позиционностью. Этот взгляд стирает мир и сводит эпистемологию к политике, часто ради самой политики.
Реалистическая позиция отвергает как слепую веру в датафикацию, так и нигилизм чистого релятивизма. Реализм данных не отрицает контекст, идеологию или структуру. Он настаивает на том, что даже через них мир просачивается. Показание температуры. Уровень смертности. Подсчет голосов. Это не просто нарративы. Они ограничивают нас. Относиться к данным как к реальным — значит воспринимать их серьезно — не как окончательную истину, а как наши временные контакты с миром. Это значит спрашивать, что все это показывает и означает, а не только кто это сделал и почему. Поэтому данные должны анализироваться без идеализации, где приверженность жестким фактам данных, даже если они неудобны или некрасивы (например, показывающие неравенство, коррупцию), необходима, а статистический газлайтинг цивилизационно ядовит. Данные можно манипулировать. Но манипуляция предполагает базовую линию, которую можно исказить. Фальсификация подсчета голосов все еще зависит от идеи реального подсчета голосов. Цензура показателей смертности все еще подразумевает, что были смерти. Лгать с помощью данных — значит признать, что истина имеет значение, потому что на каком-то уровне данные являются неоспоримой реальностью, которая существует и функционирует независимо от наших политических убеждений и моральных устремлений. Это означает, что мы должны применять самую высокую тщательность к данным, используемым для обучения и тестирования наших систем, человеческих или искусственных.
Данные — не конечная цель, а показатель промышленного, военного и академического потенциала. Истинная способность государства к данным измеряется не размером цифрового следа его населения, а его независимой способностью стандартизировать, хранить и вычислять эти данные без опоры на внешние цепочки поставок или рамки управления. Это требует системной интеграции военных, академических и промышленных целей — союза науки с промышленностью, который рассматривает цифровые технические стандарты как глобальные общественные блага, которыми нужно стратегически управлять, а не просто пассивно потреблять. Вопреки идеалистическим утверждениям, национальная безопасность является конечным двигателем политики, определяющим решения по управлению данными на уровне государств, при этом конфиденциальность и этика служат вторичными и часто обсуждаемыми ограничениями. Политики данных гегемонистских и развивающихся держав фундаментально укоренены в обеспечении технологического преимущества. Поэтому задача состоит не в том, чтобы устранить зависимость через изоляцию, а в том, чтобы получить необходимый рычаг в системах данных для формирования правил игры.
Идеалистические политики данных политически наивны, потому что они предполагают согласие и сотрудничество в анархической системе. Рассмотрим, например, нарратив DFFT G7, который часто проецируется как универсальное благо, но в основном является элегантной риторикой "свободного потока с доверием", которая использует абстрактное юридическое обещание как маску, чтобы скрыть конкретные реалии глобального политического контроля, оставленные без внимания. Поэтому государство Реализма Данных должно подвергать все политики простому, но строгому тесту: Увеличивает ли эта политика измеримо суверенный потенциал и уменьшает ли структурную зависимость, или она просто достигает морального соответствия с существующими властями? Таким образом, Реализм Данных требует значимого перехода от судебно-полицейского государства (сосредоточенного на создании и исполнении законов) к структурному государству (сосредоточенному на построении и владении цифровыми возможностями и метаполитическими пространствами).
Реализм данных — это приверженность практической этике, а не идеализму. Он избегает понятий диагонально противоположных левых/правых систем. Это философия эффективного технологического ускорения, а не технологического пессимизма. Практическая этика требует прямого и немедленного столкновения с этическими необходимостями потоков данных — сделать методы сбора, очистки, моделирования и интерпретации как можно более прозрачными для тех, кто затронут результирующими решениями — но помимо права на аудит и возмещение, хранители данных не должны беспокоиться о проецировании желаний о том, каким должен быть мир, в свои конвейеры данных. Владение данными — это владение Истиной, и, таким образом, несет ответственность за защиту и снижение рисков данных под их опекой, и, если требуется, передачу этого владения для системной непрерывности. Поэтому основная задача управления здесь не в том, чтобы сделать данные и системы этичными, а в том, чтобы столкнуться и овладеть измеримыми структурными фактами вычисления, владения и возможностей.
Как почти все знают, миром и его правительствами тайно управляют бухгалтеры.


![[Newspoint] Смерть, которая была не совсем неожиданной](https://www.rappler.com/i.ytimg.com/vi/bC4xpjPmPb8/hqdefault.jpg)