Многие мои читатели знают, что вне Хабра я давно занимаюсь техническими книгами. Практически весь прошлый год у меня прошёл в русле изучения новых программно-аппаратных и философских вызовов, которые ставит перед нами искусственный интеллект. Эта работа вылилась в знакомство и сотрудничество с по-настоящему неординарными и глубокими исследователями, такими, как уважаемые Камиль Гадеев @Kamil_GR и Константин Клепиков, но при этом подтолкнула меня отслеживать и более «новостные» блоги, среди которых я рекомендую всем тем, кто интересуется промптами, полностью прочитать/пролистать статьи уважаемого Андрея Пешкова @runaway_llm.
По результатам этих поисков сегодня я хотел бы охарактеризовать важнейший тренд в проектировании физической памяти: искусственный интеллект стал тем фактором, который, наконец, требует перестать гальванизировать исчерпавший себя закон Мура и всерьёз перейти к проектированию 3D-архитектур чипов.
3D-интеграция путём этажерочного расположения (упаковки) чипов или кремниевых пластин. Ниже будут описаны подходы как к полноценной 3D-упаковке, так и к 2,5D-упаковке Вот как схематически выглядят такие архитектуры:
О подборе субстрата/подложки и промежуточного слоя (интерпозера), поверх которого расположены кристаллы микросхемы (die) рассказано в статье «Прощай, печатная плата; здравствуй, межкомпонентная кремниевая сеть», переведённой на Хабре уважаемым @SLY_G.
Такая 3D-интеграция представляется перспективной альтернативой традиционным методам масштабирования микросхем, связанным с увеличением количества транзисторов на кристалле и подбором инновационных полупроводников (у меня в блоге я рассказывал, в частности, о силицене и нитриде бора).
3D-интеграция — это качественный, а не только количественный способ нарастить вычислительную мощность чипов, то есть, увеличить количество транзисторов, не увеличивая площадь подложки. При этом также могут сочетаться разнородные технологии производства самих чипов. Благодаря улучшенной связности компонентов на чипе и снижению рассеивания мощности получается собирать более высокопроизводительную электронику с умеренными требованиями к охлаждению ЦОД. Тем не менее, даже при современных требованиях, связанных с ИИ, вычислительная нагрузка неподъёмна для традиционных ЦП (никакое распараллеливание не спасает, причём, не все задачи хорошо распараллеливаются). Поэтому работа ложится на графические процессоры (GPU), для совершенствования которых нужны новые архитектурные решения. Кстати, недавно я опубликовал в моём блоге с переводами @Sivchenko_translate статью о том, как при машинном обучении перенести часть рабочих нагрузок с GPU на CPU.
Подробнее остановлюсь на том, почему закон Мура (на самом деле являющийся не законом, а эмпирически выявленной маркетинговой закономерностью) сейчас на излёте. Буквально в ходе подготовки этой статьи уважаемый Александр Зорин @oneastok разместил на Хабре в корпоративном блоге компании «Selectel» статью «Миф о бесконечном масштабировании или когда ИИшка упрется в потолок». Ранее на Хабре уважаемый Валерий Истишев @istishev размещал обзорную статью «Что такое Закон Мура и как он работает теперь? Разбор», помогающую сопоставить ожидания и реальность в увеличении количества транзисторов на кристалле микросхемы. Наконец, существует так называемый «закон Хуанга», то есть, наблюдение Дженсена Хуанга, главы компании NVIDIA, о том, что развитие видеокарт опережает закон Мура. Об этом на Хабре одним из первых написал уважаемый @TilekSamiev в статье ««Закон Мура» — мертв. Да здравствует «закон Хуанга»».
Суть наблюдения Гордона Мура (1929-2023) заключается в том, что, поскольку каждое последующее поколение процессоров должно работать лучше, чем предыдущее, то базовая задача проектирования новых микросхем — интегрировать больше логики на конкретной площади кремниевой подложки. Но здесь экономика упирается в физические ограничения. Основная технология вытравливания транзисторов — фотолитография — позволяет вырезать узоры на участке площадью около 850 квадратных миллиметров, что сравнимо с размером современного чипа NVIDIA. Здесь приводится классификация современных методов фотолитографии и информация о предельной разрешающей способности.

Поэтому вот уже несколько лет разработчики систем на кристалле пробуют дробить чипы на всё более мелкие чиплеты и объединять их по принципу упаковки — наращивая таким образом рабочую площадь кремниевой пластины. В традиционных ЦП для этого используется 2,5D-архитектура, показанная выше, где чипы располагаются бок о бок и соединяются плотными перемычками.
Но в современных ИИ-моделях из класса трансформеров (GPT) приходится постоянно перекачивать большие объёмы данных между памятью и вычислительными блоками. В традиционных 2D- и 2,5D-чипах все элементы микросхемы расположены на 1-2 поверхностях, поэтому данные обсчитываются быстрее, чем передаются. Возникают узкие места при передаче данных и, следовательно, задержки и ожидание. В аппаратной инженерии эта проблема получила название «стенка памяти» (memory wall).
Благодаря 3D-интеграции вычисления ускоряются именно благодаря устранению этих узких мест и не связаны непосредственно ни с уменьшением самих транзисторов, ни с их уплотнением на кристалле. Так, британская компания Graphcore, занимающаяся разработкой оборудования для ИИ, смогла значительно повысить производительность системы, напрямую подключив к ИИ-процессору питающий чип. Получившаяся у них в 2022 году архитектура Bow при том же количестве чипов, что и у предыдущего поколения, стала развивать частоту 1,85 ГГц против 1,35 ГГц, а энергопотребление при этом снизилось. На таком оборудовании компьютер обучает нейронную сеть на 40% быстрее, потребляя при этом на 16% меньше энергии. Такой буст был достигнут исключительно благодаря аппаратным нововведениям, никакой код переписывать не пришлось.
Питающий чип оборудован конденсаторами и каналами, прорезанными в кремниевой пластине (так называемые «сквозные канавки в кремниевой пластине», TSV) для передачи как данных, так и электричества. Новизна архитектуры Bow заключается именно в применении конденсаторов, которые расположены в одних канавках бок о бок с элементами DRAM, а не поверх них, благодаря чему обмен информацией и подача энергии происходят практически мгновенно.
Своеобразной преградой для разработки всё более мелких чипов становится и сама кремниевая подложка, вернее, её перегрев при высоких нагрузках, характерных для искусственного интеллекта. В 3D-чипе все транзисторы должны располагаться на громоздком по их меркам слое кремния, каким бы маленьким ни был транзитор. Эти кремниевые прослойки замедляют коммуникацию между слоями, поэтому в Bow и подобных ей архитектурах и применяются TSV-каналы.
В конце 2024 года исследовательская группа из Массачусетского технологического института под руководством Ки Сеок Кима предложила проект многослойного чипа, который вообще не содержит кремния. Эта работа, в свою очередь, опирается на их же исследование 2023 года, в котором впервые удалось вырастить на кремниевой основе 2D-материалы, функционально аналогичные кремниевой подложке. Авторы охарактеризовали процесс как «неэпитаксиальный однокристалльный рост» и получили транзисторы из дихалькогенидов переходных металлов (TMD), которые в нанометровом диапазоне обладают лучшей электропроводимостью, чем кремний. Общая формула этих соединений — MX2, где M – переходный металл (например, молибден), а X – сера, селен или теллур. С опорой на эти наработки, новое исследование, опубликованное в журнале Nature, демонстрирует, как выращивать транзисторы, память и логические элементы практически на любой кристаллической поверхности, а не только на кремнии. Чем меньше неровностей (дефектов) будет содержать такая поверхность, тем плотнее можно будет уложить контакты, а чем тоньше она будет, тем компактнее получится весь 3D-чип. Это напрямую повысит скорость коммуникации между слоями и скорость машинного обучения. Но в лабораторных условиях такое выращивание чипов на кремниевом трафарете работало лишь при температуре около 900 ℃. Температура плавления кремния составляет 1 414°C, поэтому в таких условиях он быстро теряет форму, и перевести эту технологию в промышленную плоскость пока затруднительно.
Новейшая глава в истории 3D-стекинга — это архитектура, разработанная к концу 2025 года группой представителей Массачусетского технологического института, Стэнфордского университета и университета Карнеги-Меллон во главе с профессором Субашишем Митрой. Предложенная архитектура получена методом BEOL (back end of line), то есть, «последовательной металлизации снизу», когда новые слои надстраиваются под уже имеющимися слоями.
Ранее BEOL-подходы рассматривал на Хабре уважаемый Юрий Панчул @YuriPanchul. Но возможности «монолитного 3D-стекинга» ограничены примерно таким температурным барьером, о котором я писал выше: при наращивании новых слоёв ранее уложенные кремниевые и металлические слои могут «поплыть» из-за высокой температуры. Команда Митры попробовала добавлять активные слои к чипу с противоположной от подложки стороны, там, где располагаются проводники и металлические перемычки. Металл наслаивается на металл.
Благодаря такому подходу (противоположному FEOL, наращиванию чипа спереди) КМОП-схемы легче переносят высокие температуры, а также физически сокращается путь между вычислительными элементами, прошивкой и контактами — то есть, именно там, где в традиционных схемах теряется часть энергии. При подходе, предложенном командой Митры, удалось получить такую архитектуру чипа, содержащую слой оксида индия:
Слой оксида индия наращивается при температуре всего около 150 °C и сохраняет полупроводниковые свойства при толщине чуть более 2 нм. Под ним расположен ферроэлектрический гафниево-циркониевый оксид, также кристаллизующийся при сравнительно низких температурах (около 400 °C), но обеспечивающий переключение полупроводника не более чем за 10 наносекунд, а возможно и менее (группа сослалась на предел измерительной способности использовавшегося оборудования).
Вместе с MIT-овскими исследователями соавтором статьи является Марк Нельсон, представитель частной компании SkyWater Technology. С его участием удалось изготовить партию таких чипов на малом предприятии.
Первые испытания показали, что эти чипы превосходят по производительности сопоставимые 2D-чипы примерно в четыре раза. Компьютерное моделирование показало, что выигрыш только увеличится, если удастся наслоить более высокую «этажерку». Что касается нагрузок, связанных с искусственным интеллектом (для испытаний использовалась модель LLaMa) выигрыш в производительности может быть двенадцатикратным. Перспективы самые многообещающие.
Мне кажется очень интересным, что закон Мура «закончился» в настолько неподходящий период, когда резко возросли потребности в вычислительной мощности для нужд искусственного интеллекта. Закон Хуанга представляется мне столь же маркетинговым изобретением NVIDIA, каким в своё время стал закон Мура для Intel. Описанные в этой статье приёмы напоминают попытки свернуть с разрушающегося проторенного тракта (закон Мура) на обочины или просёлочные дороги и продолжать движение туда, куда закон Мура ведёт «на карте», но, возможно, мы подходим к фундаментальному рубежу, на котором проектирование новых чипов для искусственного интеллекта сможет продолжить только искусственный интеллект. Он станет подбирать как материалы, так и их компоновку и, судя по всему, будущее за многослойной компоновкой. Сможет ли ИИ перейти на самообеспечение и саморазвитие именно в этой области, жизненно важной для него? Тему проектирования чипов при помощи искусственного интеллекта я также надеюсь рассмотреть на Хабре, особенно, если сегодняшняя статья вам понравится.
Источник


