16 декабря 2023 г.

ИИ от DeepMind с системой "антигаллюцинации" совершает математические открытия

FunSearch, новый искусственный интеллект, разработанный Google DeepMind, как утверждается, является первым, который оказался достаточно надежным для совершения математических открытий. Такая надежность обусловлена тем, что бесполезные или ошибочные результаты отфильтровываются встроенной системой "антигаллюцинации", что радикально повышает качество ответов. Система сочетает в себе предварительно обученную большую языковую модель (LLM), целью которой является предоставление математических решений в виде компьютерного кода, с автоматическим "оценщиком", анализирующим надежность решений, что должно значительно снизить количество галлюцинаций. 

Новейшие инструменты ИИ, разработанные Google DeepMind, такие, как GNoME, демонстрируют впечатляющие возможности благодаря своей специфичности. Обучаясь на точных наборах данных, охватывающих конкретную область (например, химию), модели этого типа с меньшей вероятностью будут генерировать ошибки, чем обобщенные LLM, такие, как ChatGPT или Gemini. В частности, последние обучаются на больших и разнообразных наборах данных (а не ограничиваются одной областью), что делает их часто склонными к галлюцинациям. Например, Gemini выдал неверный ответ на вопрос веб-пользователя о том, кто стал лауреатом премии "Оскар" в этом году. Поэтому их использование для решения сложных задач или совершения научных открытий представляет собой серьезную проблему.

С другой стороны, некоторые эксперты считают, что LLM не стоит критиковать за их склонность к галлюцинациям, поскольку принцип их работы ничем не отличается от того, как ученые решают проблемы в большинстве случаев. Как и системы искусственного интеллекта, ученые обычно проводят свои исследования с помощью мыслительных процессов, в результате которых рождается множество идей, которые могут оказаться полезными, а могут и не оказаться. Поэтому будущие достижения в области LLM будут зависеть не от размера моделей, а от их способности генерировать надежные ответы — или отсеивать ненадежные. 

Недавно исследователи предположили, что решением проблемы галлюцинаций может стать использование в качестве основы LLM вспомогательной системы, которая проверяет надежность генерируемых результатов перед передачей их пользователю. Однако это было бы колоссальным проектом, учитывая разнообразие тем, которые должны освоить обобщенные чат-боты. Со своим новым инструментом FunSearch инженеры Google DeepMind сделали первый значительный шаг в этом направлении. 

FunSearch состоит из предварительно обученного LLM в сочетании с автоматизированной системой оценки. Утверждается, что он способен решать сложные математические задачи. По словам компании, с этой задачей легче справиться, поскольку генерируемые решения поддаются внутренней и быстрой проверке. Кроме того, два компонента модели позволяют предлагаемым решениям эволюционировать, что иногда приводит к научным открытиям. Работа инструмента подробно описана в журнале Nature. 

Петли обратной связи для предотвращения галлюцинаций

Если исходить из модели PaLM2, то без системы "оценщиков" FunSearch все еще склонен к галлюцинациям. По оценкам исследователей, до 90 % результатов при решении сложной задачи оказываются бесполезными или неверными. Для того чтобы выбрать правильные ответы, полная система (с оценщиком) начинает с того, что получает на вход решаемую задачу и базовое решение исходного кода. На основе этого она генерирует набор новых решений, правильность которых проверяет эксперт. Затем эксперт предлагает лучшие варианты, которые возвращаются в цикл с предложением улучшить их. По данным Google DeepMind, этот процесс с обратной связью порождает миллионы потенциальных решений, которые в итоге сходятся к результату, надежность которого может превзойти самое известное решение. 

Если говорить более конкретно, то пользователь начинает с написания описания решаемой задачи в виде компьютерного кода. Это описание включает в себя процедуру оценки программ, а также загрузочную программу, используемую для инициализации другой группы программ. Другими словами, модель пишет компьютерные программы для предоставления решений, а не пытается решить проблему напрямую. 

Затем система выбирает подмножество программ, считающихся надежными, которые передаются в LLM. LLM использует этот отбор для создания новых программ, которые автоматически оцениваются. Лучшие из них, отобранные экспертом, затем снова включаются в цикл самосовершенствования. Следует отметить, что, хотя FunSearch основан на PaLM 2, он совместим с другими LLM, обученными на коде.

Более того, эволюционный аспект системы может проложить путь к потенциальным математическим открытиям. "Вместо того чтобы начинать с нуля, мы начинаем эволюционный процесс с общего знания проблемы и позволяем FunSearch сосредоточиться на поиске наиболее важных идей для совершения новых открытий", — пояснила группа инженеров в блоге компании. 

Решение сложных математических задач

Исследователи Google DeepMind протестировали свою новую систему, поставив перед ней задачу найти решение "проблемы набора шапок". Эта задача включает в себя поиск наборов точек в большой сетке, где три точки никогда не должны образовывать прямую линию. В результате вычислений FunSearch получила 512 точек в восьми измерениях, что является самым большим набором, когда-либо найденным для этой задачи. "Это первые открытия, сделанные для открытых задач, поставленных с помощью LLM", — пишут исследователи в своей статье. 

Вторая задача заключалась в решении проблемы bin-packing, которая заключается в упаковке предметов разного размера в минимальное количество коробок. FunSearch выдал результаты, которые превзошли алгоритмы, обычно используемые для решения этого типа задач. Это может сделать его применимым в транспортном и логистическом секторах. 

Следует отметить, что другие подходы ИИ, такие как нейронные сети и обучение с подкреплением, также могут решить подобную задачу. Однако их развертывание потребует значительных ресурсов. FunSearch же работает с помощью компьютерного кода, который, по словам инженеров Google, можно легко проверить и развернуть.

Источник: New-Science.ru