Исследователи Apple разработали ReALM (Reference Resolution As Language Modelling) — искусственный интеллект, способный понимать речь и фоновый контекст, а также нечеткие ссылки на экранные элементы. ReALM характеризуется как новая система искусственного интеллекта, которая позволяет более естественно взаимодействовать с голосовыми помощниками, такими как Siri. Кроме того, подчеркивается, что инструмент меньше и быстрее, чем GPT-4, разработанный OpenAI.
Искусственный интеллект ReALM от Apple
Согласно исследовательской работе, система, получившая название Apple ReALM, использует большие языковые модели, чтобы превратить сложные обращения, включая понимание ссылок на визуальные элементы на экране (например, «это» или «то»), в задачу чисто языкового моделирования. Это позволяет ReALM добиться значительного прироста производительности по сравнению с существующими методами.
При общении с такими умными помощниками, как Siri, пользователи могут делать контекстные ссылки на фоновые задачи или данные, находящиеся в данный момент на экране. В то время как традиционные методы синтаксического анализа опираются на невероятно большие модели и справочные материалы, такие как изображения, Apple использует более простой подход, преобразуя все в текст.
Это позволяет ReALM работать аналогично GPT-4 с меньшим количеством параметров. Тем самым открываются перспективы использования инструмента на устройствах с ограниченным аппаратным обеспечением, таких как iPhone. Исследование также показало, что увеличение параметров, используемых в ReALM, позволяет ему работать значительно лучше, чем GPT-4. Как мы уже говорили выше, эта разница в производительности обусловлена фундаментальным различием между двумя моделями. В то время как GPT-4 полагается на разбор изображений для понимания информации на экране, ReALM предпочитает текстовый подход.