История развития чат-ботов: от Shoebox до ChatGPT



Чат-боты и различные виртуальные помощники набрали популярность относительно недавно, но история развития тянется много десятилетий. На начальном этапе развития это были примитивные устройства, которые могли использовать только ограниченное число готовых шаблонов. Сегодня используются нейросети, способные полноценно поддерживать диалог, работать с изображениями и многое другое.

Что собой представляет чат-бот

Это приложение, которое способно поддерживать разговор с человеком, для чего используются различные инструменты NLP (обработка естественного языка). Также активно применяются большие языковые модели, что позволяет расширить возможности таких приложений.

Упрощенно алгоритм работы чат-бота можно представить в виде четырех этапов:

— пользователь через интерфейс отправляет запрос;

— алгоритм анализирует запрос для выделения ключевых слов;

— чат-бот подготавливает подходящий ответ;

— сообщение возвращается пользователю.

Основное развитие было направлено на улучшение работы на втором и третьем шаге. Первые помощники подбирали ответы из готовой базы данных, ориентируясь на слова в исходном запросе. Современные платформы уже генерируют текст с нуля, используя для этого обширный массив данных. При этом учитывается история переписки, что и позволяет качественно имитировать живое общение.

Изучение данного аспекта стоит начать с описания Shoebox от IBM – первого устройства, которое могло реагировать на голосовые команды. Также стоит вспомнить работы Алана Тьюринга – он внес значительный вклад в развитие инструментов для оценки возможностей программ. Именно знаменитый тест Тьюринга часто используется для тестирования возможностей виртуальных помощников.

Тест Тьюринга

Данный тест, предложенный математиком в 1950 году, был направлен на то, чтобы выяснить, способна ли созданная машина к обдуманному диалогу. В качестве основы использовалось допущение, что если человек, который выступает в роли собеседника, примет алгоритм за живого человека, то приложение можно считать мыслящим.

Специалист также предложил игру с тремя участниками, которая в дальнейшем стала известна как «Игра в имитацию». Она была реализована в формате эксперимента – основной участник взаимодействует с двумя другими игроками. За одного из них играет компьютер, при этом игрок изначально не знает, за кого именно. В процессе общения ему необходимо это выяснить, опираясь только на анализ поступающих ответов. Если в процессе общения машине удается подражать человеку и испытуемый не может определить участников, то тест считается пройденным.

Проект Shoebox

В 1961 году было представлено устройство, которое могло распознавать голосовые команды оператора и выполнять простые арифметические операции. Инновационную машину, которая получила название Shoebox, разработал Уильям К. Дерш, на тот момент работал инженером в IBM.

Функционал был достаточно ограниченным: машина могла распознавать 16 слов и реагировать на них. В данный набор входили простые арифметические операции, цифры (от 0 до 9) и инструкция «итого», которая инициировала вывод полученного результата.

Для управления использовался обычный микрофон, команды конвертировались в набор импульсов, который сравнивался с шаблонами для идентификации. Далее использовался узел с реле для ввода информации и проведения необходимых расчетов.

Приложение Eliza

Приложение можно считать следующим этапом развития данного направления. Изначально было разработано для изучения возможностей обработки естественного языка. Анонс состоялся в 1966 году, разработчик – Джозеф Вейценбаум, занимал должность профессора MIT. Принято считать, что именно данное приложение впервые смогло пройти тест Тьюринга, хотя не все согласны с этим.

Приложение было задумано как виртуальный психотерапевт. В режиме чата пользователь может предоставить необходимую информацию, алгоритм проанализирует полученный контент и при необходимости задаст уточняющие вопросы. В основе работы Eliza также лежал подход сопоставления шаблонов, использовалась готовая база ответов.

Это сильно ограничивало возможности программы. В частности, она не могла обучаться в процессе диалога, контекст не учитывался. В основе алгоритма – менее 200 ключевых слов и шаблонов, что позволяло вести только примитивные диалоги.

Несмотря на очевидные недостатки, проект Eliza доступен и сегодня – в виде чата на официальном сайте.

Программа Parry

Запуск проекта состоялся в 1972 году, разработал приложение Кеннет Колби, ученый из Стэнфорда. Программа функционировала заметно лучше предшественников, были устранены многие недостатки. Принято считать, что Parry обладал уже полноценной личностью, обеспечивал лучшую вариативность в процессе диалога, было гораздо меньше ошибок. Ответы определялись на основе набора предположений, также учитывались эмоциональные реакции, для чего была предусмотрена система изменяемых весов.

В 1979 году был проведен эксперимент, в котором кроме приложения участвовали пять врачей-психиатров. Была обеспечена чистота тестов, присутствовало много приглашенных специалистов. Врачам была поставлена задача на основе своего опыта определить, с кем они общаются – с симулятором или реальным параноидальным пациентом. Результат оказался для многих неожиданным. В половине случаев приложению действительно удалось обмануть специалистов, несмотря не неспособность выражать простые эмоции и явные задержки при ответах.

Бот Jabberwacky

В 1988 году был разработан чат-бот, который по заверению создателей обладал искусственным интеллектом. Создатель – Ролло Карпентер, известный британский программист. Само приложение было написано на языке программирования CleverScript, который на тот момент был достаточно популярным.

Главное отличие Jabberwacky от аналогов – поддержка контекста. Программа хранила историю переписки и учитывала информацию при формировании очередного ответа. Это позволило заметно повысить качество диалогов. При этом у пользователя была возможность расширять словарный запас программы, например, добавляя узкоспециализированные фразы.

В 2008 году программист анонсировал Cleverbot – обновленную версию чат-бота. Возможности программы были заметно расширены, в частности бот был способен обучаться непосредственно в процессе переписки, что позволяло соблюдать нить разговора.

Dr. Sbaitso

Утилиту разработали специалисты Creative Labs, официальный анонс состоялся в 1992 году. Как и предшественники, программа имитировала работу реального психолога, но было важное отличие – был предусмотрен модуль синтеза речи. Это позволяло озвучивать текстовые ответы.

Владельцы также приняли решение сохранить проект, на официальном сайте и сегодня можно начать диалог с приложением.

Who the f*ck is ALICE?

Очередное приложение в данном направлении было анонсировано в 1995 году, тогда оно наделало немало шуму в СМИ. Разработал чат-бота Ричард Уоллес, используя для этого специально разработанный язык AIML, что упростило разработку. Также использовались инструменты для обработки информации на естественном языке, что позволило реализовать достаточно сложное поведение.

AIML основан на алгоритме сопоставления шаблонов. Такие боты используют достаточно простую схему работы – из введенной информации выделяются ключевые фразы, далее они соотносятся с определенным шаблоном, на основе которого и формируется ответ.

На начальном этапе использовалась база знаний, которая включал порядка 41 тысячи шаблонов, что позволяло вести сложные диалоги. Используемый движок в дальнейшем часто использовали другие компании для собственных проектов.

Чат-бот SmartChild

Разработан в 2001 году специалистами компании ActiveBuddy для интеграции в различные платформы обмена сообщениями. Известно, что приложение было предназначено для сервисов формата MSN Messenger и AOL IM.

На тот момент это были действительно полезные инструменты. Пользователи могли получить доступ к прогнозу погоду, котировкам акций, расписанию поездов и так далее.

Mitsuku

Данный чат-бот лучше других проходил тест Тьюринга (на тот момент это было уже своеобразным стандартом), за что пять раз получал престижную Премию Лебнера. Приложение основано на языке AIML, который доказал свою эффективность еще в эпоху чат-бота ALICE. Позднее он был переименован в Kuki, под данным именем он известен и сегодня. Более того у проекта есть собственный аккаунт в Discord и канал на Ютуб.

IBM Watson

Данная платформа уже не ограничивается простым ботом с набором готовых шаблонов. Это уже полноценный компьютер, с искусственным интеллектом, способным самостоятельно искать ответы на различные вопросы.

Популярность Watson резко возросла после полноправного участия в телевизионной викторине Jeopardy! (аналога российской передачи «Своя игра»). Система смогла существенно обойти по очкам других игроков и установить новый рекорд.

Woebot

Еще один виртуальный терапевт, запущенный в 2017 году. В команду разработчиков вошли специалисты по ИИ и действующие психологи. Приложение может вести полноценные беседы и использовать различные приемы для улучшения психического здоровья. Пользователи в целом положительно отзываются о сервисе, отмечая, что бот действительно помогает в сложных жизненных ситуациях.

В отдельную категорию можно выделить виртуальных помощников. Их сегодня предоставляют многие крупные компании, включая Google и Amazon. Далее они будут рассмотрены подробнее.

Siri

Разработка над приложением началась еще в 2007 году, на тот момент это был независимый проект. Занимались им специалисты SRI (Международный центр искусственного интеллекта). Официальный анонс состоялся в 2010 году в формате отдельной утилиты для iPhone. Компания Apple сразу оценила потенциал сервиса и предложила выкупить программу с целью интеграции в операционную систему.

Google Now

По современным меркам уже достаточно старый сервис. Еще в 2012 году специалисты Google анонсировали проект Google Now, через 4 года название было изменено на Google Assistant. На тот момент это был первый сервис, который анализировал предпочтения пользования и информацию о его активности. Это позволяло персонализировать информацию в чате. Также была возможность вести полноценные диалоги в чате.

Alexa

Виртуальный ассистент от компании Amazon, официальный анонс состоялся в 2014 году. В настоящее время бот интегрирован в различные устройства компании, включая дисплеи и колонки. Возможности достаточно обширны – ведение диалогов, поиск информации, получение ответов и многое другое.

Запуск Alexa позволил заметно расширить возможности интернета вещей (IoT). Пользователи получили полноценную интерактивность и возможность использовать голосовое управление.

Cortana

Виртуальный ассистент от компании Microsoft, анонс состоялся в 2014 году. Изначально был интегрирован в платформу Windows Mobile. В дальнейшем инструмент появился и в персональных компьютерах.

Приложение было способно распознавать голосовые команды, предоставлять запрошенную информацию и выполнять различные действия. Также была возможность вести диалог в чате.

Bixby

Проект сопровождается специалистами Samsung, ассистент был запущен в 2017 году. Позиционируется как замена приложению S Voice, которое было разработано еще в 2012 году и на тот момент морально устарело. В настоящее время голосовой помощник активно используется в различных устройствах компании, включая планшеты и наушники. Ведется работа по расширению данного перечня.

Появление больших языковых моделей (LLM)

Появление систем на базе LLM произвело настоящую революцию в сфере чат-ботов. Новая платформа позволила не просто выбирать подходящий шаблон для ответа, но и с нуля генерировать осмысленный текст на основе полученной от пользователя информации. К примеру, нейросеть может написать сказку с нужных сюжетом, составить резюме, проверить текст на ошибки и многое другое.

Что такое LLM

Под данным термином понимают модель глубокого обучения, которая содержит миллионы параметров. Предварительно ее обучают на массиве реальных данных, от данного этапа во многом зависит качество работы. LLM анализирует исходный запрос пользователя и последовательно формирует подходящий ответ. После предсказания очередного слова полученная строка повторно подается на вход для анализа, такой процесс может повторяться много раз. Такой алгоритм и позволяет генерировать осмысленный текст и имитировать общение с другим человеком.

GPT (generative pre-trained transformer)

Безусловный лидер в сфере чат-ботов, который задает ключевые векторы развития для других компаний. GPT-1 была представлена специалистами OpenAI в 2018 году. Уже тогда модель содержала свыше 110 миллионов параметров, для обучения использовался огромный массив текстовых данных.

Первая версия уже могла генерировать тексты, которые было сложно отличить от созданных человеком. Однако было и много недостатков – модель не могла реализовать полноценный контекст и работать со сложными логическими связями.

Модель GPT-2 использовала уже 1,5 миллиарда уникальных параметров. Основные изменения коснулись работы с контекстом. Общая архитектура осталась прежней – в ее основе лежит технология Transformer.

Резкий скачек произошел в 2020 году, когда компания анонсировала модели GPT-3 и GPT-3.5 Turbo. Для работы они уже использовали 175 миллиардов параметров, что на тот момент казалось невероятным уровнем. В большинстве случаев сгенерированный текст рядовому пользователю уже сложно отличить от контента, созданного человеком, даже если речь идет и специализированном контенте. ChatGPT как раз и основан на GPT-3.5 Turbo, что привело к взрывному росту популярности.

Специалисты продолжили активную работу, уже в 2023 году была представлена 4 версия. Кроме прочего, появилась возможность работать с изображениями.

Bard

Многие компании ведут работу по запуску собственных проектов для конкуренции с ChatGPT. В число удачных реализаций входит чат-бот Bard от специалистов Google AI.

В основе лежит модель LaMDA, но сама платформа еще проходит этап разработки. Как сообщает сам бот, для обучения используется набор данных, в которых входит более 1,5 триллиона слов, при этом бот поддерживает все распространенные языки.

Весной 2023 года основной функционал был открыт для всех пользователей. Уже на текущем этапе у платформы есть ряд опций, которые отличают его от конкурентов. В частности, предусмотрена функция экспорта ответа в Google Docs или Gmail, что позволяет упростить интеграцию в другие сервисы.

GigaChat

Чат-бот от «Сбера», запущенный в 2022 году. Может вести диалоги, работать с программным кодом, создавать изображения и многое другое. В основе платформы лежит нейросеть NeONKA, которая состоит из различных моделей (для работы с текстом, графикой и так далее).

ERNIE Bot

Чат-бот от компании Baidu (Китай), запущен в 2023 году. Также есть ряд уникальных возможностей, которые выделяют сервис от аналогов. В частности, используется технология дообучения с учителем, обучение на основе подготовленных запросов.

Ориентирован на работу внутри страны, поэтому хорошо работает с запросами на китайском языке.

YaGPT

В основе лежит нейросеть YandexGPT от «Яндекса». Официально еще проходит этап тестирования, но чат-бот уже доступен в виде отдельных модулей для браузера и «Алисы».

Что дальше

Очевидно, что потенциал в данном направлении еще не исчерпан, все игроки на данном рынке продолжают работать над улучшением своих моделей. При этом ИИ активно внедряется во все новые сферы, часто полностью заменяя определенных специалистов.

В контексте исследований в сфере цифровых помощников есть явные лидеры – Великобритания и США. Однако стоит учитывать, что во многих странах есть собственные модели, ориентированные на внутренний рынок. Для обучения использовались тексты на местном языке, что позволяет улучшить качество работы.



Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: