У Эпла на презентации их Яблочного интеллекта был пример, где девушка спрашивает у Сири, когда прилетает её мама, а телефон сам понимает, кто её мама, и находит номер рейса в переписке, и выводит время прибытия. В «Ток-шоу» Джона Грубера обсуждали этот пример, и там предполагалось, что где-то переписке с мамой таки был этот номер рейса.
И вот с одной стороны да, было бы круто, если бы Сири смогла это распутать: понять, где мама; что я переписываюсь с мамой в Телеграме, а не Аймесседже; вычленить релевантный номер рейса; найти информацию по нему; рассказать мне.
А с другой — ну жизнь-то ещё в сто раз многообразнее. Начнём с того, что я легко могу себе представить, что номер маминого рейса мне пришлёт папа. Или но́мера рейса в переписке может вовсе не быть, но зато может быть примерное время прилёта. И тогда Сири должна догадаться не просто это время вывести, а найти рейс, который в это время прилетает, и отследить, не задерживается ли он. Или вместо номера рейса мама может прислать PNR и попросить зарегистрировать.
Стоп, а откуда мама прилетает? Это я из другой переписки или даже личного общения знаю, что мама прилетает, допустим, из Питера, и поэтому примерного времени прилёта (или даже понятия типа «вечерним рейсом») мне достаточно, чтобы найти рейс. А Сири-то откуда это поймёт? А что, если в переписке ни разу и не упоминалось, что мама рейс из Питера, но у мамы в инсте фотки оттуда в последние дни? И мама знает, что я знаю, что она в Питере, потому что я там лайки ставил и каменты писал?
А недавно мне нужно было встречать мамину подругу, и она прислала мне номер рейса в виде мыльного мобильного скриншота маршрутной квитанции в А4. Если зазумиться, можно было примерно разглядеть номер рейса, и выбрать нужный, сверившись с реальным табло прилёта на сайте аэропорта.
А откуда прилетает мамина подруга? Из общего контекста общения я знал, что из Лондона, но я даже примерно не представляю, из какой именно чьей реплики и в какой момент я это узнал. Рейсов Лондон — Челябинск не было даже в хорошие времена, но зато сейчас если знать, что она летит с одной пересадкой, можно выбрать между Антальей и Баку. Ладно, в том скриншоте можно было увидеть, правильный ответ, но если бы скриншота не было, а было бы только время прилёта, а рейс бы задержали? Я бы легко это распутал, а вот в случае с Сири, мягко говоря, как-то верится с трудом.
Можно подумать, что я требуют от Сири детективных способностей. Но живой человек решает такие «детективные» задачи, соединяя пять разрозненных фактов, по сто раз в день, даже не задумываясь. И общаясь, мы ожидаем друг от друга элементарного умения «сложить два и два», мы говорим: «ну и так ведь ясно», не разжёвываем очевидное. По идее компьютеру в будущем такое будет в сто раз проще и мы будем удивляться: как он вообще вычислил что-то совершенно неизвестное?! А оно известное, но соединить надо будет не пять, а двести разрозненных фактов. Но такое будущее пока кажется очень далёким.
И ещё одна важная вещь. Пример с выбором между Антальей и Баку уже кажется натянутым — с таким наборов вводных я бы, скорее всего, сам пошёл переспрашивать, а не просто поехал бы в аэропорт. Но Сири-то никого переспрашивать не пойдёт! Если ей не хватит данных в её «семантическом индексе», она просто скажет, что ничем не может помочь, и ты даже не узнаешь, какого кусочка информации ей не хватило. Или, ещё хуже, с уверенностью выдаст неправильный ответ. Если знакомый попросит встретить его в четверг в час ночи, то живой человек на всякий случай переспросит, со среды на четверг или с четвергам на пятницу. А компьютер самонадеянно выдаст неправильный ответ. В этом беда со всеми этими ЧатамиГПТ, что они не умеют задать встречный вопрос, если сомневаются в чём-то. Размер окна контекста не влияет на тот факт, что всегда получается обмен репликами одна на одну.
Взято отсюда