X
 13.10.2022 Технологија

На „Стенфорд“ студентите ги учат Сири и Алекса кога да зборуваат, а кога да молчат

Со вокални обрасци како што се тонот и интонацијата, моментите на тишина што се случуваат во разговорите се некои од клучните сигнали што луѓето ги користат во разговорите. Тоа на човек обично му дава момент за размислување.

Од друга страна, говорните асистенти, секое молчење го толкуваат како прекин на разговорот и можност за преземање иницијатива. Во отсуство на подобро разбирање на сигналите, агентите за разговор како Сири и Алекса често имаат неприродни разговори.

За да се поттикне поприроден тек на разговорот, персоналот на Институтот за вештачка интелигенција насочена кон човекот на Универзитетот „Стенфорд“ дизајнира начин што ќе го натера агентот за разговор да се однесува повеќе како луѓето во реалниот живот.

Повеќето системи за препознавање говор прво го претвораат говорот на корисникот во текст, кој се обработува од агент за разговор, и потоа генерираат текстуален одговор. Овој текстуален одговор потоа се претвора во говор, што подоцна Алекса го дава како одговор на вашето барање.

Иако технологијата е прилично напредната, факт е дека во овој процес се губат нијансите на вербалниот разговор и исчезнуваат јазичните канали за повратни информации што луѓето ги користат во разговорот. Моменталните агенти користат детекција на тишината за да одредат кога е нивниот ред да зборуваат, обично по 700 до 1.000 милисекунди. Луѓето се побрзи од тоа, обично реагираат во рок од 200 милисекунди, откриваат истражувачите.

1

Континуирана анализа


Проблемот не е само во човечкиот разговор, туку и во корисничкиот интерфејс. На луѓето им е пријатно да разговараат со други луѓе и тие карактеристики се обидуваат да се вметнат во нивните разговори со агентите за разговор. Но, кога тие карактеристики не се поддржани, доаѓа до проблем во интеракцијата и сето тоа доведува до конфузија, велат истражувачите од „Стенфорд“.

Затоа, тие сакаат да го преформулираат моделот за континуирана анализа на гласовниот влез за да биде што е можно посличен на она што луѓето го прават во реалниот живот.

Најефикасна комбинација


Истражувачите разгледале две фази: говор и тишина за да се обидат да го предвидат текот на разговорот врз основа на промените во интонацијата. Притоа, тие користеле комбинација на вештачка интелигенција со отворен код GPT-2 (Generative Pre-Training Transformer 2) за карактеристики на зборовите, а јазични карактеристики кои влијаат врз создавањето ритам и акустични ефекти.

Оваа комбинација на модели се покажа како најефективна и најлесно ги надмина сегашните модели базирани на тишина. Резултатот е модел на машинско учење кој континуирано предвидува и секогаш внимава дали дошол редот на агентот.

stenford

Моделот ги зема предвид интонацијата и другите карактеристики од говорот и нуди увид во одговорот на корисникот на одредена изјава на агент. Ова, смета тимот од „Стенфорд“, е патоказ за идните гласовни асистенти кои не само што ќе го претворат текстот во говор и автоматски ќе го препознаваат говорот со детекција на паузата, туку ќе земат предвид и различни нијанси на гласот.

Извор: Bug.hr
Фото: Freepik
Подготвил: Тамара Гроздановски

Издвојуваме

Слични вести од Fakulteti.mk

Технологија