UneDose | Alexa, jak Siri funguje? Hlasové ovládání vysvětleno

William Charles
0
1244
75

reklama

Nyní můžeme mluvit s téměř všemi našimi gadgety, ale jak přesně to funguje? Když se zeptáte “Co je to za písničku?” nebo řekni “Zavolej mámě”, děje se zázrak moderní techniky. A i když se cítí, jako by to bylo na špici, tato myšlenka mluvit se zařízeními sahá zpět po desetiletí - téměř pokud jde o jetpacky ve sci-fi!

V dnešní době je velká část pozornosti věnovaná hlasové práci na chytrých telefonech. Apple, Amazon, Microsoft a Google jsou na vrcholu řetězce, z nichž každý nabízí svůj vlastní způsob, jak mluvit s elektronikou. Věděli jste, kdo jsou: Siri, Alexa, Cortana a bezejmenní “Dobře, Google” bytost. Což vyvolává velkou otázku…

Jak zařízení přijímá mluvená slova a mění je v příkazy, kterým rozumí? V podstatě jde o přizpůsobování vzorů a vytváření předpovědí na základě těchto vzorců. Přesněji řečeno, rozpoznávání hlasu je složitý úkol Akustické modelování a Jazykové modelování.

Akustické modelování: vlnové formy a telefony

Akustické modelování je proces pořizování průběhu řeči a jeho analýza pomocí statistických modelů. Nejběžnější metoda je Skryté Markov modelování, který se používá v tzv. modelování výslovnosti k rozdělení řeči na součásti nazývané telefony (nezaměňovat se skutečnými telefonními zařízeními). Společnost Microsoft je po mnoho let předním vědcem v této oblasti.

Skryté Markovovy modelování: Pravděpodobnostní stavy

Skryté Markovovy modelování je prediktivní matematický model, ve kterém je aktuální stav určen analýzou výstupu. Wikipedia má skvělý příklad s použitím dvou přátel.

Představte si dva přátele - místního přítele a vzdáleného přítele - kteří žijí v různých městech. Místní přítel chce zjistit, jaké je počasí, kde bydlí Remote Friend, ale Remote Friend chce jen mluvit o tom, co v ten den udělal: chodit, nakupovat nebo čistit. Pravděpodobnost každé aktivity v závislosti na denním počasí.

Předstírejte, že toto jsou jediné dostupné informace. Díky tomu může místní přítel najít trendy v tom, jak se počasí mění ze dne na den, a pomocí těchto trendů může začít učit hádání o tom, jaké dnešní počasí bude založeno na včerejší činnosti její kamarádky. (Schéma systému můžete vidět výše.)

Pokud chcete složitější příklad, podívejte se na tento příklad na Matlabu. Při rozpoznávání hlasu tento model v podstatě porovnává každou část průběhu s tím, co přichází dříve a co přijde, a se slovníkem průběhů, aby zjistil, co se říká.

V podstatě, pokud uděláte “tis” zvuk, zkontroluje ten zvuk proti nejpravděpodobnějším zvukům, které obvykle přicházejí před a po něm. Možná to znamená kontrolu proti “E” zvuk, “v” zvuk atd. Když vzor odpovídá správně, pak má celé vaše slovo. Jedná se o přílišné zjednodušení, ale zde můžete vidět celé vysvětlení společnosti Microsoft.

Jazykové modelování: více než zvuk

Akustické modelování pomáhá vašemu počítači pochopit vás dlouhou cestu, ale co homonymní a regionální variace výslovnosti? Zde přichází do hry jazykové modelování. Google vedl v této oblasti mnoho výzkumů, zejména pomocí N-gramové modelování.

Když se Google pokouší porozumět vaší řeči, činí tak na základě modelů odvozených od rozsáhlé banky hlasového vyhledávání a přepisů YouTube. Všechny tyto vesele špatné video titulky skutečně pomohly Googlu vyvinout jejich slovníky. Také použili odešel GOOG-411 ke shromažďování informací o tom, jak lidé mluví.

Celá tato sbírka jazyků vytvořila obrovskou škálu výslovností a dialektů, které vytvořily robustní slovník slov a jak znějí. To umožňuje shody, které mají výrazně sníženou chybovost než přizpůsobení hrubou silou na základě hrubých pravděpodobností. Zde si můžete přečíst krátký příspěvek popisující jejich metody.

Zatímco Google je v této oblasti lídrem, vyvíjejí se i další matematické modely, včetně souvislých kosmických modelů a pozičních jazykových modelů, což jsou pokročilejší techniky zrozené z výzkumu umělé inteligence. Tyto metody jsou založeny na replikaci toho, co lidé dělají, když si navzájem naslouchají. Jsou mnohem pokročilejší jak z hlediska technologie za nimi, ale také z matematiky a programování potřebného pro zmapování těchto modelů.

N-Gram Modelování: Pravděpodobnost setkává paměť

N-gramové modelování funguje na základě pravděpodobností, ale používá existující slovník slov k vytvoření větvícího se stromu možností, který je pak kvůli efektivitě vyhlazen. Svým způsobem to znamená, že N-gramové modelování odstraňuje spoustu nejistoty ve výše uvedeném skrytém Markovově modelování..

Jak je uvedeno výše, síla této metody vychází z toho, že máme velký slovník slova a používání, nejen primitivní zvuky. To dává programu schopnost rozeznat rozdíl mezi homofony, jako “porazit” a “řepa”. Je to kontextové, což znamená, že když mluvíte o skóre minulé noci, program netrhá slova o borščovi.

Tyto modely však ve skutečnosti nejsou pro jazyk nejlepší, hlavně kvůli problémům s pravděpodobností slov v delších frázích. Když do věty přidáte další slova, tento model se trochu ztratí, protože je nepravděpodobné, že by vaše počáteční slova načítala vše potřebné pro vaši úplnou myšlenku.

Implementace je však jednoduchá a snadná, díky čemuž se skvěle hodí pro společnost, jako je Google, která rád hází servery s výpočetními problémy. Můžete číst na N-gramu Modelieng na University of Washington, nebo si můžete prohlédnout přednášku na Coursera.

Křičí v oblacích: aplikace a zařízení

Každý, kdo použil Siri, zná frustraci pomalého síťového připojení. Je to proto, že vaše příkazy pro Siri jsou odesílány přes síť, aby je Apple dekódoval. Cortana pro Windows phone také vyžaduje síťové připojení, aby správně fungoval. Naproti tomu Amazon's Echo je pouze reproduktor Bluetooth bez jakéhokoli internetu.

Proč ten rozdíl? Protože Siri a Cortana potřebují pro dekódování vaší řeči těžké servery. Mohlo by se to provést na telefonu nebo tabletu? Jistě, ale během tohoto procesu byste zabil svůj výkon a výdrž baterie. Jen má větší smysl přenést zpracování na vyhrazené stroje.

Přemýšlejte o tom takto: vaším příkazem je auto uvízlé v bahně. Pravděpodobně byste to mohli vytáhnout sami s dostatečným časem a námahou, ale bude to trvat hodiny a necháte se vyčerpaní. Místo toho zavoláte silniční pomoc a oni vytáhnou vaše auto ven během několika minut. Nevýhodou je, že musíte zavolat a čekat na ně, ale je to stále rychlejší a méně zdanitelné.

Modely stolních počítačů, jako je Nuance, mají tendenci využívat místní zdroje kvůli výkonnějšímu hardwaru. Koneckonců, podle slov Steve Jobse je váš desktop náklaďák. (Což dělá to trochu hloupé, že OS X používá servery pro jeho zpracování.) Takže když potřebujete zpracovat jazyk a hlas, je již dostatečně dobře vybaven, aby s ním mohl pracovat sám..

Na druhé straně Android umožňuje vývojářům zahrnout do svých aplikací rozpoznávání řeči offline. Google se ráda dostává do popředí s technologií a můžete vsadit, že ostatní platformy získají tuto schopnost, protože jejich hardware bude výkonnější. Nikdo nemá rád, když špatné pokrytí nebo špatný příjem lobotomizují své zařízení.

Začněte používat hlasové příkazy nyní

Nyní, když znáte základní pojmy, měli byste si hrát s různými zařízeními. Vyzkoušejte nové hlasové psaní v Dokumentech Google Jak je hlasové psaní novým nejlepším prvkem Dokumentů Google Jak je hlasové psaní novým nejlepším prvkem Dokumentů Google Rozpoznání hlasu se v posledních letech zlepšilo mílovými limity. Začátkem tohoto týdne Google konečně zavedl hlasové psaní do Dokumentů Google. Ale je to dobré? Pojďme to zjistit! . Jako by sada webových kanceláří již nebyla dostatečně výkonná, hlasové ovládání umožňuje zcela diktovat a formátovat dokumenty. Rozšiřuje se o výkonnou technologii, kterou již navrhli pro Chrome a Android.

Mezi další nápady patří nastavení počítače Mac, aby používal hlasové příkazy Jak používat hlasové příkazy na počítači Mac Jak používat hlasové příkazy na počítači Mac a nastavení vaší Amazon Echo s automatickou platbou Jak Amazon Echo může udělat z vašeho domova chytrý domov Jak Amazon Echo může Udělejte si svůj domov chytrým domovem Inteligentní domácí technika je stále v počátcích, ale nový produkt od Amazonu s názvem „Echo“ může pomoci přivést jej do hlavního proudu. . Žijte v budoucnu a přijímejte rozhovory se svými gadgety - i když si právě objednáváte více papírových ručníků. Pokud jste závislí na smartphonu, máme také návody pro Siri 8 věcí, které jste si pravděpodobně neuvědomili, Siri mohl udělat 8 věcí, které jste si pravděpodobně neuvědomili, Siri mohl udělat Siri se stal jednou z definujících funkcí iPhone, ale pro mnoho lidí, není to vždy nejužitečnější. I když některé z nich jsou způsobeny omezením rozpoznávání hlasu, zvláštností používání ..., Cortana 6 Nejchladnějších věcí, které můžete ovládat pomocí Cortany v systému Windows 10 6 Nejchladnějších věcí, které můžete ovládat pomocí Cortany ve Windows 10 Cortana vám může pomoci jít hands-free ve Windows 10. Můžete jí nechat prohledávat vaše soubory a web, provádět výpočty nebo zvyšovat předpověď počasí. Zde se zabýváme některými z jejích chladnějších schopností. a Android OK, Google: 20 užitečných věcí, které můžete do svého telefonu s Androidem říci OK, Google: 20 užitečných věcí, které můžete do svého telefonu s Androidem říct Google Assistant vám může pomoci udělat na telefonu hodně práce. Zde je celá řada základních, ale užitečných příkazů OK Google, které můžete vyzkoušet. .

Jaké je vaše oblíbené používání hlasového ovládání? Dejte nám vědět v komentářích.

Image Credits: T-flex přes Shutterstock, Terencehonles přes Wikimedia Foundation, Arizona State, Cienpies Design přes Shutterstock