Den hÀr virala videon visar hur Pixels live rösttranskription absolut förstör iPhone: n (och varför den spelar nÄgon roll)

Vi vet alla att Googles taltranskriptionsteknologi Ă€r riktigt, riktigt, riktigt bra. Inte bara Ă€r det det bĂ€sta i branschen, det gör det utan en dataanslutning: Pixlar har transkriberat ljud pĂ„ enheten under en lĂ€ngre tid, och det Ă€r skyldigt Googles extremt imponerande transkriptionsalgoritmer som anvĂ€nder maskininlĂ€rningsmaskinvara pĂ„ dess smartphones. Men noggrannhet Ă€r det inte allt nĂ€r det gĂ€ller transkription, Ă€ven om det Ă€r den enskilt viktigaste funktionen – hastighet spelar ocksĂ„ roll.

En video postad av James Cham pĂ„ Twitter pits en Pixel 3 mot en iPhone 11 (som har en mycket mer kraftfull processor, kanske jag lĂ€gger till), med bĂ„da för att transkribera sin röst i realtid (iPhone anvĂ€nder iOS: s inbyggda transkription, inte Gboards – bara för att vara tydlig). Men skillnaden blir oerhört uppenbar inom nĂ„gra sekunder: Pixeln 3 visar orden inom ett ögonblick efter att Cham sĂ€ger dem, medan iPhone stammar, kĂ€mpar för att fĂ„ orden rĂ€tt, fixar dem sedan och pausar ofta innan de spottar ut en enorm ordstrĂ€ng efter en lĂ„ng fördröjning. I slutet av videon Ă€r iPhone hela sex sekunder bakom Pixel 3 i transkriptionen. IPhone innehĂ„ller ocksĂ„, av min rĂ€kning – inte inklusive texten i början som felaktigt lades av Cham – Ă„tminstone fem mycket betydande fel i sin transkription som Pixel inte gör.

Men Chams poĂ€ng handlar inte om noggrannhet, Ă€ven om det fortfarande Ă€r oerhört viktigt – det handlar om hur vi pratar och hur snabbt vi pratar och har stor inverkan pĂ„ upplevelser med datorer. Om en dator lĂ€tt kan hĂ„lla jĂ€mna steg med ditt tal i realtid blir det mycket lĂ€ttare att upptĂ€cka fel eller Ă€ndra tankar om vad du vill sĂ€ga nĂ€r du övervakar dess framsteg, vilket gör upplevelsen till en mycket mer naturlig interaktion. Det Ă€r lite som att be en stenograf att ta anteckningar kontra att skriva dem sjĂ€lv; med förstnĂ€mnda mĂ„ste du alltid be om att saker ska lĂ€sas tillbaka, och det tar tid. Med det senare har du total kontroll. NĂ€r det gĂ€ller textranskriptionsexemplet ovan kĂ€nner du mer frihet att gĂ„ tillbaka och omstrukturera den meningen eller vĂ€lja ett annat ord pĂ„ Pixel, medan iPhone Ă€r sĂ„ lĂ„ngt bakom att nĂ€r du vĂ€ntar pĂ„ att den ska komma i kontakt kan du tappa vĂ€l tanken (eller fortsĂ€tt bara av rĂ€dsla för det). Som ett svar sĂ€ger: hastighet Ă€r en funktion.

Det finns andra anvĂ€ndningsfall som i realtid rösttranskription sannolikt kommer att möjliggöra lĂ€ngs vĂ€gen, det Ă€r bara inte sĂ„ lĂ€tt att formulera dem Ă€nnu. Men jag har lĂ€nge haft tron ​​pĂ„ att barnen som vĂ€xer upp just nu kommer att vara de första att leva i en vĂ€rld dĂ€r att prata med datorer Ă€r regeln, inte undantaget, tack vare den snabba ökningen av smarta högtalare som Amazon Echo och Google Home. Precis som de allra första datormusarna och GUI-första operativsystemen förmodligen var ganska konstiga och till synes ineffektiva interaktionsparadigmer för dem som anvĂ€nde de tidiga personliga datorerna pĂ„ 1970-talet och början av 80-talet, har röstinteraktion mött mycket skepsis under Ă„ren. Och Ă€rligt talat var det förtjĂ€nt: tidigt taligenkĂ€nning var legitimt fruktansvĂ€rt (till exempel BMW: s mycket hatade iDrive debuterade med det 2001)! Men jag tror att det blir allt tydligare att tekniken kommer till sin egen och att vi kommer att uppleva en legitim förĂ€ndring i hur de flesta anvĂ€nder datorer som ett resultat.

Ur ett tillgĂ€nglighetsperspektiv Ă€r hastighet ocksĂ„ en oerhört relevant frĂ„ga nĂ€r det gĂ€ller röstigenkĂ€nning. För personer som frĂ€mst interagerar med datorer genom att prata med dem skapar den dators relativa förmĂ„gan att snabbt förstĂ„ deras tal snabbt ett mycket mer naturligt grĂ€nssnitt – ett som kĂ€nns mindre som att frĂ„ga en magi 8-Ball en serie frĂ„gor, i hopp om att det kommer att ge dig vad du vill, och mer gillar (om inte sĂ„ gott som Ă€nnu) Star Trek: The Next Generation. Snabbare svar innebĂ€r att mĂ€nniskor Ă€r mer benĂ€gna att stĂ€lla frĂ„gor i första hand, och en stor del av den hastighetsekvationen Ă€r den tid det tar en dator att förstĂ„ vad du har sagt.

Hur som helst, jag tyckte att den hÀr videon vÀckte nÄgra ganska intressanta tankar om röststyrning, tal, interaktioner med datorer i allmÀnhet och var det allt betyder att vi Àr pÄ vÀg. Jag tyckte ocksÄ om ytterligare ett exempel pÄ Google absolut whooping Apple pÄ alla saker AI.

0 Shares