Szájról olvasni tanul a Google
A Google folyamatosan fejleszti szolgáltatásait, a digitális személyi asszisztenseknél azonban belefutott egy érdekes problémába: a beszédfelismerés nagyon jól működik akkor, ha csak a beszélő hangját hallani, illetve háttérzajokat, viszont a szoftver gondban van akkor, ha egyszerre többen is beszélnek. Márpedig ilyen elég gyakran előfordul. Ez persze nem véletlen: a Google algoritmusa a gépi tanulás révén több (tíz)ezer féle hangmintát ismer fel, és ezeket nagyon hatékonyan ki tudja szűrni egy hangfelvételről, azonban ez a módszer arra nem alkalmas, hogy több beszélő hangját el lehessen különíteni egymástól.
A fejlesztők ezért egy másik megoldást választottak: készítettek egy olyan algoritmust, amely a beszélők arcát, elsősorban a szájmozgást figyeli, és az így szerzett extra információkat használja fel ahhoz, hogy a hangfelvételen szereplők beszélgetéseit külön-külön rögzítse.
Egyelőre nem tudni, hogy a Google pontosan mihez szeretne kezdeni a technológiával; az biztos, hogy a megoldás a digitális személyi asszisztensek működését pontosítani tudja, de könnyen elképzelhető a felhasználása orvosi területen is. Javítható vele továbbá az automatikus feliratkészítő rendszerek hatékonysága is, amelyek eléggé küszködnek akkor, ha egyszerre többen is beszélnek. Egyelőre a lehetőségek értékelése folyik; de annyi azért biztos, hogy a Google először a saját szolgáltatásait szeretné majd felturbózni az újdonsággal.

