Szájról olvasni tanul a Google

Legfrissebb hírek

Bemutatkozott a Nothing Phone (4a) és (4a) Pro

Teljesítmény alapján mind a kettő elég szerény fejlődést tud csak felmutatni.

2026. március 5., 17:47

Mini jegyzetelős tabletet készített a Huawei

A MatePad Mini több olyan módosítást is kapott, amivel ideális társ lehet feljegyzések készítéséhez.

2026. március 4., 15:41

Rárepül az adatvédelemre a Motorola

A Motorola bejelentette, hogy együttműködési megállapodást kötött a GrapheneOS-t fejlesztő GrapheneOS Foundationnel.

2026. március 4., 13:05

Sokat akar a Lenovo Go Fold: tablet, konzol és notebook egyben

Egyszerre játékkonzol, tablet és hordozható számítógép is lenne a Go Fold, amit többféleképpen is lehet hajtogatni.

2026. március 4., 11:22

Pinokkió orránál is hosszabb a Vivo X300 Ultra „kamerája”

A Vivo X300 a fotózásra koncentrál, bár ezt alighanem felesleges mondani: vannak árulkodó jelek.

2026. március 4., 09:18

Tovább a hírekhez

A Google folyamatosan fejleszti szolgáltatásait, a digitális személyi asszisztenseknél azonban belefutott egy érdekes problémába: a beszédfelismerés nagyon jól működik akkor, ha csak a beszélő hangját hallani, illetve háttérzajokat, viszont a szoftver gondban van akkor, ha egyszerre többen is beszélnek. Márpedig ilyen elég gyakran előfordul. Ez persze nem véletlen: a Google algoritmusa a gépi tanulás révén több (tíz)ezer féle hangmintát ismer fel, és ezeket nagyon hatékonyan ki tudja szűrni egy hangfelvételről, azonban ez a módszer arra nem alkalmas, hogy több beszélő hangját el lehessen különíteni egymástól.

A fejlesztők ezért egy másik megoldást választottak: készítettek egy olyan algoritmust, amely a beszélők arcát, elsősorban a szájmozgást figyeli, és az így szerzett extra információkat használja fel ahhoz, hogy a hangfelvételen szereplők beszélgetéseit külön-külön rögzítse.

Egyelőre nem tudni, hogy a Google pontosan mihez szeretne kezdeni a technológiával; az biztos, hogy a megoldás a digitális személyi asszisztensek működését pontosítani tudja, de könnyen elképzelhető a felhasználása orvosi területen is. Javítható vele továbbá az automatikus feliratkészítő rendszerek hatékonysága is, amelyek eléggé küszködnek akkor, ha egyszerre többen is beszélnek. Egyelőre a lehetőségek értékelése folyik; de annyi azért biztos, hogy a Google először a saját szolgáltatásait szeretné majd felturbózni az újdonsággal.