Tem programas que transformam áudios em textos.
No smartphone você segura um botão e fala, e o Google pega o que você falou e pesquisa.
Um microfone na mesa do juiz, um microfone na blusa do advogado, um microfone na blusa do promotor, um programa que transforma o áudio em texto e um sistema que vai atribuir a fala a quem está falando e que vai registrar a hora da fala.
Isso pode ser feito de três formas:
A primeira é fazendo um sistema que detecta um falante por vez.
O juiz fala “Declaro o réu culpado”. O programa vai transformar essa fala em texto e o sistema vai detectar que esse áudio está vindo dos três microfones e que está vindo mais alto do microfone do juiz, e vai atribuir essa fala ao juiz.
O juiz fala “Declaro o réu culpado”. O programa vai transformar essa fala em texto e o sistema vai detectar que esse áudio está vindo dos três microfones e que está vindo mais alto do microfone do juiz, e vai atribuir essa fala ao juiz.
De 15:57:20 até 15:57:23, o juiz disse: "Declaro o réu culpado".
A segunda é fazendo um sistema que detecta vários falantes ao mesmo tempo.
O sistema detecta a fala: "Deixe ele falar ele ele o que não não ele quer estava pode falar na casa falar da vítima isso".
O sistema vai deixar os sons dos áudios dos 3 microfones mudos e vai ficar aumentando cada um deles até detectar uma fala.
Ele vai pegar o áudio do microfone do juiz, vai deixar ele mudo e vai ficar aumentando o som dele até detectar uma fala.
O sistema vai detectar a fala: "Deixe ele falar o que ele quer falar".
Ele vai pegar o áudio do microfone do advogado, vai deixar ele mudo e vai ficar aumentando o som dele até detectar uma fala.
O sistema vai detectar a fala: "Ele não estava na casa da vítima".
Ele vai pegar o áudio do microfone do promotor, vai deixar ele mudo e vai ficar aumentando o som dele até detectar uma fala.
O sistema vai detectar a fala: "Ele não pode falar isso".
A terceira é fazendo um sistema que detecta vários falantes com diferentes tons ao mesmo tempo.
O sistema detecta a fala: "Deixe ele falar ele ele o que não não ele quer estava pode falar na casa falar da vítima isso".
O sistema vai deixar o som dos áudios dos 3 microfones mudos e vai ficar aumentando cada um deles até detectar quem falou cada sílaba dessa fala.
O sistema vai fazer o programa transformar em texto o áudio do microfone do juiz com o som a 1% e vai procurar uma fala nele, depois vai fazer isso no áudio do microfone do advogado com o som a 1%, depois no áudio do microfone do promotor com o som a 1%, depois no áudio do microfone do juiz com o som a 2%, depois no áudio do microfone do advogado com o som a 2%, depois no áudio do microfone do promotor com o som a 2%, até encontrar quem falou cada sílaba dessa fala.
Quando o som do áudio do microfone do promotor chegou a 10%, o sistema detectou a fala: "Ele não pode falar isso". O sistema vai atribuir essa fala ao promotor.
Quando o som do áudio do microfone do juiz chegou a 15%, o sistema detectou a fala: "Deixe". O sistema vai atribuir essa fala ao juiz.
Quando o som do áudio do microfone do juiz chegou a 17%, o sistema detectou a fala: "Deixe ele falar o que ele quer falar". O sistema vai atribuir a parte da fala que ele acabou de encontrar ao juiz.
Quando o som do áudio do microfone do juiz chegou a 15%, o sistema detectou a fala: "Deixe". O sistema vai atribuir essa fala ao juiz.
Quando o som do áudio do microfone do juiz chegou a 17%, o sistema detectou a fala: "Deixe ele falar o que ele quer falar". O sistema vai atribuir a parte da fala que ele acabou de encontrar ao juiz.
O juiz mudou o tom de voz durante a fala.
Quando o som do áudio do microfone do advogado chegou a 19%, o sistema detectou a fala: "Ele não pode falar isso". O sistema não vai atribuir essa fala ao advogado, porque ele já atribuiu essa fala dita nesse mesmo tempo ao promotor.
O promotor falou tão alto que no microfone do advogado, a voz dele saiu mais alta do que a voz do próprio advogado.
Quando o som do microfone do juiz chegou a 20%, o sistema detectou a fala: "Deixe ele falar ele o que não ele quer pode falar falar isso".
Quando o som do microfone do advogado chegou a 23%, o sistema detectou a fala: "Ele ele não não estava pode na casa falar da vítima isso". O sistema vai atribuir a parte da fala que ele acabou de encontrar ao advogado.
O primeiro áudio que o sistema detectar uma fala, significa que nesse áudio essa voz está com o som mais alto.
A voz estar com o som mais alto em um áudio, significa que ela foi dita mais perto do microfone que gravou esse áudio, do que dos outros microfones.
De 19:52:32 até 19:52:37, o juiz disse: "Deixe ele falar o que ele quer falar".
De 19:52:34 até 19:52:39, o advogado disse: "Ele não estava na casa da vítima".
De 19:52:35 até 19:52:40, o promotor disse: "Ele não pode falar isso".
Vai ter um microfone na cadeira atrás do advogado e um microfone na cadeira atrás do promotor, para registrar o que o público falar e para que o que o público falar, não seja atribuído ao advogado e ao promotor.
Não podemos mais ter escrivães.
Nenhum comentário:
Postar um comentário