Repare na imagem acima. Deve ter notado que a definição fornecida pelo dicionário Priberam acerca do seu próprio nome tem duas descrições. É que ele é um dicionário, sim, mas também uma empresa especialista no desenvolvimento de software para quatro áreas. Já lá vamos: há que começar por aquilo que o tornou mais conhecido.
É engraçado como tantas vezes nos esquecemos que existem pessoas por detrás das ferramentas que repetidamente usamos. Nesta descrição ficou a faltar e etimologia da palavra.“Pri” refere-se a João Prieto, “ber” a João Bernardo e “am” a Carlos Amaral.
Foram estes três amigos — e antigos colegas do curso de Engenharia Eletrotécnica, do Instituto Superior Técnico — que fundaram a empresa e, posteriormente, criaram o dicionário que tantos de nós consultam diariamente. Tinham 26 anos quando tudo começou. Já estavam formados e empregados no Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa quando decidiram criar a empresa
“O João Bernardo saiu pouco tempo depois de criarmos a empresa. Juntaram-se logo de seguida o Afonso Mendes e Pedro Amaral, os outros dois sócios atuais da empresa", esclarece Carlos Amaral à MAGG.
Nesta história de 30 anos há vários capítulos. Naquele em que estamos atualmente, a equipa da Priberam é constituída por 26 pessoas (engenheiros, linguistas, juristas, administrativos e comerciais) e estão em cima da mesa vários projetos. Mas há coisas que não mudam: a palavra continua a ser a protagonista do trabalho por aqui desenvolvido, aquele que todos os dias nos impacta sem que tenhamos noção disso. Sabe o motor de busca do jornal "Público"? É criação deles. Também já lá vamos.
Primeiro, o dicionário
O Priberam é de consulta gratuita, portanto está longe de ser a maior fonte de receitas do grupo. Ainda assim, é com muito carinho que Carlos Amaral, um dos fundadores e sócios da empresa, fala à MAGG sobre este projeto.
Uma das coisas que mais queríamos saber nesta entrevista: mas, afinal, de onde é que vêm as palavras incluídas num dicionário? Quem é que as seleciona? E quem é que decide quais as suas definições?
No caso do Priberam, a história começa em parceria com a Porto Editora. "Usámos o conteúdo deles e criámos um software para poder ser consultado online e poder conjugar verbos, sinónimos, antónimos, consoante o conteúdo do próprio dicionário.”
Quando esta editora quis ter o seu próprio dicionário integrado no site, o software criado pela Priberam passou a incluir os termos da Texto Editora. Depois disto, já no século XXI e há pouco mais de dez anos, quiseram autonomizar-se. "Decidimos que íamos comprar um dicionário, porque havia muitas outras coisas que podiam ser feitas. Queríamos criar mais possibilidades e não estar dependentes de um terceiro. “
Foi então que adquiriram uma versão antiga do dicionário Lello, que já não era editada desde a década de 80. "Comprámos os direitos daquele dicionário, pusemos uma equipa de pessoas a trabalhar sobre ele, equipa essa que tinha uma experiência grande sobre como se fazia um dicionário”, lembra. "[A equipa] pegou naquele dicionário que era antigo, fez uma revisão de todo o conteúdo, preparou-o para o Novo Acordo Ortográfico, para o português do Brasil, portanto logo a pensar logo num mercado global.”
E assim consolida-se o primeiro dicionário online onde é possível pesquisar segundo várias linhas, que não apenas o português europeu — e que é também o meio de consulta online mais popular no Brasil. Hoje têm muitos milhões de visitas mensais, de todos os cantos mundo. Até de onde, à partida, não se fala português. "Às vezes ficamos impressionados com alguém que procura uma palavra a partir do Pacífico."
A popularidade do dicionário, altamente utilizado no mercado brasileiro, cresceu ainda mais quando a empresa foi procurada pela Amazon. "A Amazon quis lançar o Kindle no Brasil — em cima da palavra aparece a sua definição. Para o inglês têm o dicionário de Oxford e para o Brasil escolheram o dicionário do Priberam. Os Kobos [leitores de livros digitais] depois também quiseram incorporar o nosso dicionário."
Como a atualidade influencia o dicionário
Trabalhar com palavras tem muito que se lhe diga. É que, como explica Carlos Amaral, também elas são um fortíssimo reflexo daquilo que se vive a dado momento. Basta olhar para a nuvem dos termos mais pesquisados neste site, sempre presente na página inicial (e que deixamos na imagem abaixo).
"Fomos percebendo que quando uma determinada palavra aparece na nuvem é porque alguma coisa relacionada está a acontecer. Normalmente tem que ver com notícias. Geringonça foi uma delas. Ou se alguém disse alguma coisa num 'Big Brother Brasil', por exemplo, também é comum aparecer uma palavra que tenha sido usada.”
E nem o dicionário foge às exigências dos tempos, não fossem significados um meio de propagação de ideias. Veja-se o projeto em que a Priberam esteve envolvida há dois anos. “Tivemos também um desafio que nos foi lançado por uma agência de publicidade, que trabalha com o canal Fox, e que passava por redefinir a palavra mulher.”
A ideia de dar uma nova definição ao termo estava relacionado com estas tais exigências e mudanças dos tempos. “Havia coisas a melhorar e o desafio foi esse: redefinir a palavra ‘mulher’ no dicionário Priberam. Criaram um site em que as pessoas davam sugestões sobre qual é que devia ser a definição. Muitas brincaram, mas limpando tudo encontrou-se material suficiente para uma revisão deste termo e de uma série de outros relacionados. Depois publicámos. Foi uma iniciativa engraçada.”
Este é um dos problemas pelos quais os dicionários passam. As palavras e a língua evoluem e os termos contêm mais do que um significado. Alguns deixam de ser bem vistos, sobretudo nos tempos que não raras vezes têm sido descritos como os do politicamente correto. No conjunto das conotações atribuídas a determinadas palavras, algumas são pejorativas. “Isto já tinha acontecido com palavras como: cigano, judeu, galego”, exemplifica.
Judeu, por exemplo, do lado mais objetivo é referente a um indivíduo que segue a religião judaica. De um lado mais subjetivo e popular, é costume servir de adjetivo para caracterizar alguém muito agarrado ao dinheiro.
Devem ou não retirar-se essas aceções do dicionário? "O que se diz, com alguma razão, é que aquilo perpetua aquele sentido. Mas, por outro lado, do lado da língua, da cultura e da história, não se deve perder”, considera. “Tem é de estar lá marcado. Deve vir explicado que o termo não deve ser usado por esta razão. Temos de ser o mais objetivos, seguindo uma série de critérios científicos e linguísticos para pôr ou não pôr uma palavra, rever não rever, tirar ou não tirar. Há um grande cuidado.”
Lembra-se das disquetes do Flip?
Vamos dar um salto temporal e recuar aos tempos de uma Priberam embrionária. Curiosamente, tudo começa com a criação de outra ferramenta que muitos de nós conhecem. Sabe quando no Word, ao dar erros ortográficos ou sintáticos, as suas palavras ficam sublinhadas a vermelho e a verde? Exato, também foram eles.
Foi este projeto que fez nascer a Priberam empresa. “Surgiu em 91 ou 92. Recebemos o contacto de um instituto que tinha uma lista de palavras com a qual se podia fazer um corretor. Mas faltava toda a parte de desenvolvimento de software. E foi isso que fizemos: desenvolvemos o primeiro corretor ortográfico para português Europeu [já havia para português do Brasil], conta Carlos Amaral.
Criado o FLIP, o único corretor de português europeu naquela altura, junta-se outro interveniente à história: ”Fomos ter com a Microsoft que tinha acabado de chegar a Portugal e que não era o que é hoje e dissemos-lhes que queríamos integrar o nosso software na empresa deles”, lembra Carlos Amaral. “Assim, iniciou-se uma relação que durou muitos anos e que acabou com eles a licenciaram o corretor ortográfico no Office. Mais à frente, foi a vez do corretor sintático.”
Ainda nos anos 90, avançaram com o FLIP para o mercado dos media: “Eram os que mais queriam ter acesso a esta ferramenta”, conta. O primeiro a contactar a Priberam foi o Grupo Impresa. Queriam ter a ferramenta nos sistemas deles. Depois veio o jornal "A Bola".
“Falávamos com a empresa que implementava o sistema usado na redação e percebíamos como é que podíamos integrar o corretor. Eles davam a informação técnica e nós tratávamos do resto.”
Mas toda a gente podia ter acesso a esta ferramenta. Se é desta altura, provavelmente lembra-se de ver o FLIP à venda em lojas como a Fnac. “Existia na forma de CD — antes houve em disquete — que era instalado nos computadores das pessoas.”
Só que a tecnologia evoluiu. Hoje o FLIP continua a existir, muitos de nós continuamos a usá-lo, mas não lhe podemos tocar ou sequer ver. “Está na nuvem, num servidor nosso. Qualquer pessoa quando está a escrever num Wordpress, [caso tenham a subscrição do serviço e respetivo plugin], esteja onde estiver, em qualquer parte do mundo, consegue ligar-se ao nosso servidor, que verifica os textos automaticamente, sem ter nada instalado no próprio computador.”
Do LegiX aos artigos relacionados de jornais portugueses
“Curiosamente, nunca perdemos a linha da língua portuguesa”, observa Carlos Amaral. Desde os tempos do corretor sintático do FLIP que a empresa tem vindo a desenvolver trabalho numa área a que se dá o nome de Processamento de Linguagem Natural. De uma forma muito descomplicada, trata-se de “pôr os computadores a perceberem as linguagens”.
Um dos projetos mais determinantes para a evolução da empresa, após o FLIP, terá sido o LegiX — hoje utilizado pelo governo, ministérios, tribunais, sociedades de advogados, grandes empresas com departamentos jurídicos, institutos públicos, câmaras municipais.
"É uma base de dados jurídica, que condensa toda a informação que os advogados, juízes, notários precisam de ter num único sítio", explica Carlos Amaral. "Mais uma vez, é um percurso que apanha uma evolução tecnológica muito grande: começámos com um sistema que se instalava no computador do advogado, em que mensalmente enviávamos uma disquete com as informações novas, por correio.”
Atualmente com uma base de dados com milhões de documentos, agora atualizados à hora, é importante falarmos neste LegiX porque é daqui que se parte para outra ferramenta de negócio.
Tanto o FLIP como o LegiX sabem ler. Literalmente: conseguem entender que uma frase é muito mais do que um conjunto de palavras isoladas — entendem que existe um sujeito, um verbo, predicados, nomes ou artigos. “Aquilo que passa a ter muito mais valor, porque conseguimos extrair informação de texto e torná-la útil.”
E é isso que têm estado a fazer. Com este know-how, voltam a disponibilizar ao mercado dos media ferramentas importantes, frequentemente utilizadas por todos os consumidores.
Primeiro, vieram os motores de pesquisa semântica (aqueles que ficam no canto superior direito da página, com a lupa) implementados nos jornais “Público” ou grupo Cofina. Depois, veio um sistema que, automaticamente, consegue perceber quais é que são as preferências dos leitores destes mesmos meios de comunicação social.
Este último software faz mais do que sugerir notícias com base no artigo que o leitor está a ler. Ele é mais esperto. Lá está, porque sabe ler: interpreta os textos que os consumidores abrem, portanto passa também a conhecer-lhes os gostos e preferências. Cria-lhes um perfil e mostra-lhes conteúdo que vá ao encontro dos seus hábitos e, consequentemente, gostos.
Mas, garante Carlos Amaral, há um especial cuidado com as “bolhas”. “O nosso software permitiu criar uma recomendação mais personalizada, mas tendo sempre cuidado com as chamadas bolhas, que surgem quando a pessoa de repente passa a ler sobre o mesmo tema, o tempo todo, perdendo notícias que depois são muito relevantes.”
A Priberam também está escondida na BBC
Entretanto, a empresa já chegou aos media britânicos, para quem desenvolveu sistemas muito sofisticados de monitorização de notícias. Neste capítulo da história, tudo começou com um projeto europeu, que arrancou há quatro anos, em que o objetivo passava por arranjar uma tecnologia capaz de responder às dificuldades da equipa da BBC.
Era preciso resolver um problema: com um fluxo de notícias tão intenso e veloz, as equipas de monitorização não estavam a conseguir dar conta de tudo aquilo que estava a acontecer em todos os canais e redes sociais.
É que na era do mundo digitalizado, tudo acontece a mil à hora. "Aquela equipa não conseguia escalar em termos de quantidade. Quiseram arranjar tecnologia de forma a que o processo fosse todo mais autónomo. Foi esse o desafio que lançaram: foi feito um consórcio de vários países em que nós ficámos responsáveis pela parte do processamento de língua. E já não era só português: era português, inglês, alemão, árabe."
Assim, criaram um software capaz de fazer transcrição da fala dos canais para texto. “A partir do momento em que temos o texto, podemos começar a perceber sobre o que é que aquilo fala.”
Percebendo isto, o sistema oferece à equipa de monitorização um sumário, um resumo, com os tópicos, acontecimentos mais relevantes e repetidos em relação a um tema. ”Aquelas 200 notícias que falam sobre um tema aparecem no mesmo sítio, num único sumário. Depois, o jornalista ou pessoa da equipa de monitorização, pode ler as 200 notícias agregadas ou ler as fontes mais credíveis, sugeridas pelo próprio sistema.”
É, nós também não estávamos à espera.