((em construção))

SIGLAS BRASILEIRAS

As siglas brasileiras não são apenas um recurso de linguagem para encurtar a conversa, enxugar o texto quando o espaço é reduzido. Elas fazem parte do vocabulário oficial da Língua Portuguesa do Brasil e dos padrões oficiais de identificação.

As siglas dos estados, por exemplo, foram criadas e são mantidas pela "autoridade das sigla de UF", que é o IBGE. Existem leis e normas técnicas oficializando o uso nacional, assim como um tratado internacional com a ISO reforçando o seu uso. O Brasil é signatário do padrão ISO 3166, e a autoridade do padrão ISO 3166-2:BR.

Estabelecer as regras e o bom uso dos códigos, siglas e abreviações oficiais, como se percebe, é um ato de soberania nacional.

Nas siglas de municípios não é muito diferente. A "autoridade definidora do nome" é o próprio município. A autoridade definidora do respecitivo código numérico, bem como manter a lista de todos os nomes oficiais, é o IBGE. Já a sigla de 3 letras do nome do município, não apresenta ainda hoje um padrão tão bem consolidade, nem uma autoridade única, conforme veremos.

Siglas de país e estado

São todas bem conhecidas e consoliadas: AC é Acre, AM é Amazonas, ... São as siglas do IBGE que se tornaram também elementos da comunicação internacional através da ISO 3166-2:BR.

Regra geral para uso contextualizado das siglas de país e estado:

Sigla de 3 letras do município

Considerações sobre a padronização das siglas de 3 letras para a identificação municípios. Apesar de terem sido propostos e setorialmente adotados alguns padrões de codificação, eles são incompativeis e distintios. Os principais são:

Na seção Padrão Estadual, abaixo, é apresentado o exemplo de SP. Atualmente o poder Executivo de SP está regulamentando de forma mais ampla o uso das siglas do DER/SP, sendo prevista a publicação de decreto estadual relativo ao assunto.

Padrão estadual

É o escopo correto para se obter siglas boas ou razoáveis, bons mnemônicos para o cidadão. A média de municípios por estado é ~210 (mediana ~140) e o pior caso é MG com ~850 municípios. Praticamente todos estão dentro do limite razoável de 500 nomes, e mais 50% dos municípios satisfaz a condição de |C|<150, para ter boas siglas.

Abaixo uma amostra da lista completa de todas as abreviações de municipios de São Paulo:

AAG (Alto Alegre), AAI (Aguaí), ABR (Américo Brasiliense), ACD (Aparecida), ACP (Américo de Campos), ADD (Andradina), ADF (Adolfo), ADM (Adamantina), ADT (Aparecida d'Oeste), AEI (Areias), AEP (Areiópolis), AFM (Alfredo Marcondes), AGD (Agudos), AGL (Águas de Lindóia), ...
..., PBT (Pereira Barreto), PBU (Pacaembu), PCT (Piacatu), PDB (Pedra Bela), PDD (Piedade), PDH (Pindamonhangaba), PDM (Pindorama), PDN (Pederneiras), PDP (Pradópolis), PDR (Pedreira), PEP (Pedrinhas Paulista), PFR (Porto Ferreira), PFZ (Porto Feliz), PGA (Porangaba), PGH (Pedregulho), PGI (Pirangi), PGP (Paraguaçu Paulista), PGR (Pitangueiras), PGT (Pontes Gestal), PIR (Piracicaba), PIZ (Pinhalzinho), PLC (Paulicéia), PLF (Paulo de Faria), PLN (Paulínia), PLO (Palmeira d'Oeste), PLP (Palmares Paulista), PLS (Pilar do Sul), PLT (Planalto), PMP (Pompéia), PMT (Palmital), PNG (Pirassununga), PNL (Pedranópolis), PNP (Penápolis), PNR (Panorama), POA (Poá), POG (Pongaí), POL (Poloni), PON (Pontal), POT (Potim), PPL (Populina), PPM (Paranapanema), PQA (Pariquera-Açu), PQB (Piquerobi), PQT (Piquete), PRA (Pracinha), PRB (Peruíbe), PRC (Piracaia), PRD (Pardinho), PRG (Praia Grande), PRI (Pirajuí), PRJ (Piraju), PRN (Paranapuã), PRP (Parapuã), PRR (Pereiras), PRS (Paraíso), PRT (Pratânia), PSA (Presidente Alves), PSB (Presidente Bernardes), ...
..., UBT (Ubatuba), UCH (Uchoa), UJR (Ubirajara), UNP (União Paulista), URN (Urânia), URP (Urupês), URU (Uru), VAR (Vargem), VAT (Vista Alegre do Alto), VCR (Vera Cruz), VGP (Vargem Grande Paulista), VGS (Vargem Grande do Sul), VLG (Valentim Gentil), VLH (Valinhos), VNH (Vinhedo), VOT (Votorantim), VPS (Valparaíso), VRD (Viradouro), VTB (Vitória Brasil), VTG (Votuporanga), VZP (Várzea Paulista), ZAC (Zacarias).

A recomendação para que as siglas sejam mnemônicas, já apresentada acima neste mesmo apêndice, é que se use sempre o "escopo Estado", jamais escopo nacional. Tecnicamente dizemos isso afirmando que o namaspece é o conjunto de municípios de um estado. A rigor são dois estados que fogem ligeiramente do limite de ~500 nomes por namespace. Por isso, na metodologia de construção ou revisão das siglas do DER, os estados de MG e SP deveriam estabelecer regras justas de escolha, com critérios objetivos. A escolha de boas siglas priorizaria, por exemplo, a capital, as cidades com nomes curtos e as ~200 cidades com projeção de população maior que as demais.

Para os demais estados os procedimentos de revisão são igualmente válidos, mas não parece ser necessário sugerir tal acréscimo de complexidade. Cabe a cada "comunidade do estado" avaliar a sua tabela de siglas, antes de decidir se submete ou não a tabela DER do seu estado a uma revisão.

Revisões de tabelas DER só fazem sentido dentro da perspectiva de uma iniciativa conjunta das prefeituras e/ou as câmaras municipais dos municípios "lezados". Seriam a parte legítima em um pedido conjunto de revisão na tabela do seu estado, antes de iniciar um processo de maior investimento no uso das siglas oficiais.


Fundamentação e demonstração dos limites

A seguir os subsídios e a demonstração de que a única escolha viável para "siglas mnemônicas" é a padronização por estado. A padronização em escala federal, para se eleger um só grupo de ~5600 siglas de 3 letras, é viável apenas quando a sigla é reduzida a "código arbitrário".

Quase hashes

O conceito já amplamente estudado e difundido de função hash ajuda a conceber as "funções sigla", que convertem um nome qualquer em um código de 3 letras que seja percebido (pelo humano) como uma sigla.

Enquanto a função hash H(x) devolve um número diferente para cada nome x de um conjunto X, a função sigla S(x) devolve um código de letras mnemônico (que faz lembrar do nome).

Os principais coceitos trazidos da teoria das funções hash são

Conceito definição no escopo de H(x) definição no escopo S(x)
colisão Quando dá o azar de dois elementos de X, digamos x1 e x2, resultarem em H(x1)=H(x2). Idem, há colisão quando S(x1)=S(x2).
domímio Conjunto de todos os possíveis nomes, X. idem.
contra-domímio Conjunto de todos os possíveis resultados de H(x), conjunto C. Mais específico: todos os possíveis resultados de S(x) são todas as combinações de 3 letras do alfabeto utilizado por X. Se usar 26 letras, teremos |C|=26³=17576.
probabilidade de colisão Problabilidade P(H,X) em função do número do tamanho do contra-domínio, |C|. Idem.

Em caso de colisão a função hash tradicional, H(x), apenas evita repetição, enquanto a função sigla segue uma ordem de tentativas, começando pelas tentativas de percepção p mais amigável (p=0 significa zero-pior), e recorrendo depois das colisões a valores p=1, p=2, etc. até um valor p=N pior de fato. A rigor portanto a função sigla usa também p como parâmetro que muda com o número de colisões, S(x,p).

O compromisso com a percepção humana pode demandar um certo refinamento, o que nos obriga a considerar duas classes distintas de funções sigla:

  1. Funções estatísticas S(x,p,Q), mais refinadas: que requerem uma análise prévia do conjunto X para escolher a melhor estratégia. Análise de frequência de letras por exemplo é um tipo de análise prévia. Supondo que o resultado de uma análise seja o conjunto Q de frequências, desvios ou outros indicadores quantitativos, a função sigla será parametrizada por S(x,p,Q). Casos de agrupamentos, tais como metaphones, podem ser modelados por Q(x).
    No caso de nomes de município basta tomar o cuidado de usar apenas estatísticas válidas para uma perspectiva de décadas, ou seja, usar uma análise estatística mais geral e grosseira é permitido.

  2. Funções autônomas S(x,p): a função não "olha" para o conjunto X ou outros elementos, só para o elemento x em questão.

NOTA: existe ainda o caso espacial de sinônimos x' de x que são utilizados como primeira opção para a aplicação de S(x,p), ou seja, descarta-se S(x,p_i) quando p_i não levar a um resultado compativel com x'. Vide os ~50 casos de abreviações votadas no Registro-BR, tais como POA, Sampa, Jampa, etc. O critério de compatilidade é simplesmente confirmar que as letras do resultado r sejam letras presentes em x' e numa mesma ordem.

Siglas boas, mnemônicas

A "sigla mnemônica" para nome de município é aquela que é fácil do cidadão lembrar, em geral porque cumpre um uma regra óbvia de formação. Mesmo quem é moradodor da cidade, só vai decorar a sigla se ela parecer importante. E vai ser menos importante a sigla da cidade vizinha, menos importante ainda de uma cidade de outro estado.

O que fica na memória é a "sigla que pega", que é fácil lembrar. Siglas e abreviações, assim como siglas derivadas de abreviações já populares. As abreviações "Sampa" para São Paulo e "POA" para Porto Alegre são exemplos que pegaram. No caso de Sampa, poderia ser reduzida para SPA, de modo a preservar apenas letras do nome original, e causando menos estranheza que "SAL" ou "SPO".

A seguir algumas regras consensualmente (consulta pública preliminar) aceitas como "boas" para se formar uma sigla de 3 letras fácil de lembrar:

Regra Exemplos Notas
R1. Primeiras três letras do primeiro nome AGU (Agudos), BEL (Belém de Maria), EMB (Embu das Artes), ITU (Itu), SUZ (Suzanópolis) Principal regra por ser mais óbvio e natural.
Como as demais tem seus limites, colisões surgem aos montes em nomes prefixados como "São".
R2. Principais Iniciais na sequência SJC (São José dos Campos), SCE (Santa Cruz da Esperança), SRQ (Santa Rita do Passa Quatro) Primeira letra de cada palavra, ignorando preposições ou contrações. No caso de mais que 3 palavras, eleger a inicial seguida das mais usadas para se referir ao município (ou as que apresentem letra menos frequente).
R2b. Principais Iniciais pulando uma ou duas palavras SRQ (Santa Rita do Passa Quatro) Variação de R2 porém pulando Primeira letra de cada palavra, ignorando preposições ou contrações.
R3. Inicial seguida das primeiras consoantes AGD (Agudos), BLM (Belém de Maria) Equivale a deletar as vogais e depois aplicar a regra R1.
R4. Inicial da primeira palavras seguida de primeiras letras de uma palavra subsequente SPA (São Paulo), BMA (Belém de Maria) Usada em nomes compostos que tenha 2, 4 ou mais palavras, ignorando preposições.
... ... ...

Em negrito as siglas "oficiais" (Anatel ou DER). No caso do "teste de qualidade da sigla", por exemplo para comparar o resultado da Anatel como o resultado do DER, as regras porporcionam uma avaliação objetiva para pontuar as escolhas de abreviação realizadas.

É possível criar um "padrão de abreviação" a partir das regras. A vantagem do uso de regras é que também fica estabelecido um referencial do que é justo, ou seja, não deixa de contemplar nenhum dos ~5600 municípios, não há risco da proposta se preocupar mais com a sigla de um nome e menos com a sigla de outro.

A sequência de regras a ser usar a cada colisão, primeiro R1, depois R2, R3, etc. é só sugerida, uma definição mais rigorosa precisa ser dada ao se eleger um algoritmo. A finalidade das regras aqui é apenas avaliar o perfil estatístico, por exemplo das abreviações Anatel.

Evitando colizões

Um importante modelo, muito usado na teoria das funções hash, fazendo uso do princípio do pombal no contexto conhecido como "paradoxo do aniversário", permite avaliar a probabilidade de colisão em uma "hash perfeita":

No caso das abreviações de 3 letras pode-se simular como se fossem resultados (hashe digests) de 12 a 15 bits (3×4bits para simular alfabeto de 16 letras, 3×5bits para alfabetos de 32 letras). O total de combinações no alfabeto convencional é 26³~17600, mais próximo de 14 bits do que de 15. As funções usuais de colição (exemplo) avaliam apenas a chance da colisão depois de ter obtido a penúltima sigla. Na prática é mais razoável conferir quantos itens podem ser inseridos antes da chance de colisão ultrapassar os 50%. Os resultados para 14 bits são:

Disso se conclui que a busca por siglas de qualidade razoável é praticamente impossível depois de obtidas as primeiras 500 siglas de 3 letras, e que elas serão garantidamente boas siglas apenas no inicio, até as primeiras 150.

Na prática, como vimos, existem mais de quatro regras consensualmente consideradas boas, de forma que seriam permitidas 3 ou 4 colisões antes de considerar "qualidade menor". Esse dado precisa ser levado em conta num modelo de probabilidades... Mas foge ao escopo do presente rascumho formular um modelo mais sofisticado. Podemos esboçar para dar uma ideia das contas, argumentos e conclusões:
a segunda, terceira e quarta tentativas caem no mesmo problema, devendo ter as suas chances multiplicadas para resultar em falha...
Por exemplo com 200 itens já eleitos, são 70% de chances na primeira tenativa, 70% na segunda, 70% na terceira, portanto 70%^3 = 30% de chances de falha. Com 300 itens 90%^3 = 73% de chances ... E com 500 chegamos ao limiar de 99,9%^3 = 99,7%, continua sendo ~100%. No 100% o que se pode fazer é escolher "uma vaga qualquer" entre as siglas que sobram, sem chance de fazer uma boa escolha.

Um padrão nacional nunca será mnemônico

A experiência mostra que, se a suposta sigla não for relativamente fácil de lembrar, acaba sendo pior do que um código numérico, pois é natural do ser humano não assumir que esqueceu "aquilo que quase lembra"... Ao preencher um formulário, por exemplo, podemos nos equivocar trocando a sigla certa por uma parecida, causando mais confusão do que deixando o campo em branco.

Mesmo um código alfanumérico longo, assumidamente "código", sem compromisso ou confusão com nomes: os ~5600 municípios representam itens do número 1 ao 5600, que em base36 seriam repersentados por números identificadores do 001 ao F9K (com decimal intercalado).

Apesar de não ser endossado por outros órgãos, o padrão Anatel de siglas de 3 letras é de abrangência nacional, uma para cada nome de município. A proposta é razoável, fez o possível para que as os códigos se pareçam siglas nas capitais e cidades mais populares, mas como são quase 5600 nomes, eles representam mais que 34% das 263=17576 combinações das letras do alfabeto em sigla de 3 letras.

A recomendação matemática para se ter boa liberdade de escolha na sigla de cada nome, como vimos acima, é que não ultrapasse 500, portanto as 5600 siglas da Anatel representam uma dose 10 vezes maior do que a recomendada.

Vejamos se na prática a teoria comentada antes faz sentido... Na prática o que seriam 3 ou 4 regras se tornam umas "10 regras boas" para achar a sigla depois de uma colisão... Pela teoria, com 600 ou mais itens temos 99,999%^10 = 99,9% de chances de colisão. Teoriacamente, não há como melhorar o resultado quando passamos muito do limiar de 500 itens... Então na tabela Anatel encontraríamos casos siglas que nem sequer fazem uso das letras do nome.

Um bom exemplo de como "estoura o limite" é o uso da letra Y: na tabela Anatal encontramos ~150 abreviações com Y entre nomes que não apresentam a letras Y, de AAY (Alto Alegre/RS), ABY (Abaiara/CE) e AGY (Aguiar/PB) até YCA Içara/SC, YGI (Itagi/BA) e YPE (Itape/BA). Idem para a letra K, com ~160 "abreviações" de nomes que não apresentam a letra K, de AAK (Anamã/AM) a TUK (Tururu/CE).

É um limite da Natureza, não tem como instituir uma lei federal ou fazer um grande investimento para um super-computador ou grandes experts chegarem a um resultado melhor do que a Anatel chegou, seria jogar dinheiro fora. As estatísticas a seguir apenas reforçam que esse limite é ainda mais baixo.

Alfabeto com menos de 26 letras

Se olharmos com lupa, veremos ainda que não são todas as 26 letras do alfabeto utilizadas nos nomes dos municípios brasileiros, as letras K, W e Y praticamente não são usadas, e, junto com F,Z,Q e X representam menos que 2% da frequencia de uso entre os nomes. Assim, removendo essas 7 letras ficamos com um alfabeto de 19 letras, de modo que os ~5600 municípios podem na prática escolher entre 193≈6900 possíveis siglas (AAA, AAB, ..., VVA, VVB, ..., VVV), ou seja, representam mais que 80% das possibilidades, praticamente não há margem para a escolha de uma sigla mais amigável quando outro município já escolheu a sua preferida.

letra n letra n
A 10683 D 1402
O 5611 B 1295
I 5194 G 1173
R 4885 V 806
E 3985 H 623
N 3538 J 569
S 3435 F 372
T 2641 Z 302
U 2332 Q 209
C 2183 X 124
L 2090 Y 26
M 1757 W 15
P 1725 K 8

  Fonte: consulta stat02-sigl01, distrib. de freq. de letras.

Como a maior parte das "siglas bacanas" é composta por uma ou mais inicias das palavras que formam o nome, eliminando preposições e ficando com as primeiras letras teremos a seguinte distribuição:

Inicial freq Inicial freq
C 667 (13%) F 164 (3%)
P 580 (11%) V 153 (3%)
S 534 (10%) D 111 (2%)
A 486 (9%) E 88 (2%)
M 459 (9%) O 87 (2%)
I 404 (8%) U 68 (1%)
B 361 (7%) Q 41 (1%)
J 250 (5%) H 30 (1%)
T 247 (5%) X 14 (0%)
G 245 (5%) W 8 (0%)
R 202 (4%) Z 4 (0%)
N 177 (3%) K 2 (0%)
L 173 (3%) Y 0 (0%)

  Fonte: consulta stat02-sigl01, freq. de iniciais.

É nula a frequência de uso do Y entre as iniciais dos municípios, e percentualmente nula, 0%, para as letras K, Z, W e X. Todas com frequência inferior a 1/3 da mediana de ~170 em 5559 (~3%). Dessa forma se justificaria usar um alfabeto reduzido, de 21 letras, para avaliar melhor avaliar as chances de obtenção de siglas baseadas em iniciais.

Fazendo as contas, 213=9261, logo os nomes ocupam ~60%, ainda bem longe dos 10% ou menos recomendados para ter uma folga.