Lectura 12 recomendada sobre Frecuencia de aparición de letras.

Anuncio
Frecuencia de aparición de letras
1
Frecuencia de aparición de letras
El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia
de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:
• El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R".
• El vocabulario específico del documento. Si se habla de ríos, habrá muchas "Í"; si uno de los protagonistas se
llama Wenceslao, aumentará el número de "W".
• El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc),
que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
• En el diccionario de la RAE la letra más frecuente es la A, pero en cualquier texto castellano, la frecuencia de las
partículas "que", "el", "se", "me", etc. hace que la "e" sea más frecuente.
• Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo,
éstos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además,
algunos autores omiten las tildes.
• La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos
corrientes, etc.) pueden o no tenerse en cuenta. La coma, punto son por ejemplo más frecuentes que más de la
mitad de las letras.
Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso
para las letras más frecuentes.
Porcentaje de aparición de letras
Porcentaje de aparición de letras en
español:[1]
Frecuencia relativa de aparición de letras en español.
Frecuencia de aparición de letras
2
Letra Porcentaje
A
12,53
B
1,42
C
4,68
D
5,86
E
13,68
F
0,69
G
1,01
H
0,70
I
6,25
J
0,44
K
0,01
L
4,97
M
3,15
N
6,71
O
8,68
P
2,51
Q
0,88
R
6,87
S
7,98
T
4,63
U
3,93
V
0,90
W
0,02
X
0,22
Y
0,90
Z
0,52
Ordenadas de mayor a menor frecuencia de aparición obtenemos: E A O S R N I D L C T U M P B G V Y Q H F Z J
XWK
A partir de los datos anteriores, se puede decir que:
•
•
•
•
Las vocales ocuparán alrededor del 45% del texto.
La E y la A son identificables fácilmente dado su porcentaje de aparición.
Las consonantes más frecuentes son: S,R,N,D,L,C (aparecen con una frecuencia de un 37%)
Las seis letras menos frecuentes son: F,Z,J,X,W,K (sumadas tienen una frecuencia que no llega al 2%)
Frecuencia de aparición de letras
3
Ejemplo concreto: el Quijote
El texto del Quijote[2] contiene 1.640.502 letras:
Letra Cantidad Porcentaje
e
229188
14,0%
a
200492
12,2%
o
162512
9,9%
s
125726
7,7%
n
108440
6,6%
r
100953
6,2%
i
90070
5,5%
l
89141
5,4%
d
87237
5,3%
u
79471
4,8%
t
61749
3,8%
c
59435
3,6%
m
44658
2,7%
p
35464
2,2%
q
32483
2,0%
y
25115
1,5%
b
24146
1,5%
h
19920
1,2%
v
17855
1,1%
g
17225
1,0%
j
10530
0,6%
f
7581
0,5%
z
6491
0,4%
ñ
4241
0,3%
x
377
0,0%
w
2
0,0%
k
0
0,0%
Frecuencia de aparición de letras
Otros sistemas
Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje
escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos,
da preeminencia a la aparición de esta letra.
Enlaces externos
• Herramienta para el conteo de cartas y la creación de tablas de frecuencia, Carta de frecuencias de 20 idiomas [3]
Referencias
[1] Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
[2] http:/ / www. gutenberg. org/ dirs/ etext99/ 2donq10. zip
[3] http:/ / www. sttmedia. com/ charactercounter
4
Fuentes y contribuyentes del artículo
Fuentes y contribuyentes del artículo
Frecuencia de aparición de letras Fuente: http://es.wikipedia.org/w/index.php?oldid=29395687 Contribuyentes: C. París., Chvsanchez, Davius, Dianai, Eloy, Hansen, JMPerez, Joselarrucea,
R2D2!, RedTony, Tico, 12 ediciones anónimas
Fuentes de imagen, Licencias y contribuyentes
Imagen:Frecuencia de uso de letras en español.PNG Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Frecuencia_de_uso_de_letras_en_español.PNG Licencia: GNU Free
Documentation License Contribuyentes: Original uploader was Tico at es.wikipedia
Licencia
Creative Commons Attribution-Share Alike 3.0 Unported
http:/ / creativecommons. org/ licenses/ by-sa/ 3. 0/
5
Descargar