Letter frequency

http://dbpedia.org/resource/Letter_frequency an entity of type: WikicatWritingSystems

L'anàlisi de freqüència de les lletres consisteix a comptar, per a cada lletra diferent, quin percentatge d'aparició té en un text respecte al total. La freqüència varia més si es compara entre textos curts, mentre que tendeix a estabilitzar-se entre textos quan s'amplia la llargària d'aquests. Aquesta freqüència estabilitzada és molt variable entre diferents idiomes. Tant la freqüència de lletres en un text com en el conjunt de paraules d'un diccionari segueixen una distribució similar a la descrita en la Llei de Zipf, i més acuradament, en la Distribució de Yule-Simon. rdf:langString
Literofteco estas la ofteco de la diversaj literoj de la alfabeto en teksto. Tia ofteco ege varias — unue de litero al litero ene de la apliko de specifa alfabeto por specifa lingvo, due la literoftecoj range malsamas de lingvo al lingvo. Ekzemple en Esperantaj tekstoj la plej ofta litero estas A. Tre malofta estas aliflanke la litero Ĥ. Kontraste, en Anglaj kaj Francaj tekstoj la plej ofta litero estas E. Do oni devas pritrakti literoftecon por ĉiu lingvo aparte. rdf:langString
字母频率(frequency of letters; character frequencies),指的是各个字母在文本材料中出现的频率。常被应用于密码学,尤其是可破解古典密码的频率分析。在英语中最常见的字母是e。而在铅字印刷时代,人们已根据经验在Linotype排字机上将字母按常用与否排列成 cmfwyp vbgkjq xz 。还有,摩斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq。数据压缩技术中也有相似的方法,如霍夫曼编码就是按来源符号出现的机率大小去编码。 rdf:langString
Die Buchstabenhäufigkeit (Graphemhäufigkeit) ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen in Betracht zu ziehen sind. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar. Für manche Zwecke ist es auch in rdf:langString
Letter frequency is the number of times letters of the alphabet appear on average in written language. Letter frequency analysis dates back to the Arab mathematician Al-Kindi (c. 801–873 AD), who formally developed the method to break ciphers. Letter frequency analysis gained importance in Europe with the development of movable type in 1450 AD, where one must estimate the amount of type required for each letterform. Linguists use letter frequency analysis as a rudimentary technique for language identification, where it is particularly effective as an indication of whether an unknown writing system is alphabetic, syllabic, or ideographic. rdf:langString
El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes. rdf:langString
La fréquence d'apparition des lettres est une donnée statistique utilisée en linguistique, en typographie et en cryptographie liée au fait que les utilisateurs de la langue écrite n'utilisent pas les lettres disponibles au hasard, mais selon l'ordonnancement de la langue, du langage et de la parole. rdf:langString
A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq rdf:langString
Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. Расчёт частотности слов осуществляется по формуле: rdf:langString
Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning. * Spanska bokstavsfrekvenser. * rdf:langString
rdf:langString Freqüència de les lletres
rdf:langString Buchstabenhäufigkeit
rdf:langString Literofteco
rdf:langString Frecuencia de aparición de letras
rdf:langString Fréquence d'apparition des lettres
rdf:langString Letter frequency
rdf:langString Frequência de letras
rdf:langString Частотность
rdf:langString Bokstavsfrekvens
rdf:langString 字母频率
xsd:integer 6767165
xsd:integer 1117585650
rdf:langString L'anàlisi de freqüència de les lletres consisteix a comptar, per a cada lletra diferent, quin percentatge d'aparició té en un text respecte al total. La freqüència varia més si es compara entre textos curts, mentre que tendeix a estabilitzar-se entre textos quan s'amplia la llargària d'aquests. Aquesta freqüència estabilitzada és molt variable entre diferents idiomes. Tant la freqüència de lletres en un text com en el conjunt de paraules d'un diccionari segueixen una distribució similar a la descrita en la Llei de Zipf, i més acuradament, en la Distribució de Yule-Simon.
rdf:langString Die Buchstabenhäufigkeit (Graphemhäufigkeit) ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen in Betracht zu ziehen sind. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar. Für manche Zwecke ist es auch interessant, wie häufig ein Buchstabe am Wortanfang oder am Wortende vorkommt.
rdf:langString Literofteco estas la ofteco de la diversaj literoj de la alfabeto en teksto. Tia ofteco ege varias — unue de litero al litero ene de la apliko de specifa alfabeto por specifa lingvo, due la literoftecoj range malsamas de lingvo al lingvo. Ekzemple en Esperantaj tekstoj la plej ofta litero estas A. Tre malofta estas aliflanke la litero Ĥ. Kontraste, en Anglaj kaj Francaj tekstoj la plej ofta litero estas E. Do oni devas pritrakti literoftecon por ĉiu lingvo aparte.
rdf:langString Letter frequency is the number of times letters of the alphabet appear on average in written language. Letter frequency analysis dates back to the Arab mathematician Al-Kindi (c. 801–873 AD), who formally developed the method to break ciphers. Letter frequency analysis gained importance in Europe with the development of movable type in 1450 AD, where one must estimate the amount of type required for each letterform. Linguists use letter frequency analysis as a rudimentary technique for language identification, where it is particularly effective as an indication of whether an unknown writing system is alphabetic, syllabic, or ideographic. The use of letter frequencies and frequency analysis plays a fundamental role in cryptograms and several word puzzle games, including Hangman, Scrabble, Wordle and the television game show Wheel of Fortune. One of the earliest descriptions in classical literature of applying the knowledge of English letter frequency to solving a cryptogram is found in Edgar Allan Poe's famous story The Gold-Bug, where the method is successfully applied to decipher a message giving the location of a treasure hidden by Captain Kidd. Herbert S. Zim, in his classic introductory cryptography text "Codes and Secret Writing", gives the English letter frequency sequence as "ETAON RISHD LFCMU GYPWB VKJXZQ", the most common letter pairs as "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", and the most common doubled letters as "LL EE SS OO TT FF RR NN PP CC". Different ways of counting can produce somewhat different orders. Letter frequencies also have a strong effect on the design of some keyboard layouts. The most frequent letters are on the bottom row of the Blickensderfer typewriter, and the home row of the Dvorak keyboard layout.
rdf:langString El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: * El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R". * El vocabulario específico del documento. Si se habla de ríos, habrá muchas íes. * El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos. * En el diccionario de la RAE, comunmente usada en nombres propios es la letra[A]. * Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, estos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes. * La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma y el punto, por ejemplo, son más frecuentes que más de la mitad de las letras. Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.
rdf:langString La fréquence d'apparition des lettres est une donnée statistique utilisée en linguistique, en typographie et en cryptographie liée au fait que les utilisateurs de la langue écrite n'utilisent pas les lettres disponibles au hasard, mais selon l'ordonnancement de la langue, du langage et de la parole. Bien que l'alphabet ne soit pas hiérarchisé, les lettres écrites ne sont pas utilisées à la même fréquence, en français comme dans les autres langues. Ainsi, si l'on prend un texte en français composé de 100 lettres, on n'aura pas 100 lettres différentes mais environ 12 fois la lettre E, 7 fois la lettre A, 7 fois la lettre I, 7 fois la lettre S, etc., selon une loi de distribution qui n'est pas facile à déterminer.
rdf:langString A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq. Ideias semelhantes são utilizadas em modernas técnicas de compressão de dados, tais como a Codificação de Huffman. Análises mais recentes mostram que as frequências de letras, da mesma forma que as frequências de palavras, tendem a variar, tanto pelo escritor quanto pelo assunto. Não se pode escrever um ensaio sobre raios-x sem uso frequente de letras Xs, e a redação terá uma frequência de letras especialmente estranha se o ensaio é sobre o uso frequente de raios-x para o tratamento de zebras no Qatar. Diferentes autores têm hábitos que podem ser refletidos no uso das letras. O estilo de escrita de Hemingway, por exemplo, é visivelmente diferente do estilo de Faulkner. Letras, , trigramas, as frequências de palavras, o comprimento das palavras, e o comprimento das sentenças podem ser calculados por autor específico, e usados para provar ou negar a autoria dos textos, mesmo para os autores cujos estilos não são tão divergentes. Uma média precisa de frequências de letras só pode ser adquirida através da análise de uma grande quantidade de textos representativos. Com a disponibilidade da computação moderna e coleções de grandes corpora de texto, esses cálculos são feitos facilmente. , em seu clássico texto introdutório de criptografia"Codes and Secret Writing", dá a sequência da frequência de letras em Inglês como sendo "ETAON RISHD LFCMU GYPWB VKXJQ Z", os pares de letras mais comuns como sendo "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HIAS TO", e as letras dobradas mais comuns como sendo "LL EE SS OO TTFF RR NN PP CC". As doze letras mais frequentes incluem cerca de 80% do uso total.As oito letras mais frequentes incluem cerca de 65% do uso total.Um espião com a ou alguma outra cifra baseada em um tabuleiro de xadrez straddling normalmente utiliza um mnemônico, como "a sin to err" (deixando de lado o segundo "r") para lembrar as 8 letras (a,s,i,n,t,o,e,r) mais frequentes (neste exemplo, em inglês). A utilização das frequências das letras e análise de frequência desempenha um papel fundamental em vários jogos, incluindo jogo da forca, palavras cruzadas(Scrabble), e criptogramas, entre outros. Frequências de letras tem um forte impacto no projeto de alguns teclados.As letras mais frequentes ficam na linha superior do teclado AZERTY.As letras mais frequentes ficam na linha inferior do teclado Blickensderfer.As letras mais frequentes ficam na linha central do teclado Simplificado Dvorak.
rdf:langString Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning. Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter. Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt. * Spanska bokstavsfrekvenser. * Relativa bokstavsfrekvenser i engelsk text.
rdf:langString 字母频率(frequency of letters; character frequencies),指的是各个字母在文本材料中出现的频率。常被应用于密码学,尤其是可破解古典密码的频率分析。在英语中最常见的字母是e。而在铅字印刷时代,人们已根据经验在Linotype排字机上将字母按常用与否排列成 cmfwyp vbgkjq xz 。还有,摩斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq。数据压缩技术中也有相似的方法,如霍夫曼编码就是按来源符号出现的机率大小去编码。
rdf:langString Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. Расчёт частотности слов осуществляется по формуле: где Freqx — частотность слова «x», Qx — количество слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д. Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка. Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров. Не следует путать термины частотность и частота.
xsd:nonNegativeInteger 39250

data from the linked data cloud