Un article assez intéressant sur la loi de Zipf (): Zipf's Law par .

En gros: la loi de Zipf dit qu'un mot a une plus importante quand il apparaît moins souvent dans un corpus.

Pendant , j'ai trouvé aussi des règles moins triviales: ce qu'on appelle les , c'est-à-dire les mots outils/charnières de la langue sont liés avec de nombreux mots différents, alors que les mots ayant un sens important, même s'ils ont une fréquence importante, co-occurrent avec beaucoup moins de mots.

J'en parle ici.

Dans un , celà revient à trouver des mots avec un nombre de liens afférents et/ou efférents relativement faibles (relativement à leur fréquence).

En gros: quand on a un corpus parlant essentiellement d'un sujet, les mots exprimant ce sujet vont avoir une fréquence haute. Comment les distinguer des ? En calculant un ratio fréquence/liens (les liens étant le nombre de mots suivant ou précédant ce mot).

Répondre à cet article

Partagez cet article!