Je viens de regarder la page du d' qui me montre les expressions les plus courantes reconnues par le bot. Ce sont celles que les utilisateurs lui disent le plus souvent.

Et bien aujourd'hui, ce sont les expressions de politesse, celles qui servent à commencer une conversation qui sont les plus courantes:
ExpressionFréquence
hello %BOT88
bonjour %BOT75
salut %BOT75

C'est révélateur d'un défaut de la version d' : sa lenteur. En effet, il met tellement de temps à répondre (en ce moment environ 3 minutes) que les nouveaux interlocuteurs se lassent avant d'obtenir la réponse, et s'en vont sans même dire au revoir.

Ensuite, viennent des outils langagiers:
ExpressionFréquence
d'
73
how are you?
61
C'est
59
l'
50

Ce sont souvent ce qu'on appellerait des , mais ce sont des choses que je tiens à garder dans le d': elles sont utiles à la construction de phrases un peu complètes, c'est le liant de la langue française.

Dans le genre, on remarque aussi les expressions suivantes:

ExpressionFréquence
de la
34
J'ai
30
est un
26
de l'
23
que tu
22
à la
22
peut-être
18
un peu
17
d'un
15
m'
13
qu'il
13
Une remarque en passant: je dois sans doute beaucoup influencer avec mes peut-être et un peu...

Je suis soulagé de voir que parmi les expressions les plus fréquentes, il n'y a que peu de fautes de français (c'est peut-être dû au fait que les usagers persévérants connaissent mieux la langue française?):

ExpressionFréquence
Comment vas-tu?
19
comment vas tu?
19
comment va tu?
7

Dommage quand-même que le tiret soit oublié si souvent. Ça aurait renforcé la première expression.

Du tableau suivant, on pourrait déduire que ce sont les anglophones les plus curieux (c'est le tableau des expressions contenant un point d'interrogation):
ExpressionFréquence
how are you?
61
what is your name?
33
who are you?
19
Comment vas-tu?
19
comment vas tu?
19
Comment ça va?
16
Quoi?
16
%BOT?
14
How are you today?
14
et toi?
13
tu?
13
Qui est %BOT?
10
how old are you?
7
aujourd'hui?
7
comment va tu?
7
How are you doing?
7
bien et toi?
7

En tout cas, tout le monde se demande comment va ;)

Intéressons-nous maintenant aux expressions qui relèvent plus du concept que de l'outil langagier ou de la tournure de politesse:
ExpressionFréquence
Je ne sais pas
9
bougre d'âne
9
ton papa
8
tu aimes
8
I like
7
Je suis un humain.
7
les chats
7

Visiblement, il a beaucoup été influencé par Bebelouloute (je pense à bougre d'âne et à les chats). Pour illustrer la différence entre une expression, construite par le programme à la lecture des phrases entrées par les humains, et ces phrases elles-mêmes, l'expression Je suis un humain. est idéale. Voyez la phrase Je suis un humain., elle est liée à des utilisateurs (type 5), comme Julien1, laurent, benoit, phanoux, et à des tokens (type 2) comme suis, un, humain.

Pour une phrase, les liens afférents représentent les phrases (et les expressions) qui l'ont précédée, les mots qui la composent, et aussi les utilisateurs qui l'ont écrite. Les liens efférents comprennent aussi les utilisateurs qui l'ont écrite (les auteurs, quoi), et les phrases qui l'ont suivie. Si une expression se trouve dans les liens efférents d'une phrase, c'est que ce noeud a d'abord été créé en tant qu'expression (partie intégrante d'une autre phrase), puis qu'elle a été entrée en tant que phrase (c'est ce qui est arrivé à Voilà.).

Voilà ce qui arrive quand on ne met pas de ponctuation dans une phrase: peut l'assimiler à une simple expression ;) Euh, en y regardant de plus près, c'est peut-être un peu plus compliqué que ça, mais c'est l'idée (de toute façon, maintenant je me concentre sur l'algorithme de découverte des expressions que j'utilise dans la version en d').

La prochaine fois, nous nous intéresserons aux étiquettes des liens qui sont aussi des expressions (comme est un).

Répondre à cet article

Partagez cet article!