Torrent9

..

Windows & internet pratique n 43 juin 2016

Telecharger windows & internet pratique n 43 juin 2016

Aide


Vous devez vous inscrire afin de télécharger
Veuillez créer un compte gratuitement sur Torrent9 pour accéder aux téléchargements illimités et au streaming !

Mise à jour[modifier le wikicode]

Peut-être serait-il (grand) temps de mettre à jour les stats qui datent de 10 mois&#;? Sans doute est-ce un peu fastidieux alors il serait bon que plusieurs personnes s'y collent tout à tour&#;? M'enfin, moi ce que j'en dis

Le Zozo masqué 9 avril

Mise à jour[modifier le wikicode]

Après une longue absence, j’ai réussi à installer les outils nécessaires aux calculs de statistiques. LBOdisc 11 avril à (UTC)

Merci pour ton travail et ton retour. On va enfin avoir des stats digne de ce nom. Le problème c'est que cet outil qui fournit les stats ne dépend que d'une personne (toi) ce qui faait que si tu quittes le projet ou que tu as un problème informatique quelconque (perte de la connexion internet, d'un ordinateur, etc), les stats ne sont plus mises à jour. Est-il possible d'envisager que tu écrives un tuto expliquant pas à pas comment obtenir ses stats pour que n'importe qui puisse mettre à jour cette page&#;? Merci encore. Pamputt [Discuter] 11 avril à (UTC)
Si tu veux. mais c'est du bricolage 18 avril à (UTC)

Tutoriel[modifier le wikicode]

  • Prendre le dernier fichier dump xml sur le site [1] comprenant l'ensemble des articles.
  • Pour chacun des articles, découper l'article en sous-articles de premier niveau (= par langue ) grâce aux balises du modèle {{=xx=}} et les quelques exceptions éventuelles ( …)
  • Pour chacun des sous-articles:
    • Mesurer la taille en octets (Je laisse les catégories dans le sous-article)
    • Rechercher les balises de second niveau. Pour ce faire, le plus simple est d'extraire intégralement les balises du type
  • Ensuite, charger dans Excel le résultat produit sur deux fichiers XML et faire le ménage
    • Supprimer du décompte les balises sans intérêts pour les statistiques ( références, balises non gramaticales )
    • Affecter les balises à des groupes. Par exemple, toutes les flexions dans le même groupe
    • Faire un pivot dans Excel
    • Ajouter de l'habillage
    • Convertir dans un format wikipedia
Tu convertis avec quoi stp&#;?. JackPotte ($) 18 avril à (UTC)
Très simplement, En fait, j'ai mes résultats dans une Worksheet et j'ai créé une autre pour le formattage et je formatte les données par correspondance. j'ai quatre formules de bases
les têtes de lignes="|- |bgcolor='#EEEEEE' |{{"&Tab!LC&"}}"
les têtes de colonnes="||bgcolor='#EEEEFF' | <B>"&Tab!LC&"</B>"
les cellules colorées="|| "&Couleur(Tab!LC;)&"|"&SI(Tab!LC>;TEXTE(Tab!LC;"###.###.##0");SI(Tab!LC=0;" - ";Tab!LC))
La fonction couleur permet de générer des dégradés en fonction du nombre d'occurence et d'un seuil:
Function Hex2Dec(ByVal Hex As String) As Long Dim n As Long Dim i As Integer For i = 1 To Len(Hex) Dim CharHex As String CharHex = UCase(Mid(Hex, i, 1)) If Asc(CharHex) >= 65 Then n = n + (Asc(CharHex) - 55) * (16 ^ (-i + Len(Hex))) Else n = n + CInt(CharHex) * (16 ^ (-i + Len(Hex))) End If Next i HexToDec = n End Function Function Dec2Hex(Dec) As String Dec2Hex = Hex(CInt(Dec)) End Function Function Couleur(Evolution, NombreTotal) As String Dim iEvo As Long iEvo = CLng(Evolution) If iEvo = 0 Then Couleur = "bgcolor='grey'" ElseIf iEvo > 0 Then If Evolution < NombreTotal / 2 Then Rouge = Round( - * 2 * Evolution / NombreTotal, 0) Vert = Bleu = Rouge Else Rouge = 0 Vert = - * 2 * (Evolution - NombreTotal / 2) / NombreTotal Bleu = 0 End If If Rouge < 0 Then Rouge = 0 ElseIf Rouge > Then Rouge = End If If Vert < 0 Then Vert = 0 ElseIf Vert > Then Vert = End If If Bleu < 0 Then Bleu = 0 ElseIf Bleu > Then Bleu = End If Couleur1 = "bgcolor='#" & Right("00" & Dec2Hex(Rouge), 2) & Right("00" & Dec2Hex(Vert), 2) & Right("00" & Dec2Hex(Bleu), 2) & "'" If Rouge = 0 Then Couleur = Couleur1 + " style='color:white;' " Else Couleur = Couleur1 End If Else Couleur = "bgcolor='red'" End If End Function

LBOdisc 21 avril à (UTC)

rohingya[modifier le wikicode]

Bonjour, les dernières statistiques indiquent qu'il n'y a aucun article en rohingya. Or, il en existe au moins un. D'où vient le problème&#;? Pamputt [Discuter] 19 avril à (UTC)

Euh?! J'en vois même Cependant, il y en a 11 qui ont changé de codes de à LBOdisc 11 mai à (UTC)

Format du tableau de statistiques[modifier le wikicode]

Bonjour, Serait-il possible d'afficher également les totaux du tableau de statistiques juste en dessous des intitulés de colonnes. On doit actuellement aller tout en bas du tableau pour trouver ces totaux, et sans pouvoir voir les intitulés, on ne sait pas à quoi correspond chaque chiffre. Merci d'avance pour vos réponses. Blacksabbath 17 mai à (UTC)

Existe-t-il une norme "internationale" pour le calcul des statistiques au sein du projet wiktionary&#;?[modifier le wikicode]

Bonjour, Existe-t-il une norme "internationale" pour le calcul et la présentation des statistiques au sein du projet wiktionary&#;? Apparemment, ce n'est pas le cas. Le tableau en français est très lisible et bien conçu. Même si le total du bas de tableau ne semble pas correspondre au total affiché en début de page. Par contre, la version anglaise se passe de commentairesAucune couleur, classement alphabétique et confus, pas de total Des réflexions ont-elle été entamées sur la définition de standards pour le traitement de ces statistiques&#;? Quid de la fiabilité des statistiques présentées par chaque pays&#;? Tiens, ça me rappelle d'ailleurs quelque chose cette histoire de statistiques truquées&#;! En tous cas, félicitations à ceux qui travaillent sur le sujet actuellement et qui ont créée cette belle page pleine d'esthétique&#;! Continuez comme ça. Blacksabbath 17 mai à (UTC)

Non, il n'y a pas de discussions, c'est juste les projets qui peuvent s'inspirer les uns des autres. Il y a des améliorations à apporter&#;: utiliser un critère de classement compréhensible (par exemple le nombre d'entrées), ajouter une colonne avec le rang Lmaltier 17 mai à (UTC)

inversion de 2 colonnes[modifier le wikicode]

j'ai l'impression que les dates sont inversées entre les colonnes "Mots le 30 mars " et "Mots le 23 juin ".Hector 25 août à (UTC)

C'est vrai, je l'avais déjà signalé à l'auteur. JackPotte ($♠) 25 août à (UTC)

nombre d'entrées sans les formes fléchies[modifier le wikicode]

je verrais bien une colonne "nombre d'entrées sans forme fléchie", afin de pouvoir comparer facilement avec les dictionnaires qui souvent n'intègrent pas les formes fléchies. Merci Hector 25 août à (UTC)

On appelle ça les lemmes. JackPotte ($♠) 25 août à (UTC)
Bien vu, merci&#;!Hector 26 août à (UTC)

Collaboration[modifier le wikicode]

Bonjour, suite au départ de Laurent Bouvier qui maintenait cette page, une collaboration s'est mise en place pour écrire du code qui permettra de mettre ces statistiques à jour. Si vous voulez participer, rendez vous ici. Pamputt [Discuter] 9 mars à (UTC)

Nul n'est indispensable. Bravo pour ton initiative. LBOdisc 30 avril à (UTC)

russes[modifier le wikicode]

Où sont passées les mots russes&#;? (voir les colonnes de droite)Hector 15 mai à (UTC)

Il me semble qu’une bonne partie des entrées en russe sont des noms de famille (voir Noms de famille en russe) qui compte plus de mots. Pour le reste je ne sais pas Pamputt [Discuter] 16 mai à (UTC)
En fait il y a 17 noms de famille et flexions de ces mêmes noms de famille&#;! Il ne reste ensuite que mots normaux (noms, verbes, adjectifs, noms propres). — Dakdada(discuter) 16 mai à (UTC)

OK, merci pour ces précisions. Ça montre selon moi l'intérêt de ma proposition 2 paragraphes plus haut, de faire une colonne avec des lemmes uniquement, sans flexions & noms propres , pour qu'on ait une base de comparaison avec les dictionnaires classiques. Il est aujourd'hui très difficile de répondre à une question toute bête&#;: "je pars en vacances en Russie, est-ce que le wiktionnaire saura me satisfaire ou aurai-je besoin d'un autre dictionnaire&#;?" Hector 20 mai à (UTC)

La cellule "lemme russe" semble encore assez étrange, sans doute qu'on n'enlève pas les noms de famille. ça vous dirait d'enlever les noms de famille/noms propres à la colonne lemme&#;? Hector (discussion) 16 mai à (UTC)
C'est techniquement possible mais je ne vois pas bien l'intérêt de le faire. Si une langue a plein de noms de famille alors c'est déjà pas mal même si ce n'est pas représentatif des mots communs mais bon. Les lemmes permettent d'avoir quand même une idée relativement exactes du vocabulaire «&#;utile&#;» d'une langue. Pamputt [Discuter] 16 mai à (UTC)

Tableau triable[modifier le wikicode]

Bonjour, j’ai essayé de rendre le tableau de stats triable (voir ceci). Cela dit ça ne semble pas fonctionner (le tableau reste statique, sans flèche). C’est normal&#;? Pamputt [Discuter] 11 octobre à (UTC)

C’est parce que les titres de colonnes ne sont pas définis comme tel (il faut utiliser&#;! à la place de |). J’ai modifié. — Dakdada(discuter) 12 octobre à (UTC)
Il faut aussi ajouter «&#;class="sortbottom"&#;» aux deux rangées devant rester en bas du tableau (total et rappel des titres de colonnes). J’ai aussi modifié. —C.P. 12 octobre à (UTC)

La colonne Évolution ne fonctionne pas à cause des signes + et -.

ÉvolutionSans '+'Sans '+' ni espaceSans espace
0000
+ 111+1
- 1- 1-1-1
- 16- 16&#;
+ 151515+15

Il faudrait peut être retirer les "+" ou les espaces. --Moyogo(discuter) 12 octobre à (UTC)

C’est effectivement les espaces (mais pas le signe «&#;+&#;») qui empêche le tri correct et qu’il faudrait retirer. —C.P. 12 octobre à (UTC)
Ok, Moyogo a supprimé les espaces et maintenant ça fonctionne. Je vais enlever l’espace dans le code pour éviter ce problème à l’avenir. Pamputt [Discuter] 12 octobre à (UTC)

lien vers la langue concernée[modifier le wikicode]

Bonjour, Un truc que je trouve super serait de remplacer dans la colonne langue le modèle langue (par exemple {{fr}}) par&#;: [[:Catégorie:{{fr}}|{{fr}}]] ce qui permettrait de pointer en cliquant dessus directement vers la page d’accueil de la langue concernée. (Et si on pouvait aussi changer pour des couleurs moins flashy ….) UnsuiDiscuter 11 octobre à (UTC)

Oui c’est tout à fait possible, je vais ajouter ça tout de suite. Pour les couleurs moins flashy par contre je ne sais pas trop par quoi les remplacer. Pamputt [Discuter] 12 octobre à (UTC)
Pour les couleurs, laisse tomber car en effet c’est une question de goût. Pour le lien c’est par contre franchement intéressant et ça deviendra même la méthode la plus rapide pour aller voir plusieurs langues rapidement. UnsuiDiscuter 12 octobre à (UTC)
Euh non c’est bon en fait… et oui c’est une bonne idée, même si la page devient encore un peu plus lourde. — Dakdada(discuter) 12 octobre à (UTC)
Rah la la, copier-coller, c’est trop compliqué&#;:-) --Moyogo(discuter) 12 octobre à (UTC)
Est-ce qu'il serait possible d'indiquer aussi le code de la langue&#;? Ça permettrait de réutiliser plus facilement les données dans un tableur. Moyg 9 novembre à (UTC)

Doublons[modifier le wikicode]

Bonjour et merci pour toutes ces stats.

Je viens de trouver des "doublons" dus aux redirections de modèles. Certaines langues sont indiquées plusieurs fois et je suppose qu'il faut additionner chacune de leurs apparitions&#;:

  • minnan
  • occitan
  • (mise à jour du 11 mai )

Moyg 9 novembre à (UTC)

Merci d’avoir signalé ceci. Je vais essayé d’uniformiser tout cela avant le prochain dump. Comment as-tu détecté ces doublons&#;? Pamputt [Discuter] 9 novembre à (UTC)
Je cherchais des données sur les langues régionales et j'ai trouvé plusieurs occitans.
Techniquement&#;: j'avais les données dans un tableur, je n'avais plus qu'à faire un tri alphabétique des langues et faire un test (par exemple si les langues sont en colonne A, tu fais en B3, tu copies ta formule jusqu'en bas et tu cherches les 1). Du coup il y a peut-être des doublons non détectés si l'orthographe varie légèrement (espace, accent).
Moyg 9 novembre à (UTC)

Pour le coréen (hanja), le problème devrait être résolu lors de la prochaine mise à jour. Le problème vient du fait qu’il semble que JackBot n’avait pas fini de tout harmoniser. Pamputt [Discuter] 15 mai à (UTC)

Pour le coréen, c'est plus qu'un doublon, c'est un triplet&#;! Il y a le coréen et deux fois le «&#;coréen (hanja)&#;», c'est pourtant la même langue. Cdlt, VIGNERON * discut. 16 mai à (UTC)

malgache[modifier le wikicode]

d’après Catégorie:malgache, on a pages en malgache. Le chiffre dans le tableau quant à lui est ridiculement faible&#;: il y a une explication rationnelle&#;? Merci Hector 3 janvier à (UTC)

Oui, le tableau de stats a été mis à jour juste avant que Jagwar (d · c · b) ne lance son bot qui ajoute justement des entrées en malgache. Les chiffres du malgache seront plus proches de la réalité lors de la prochaine mise à jour. Pamputt [Discuter] 3 janvier à (UTC)

ok, merci&#;!

Adjectifs numéraux.[modifier le wikicode]

Bonjour,

Je me pose une question. En comptant les adjectifs, compte-t-on également les variantes des adjectifs, comme les adjectifs numéraux. En roumain, le nombre d'adjectif a baissé et tout ce que j'ai fait c'est de passer quelques nombres mal classés de à . Fenkys (discussion) 14 mars à (UTC)

Bonjour Fenksys, en effet d’après ce que je comprends du script de Jona (que j’utilise), seules les entrées qui ont explicitement (et pas , ) sont comptabilisés. On pourrait peut-être revoir le script pour qu’il prenne en compte ta remarque. Pamputt [Discuter] 14 mars à (UTC)

Je découvre l'existence de -adj-num-. Supprimer ce modèle serait aussi une possibilité. Lmaltier (discussion) 14 mars à (UTC)

Les nombres sont si particuliers qu'ils mériteraient une place à part. Certains sont des adjectifs, d'autres des noms, d'autres encore existent sous les deux formes un adjectif et un nom. Sans compter la différence cardinal/autumnrock.be (discussion) 14 mars à (UTC)

Nombre d'articles[modifier le wikicode]

Bonjour, En regardant les historiques, je m’aperçois que le nombre d’articles (dans le titre au début du tableau) n’évolue pas dans le temps quand on consulte les statistiques des mois passés. Il semble que c’est parce qu’il uitilise une variable donnant le nombre d’articles du moment même si l’on consulte l’historique de janvier par exemple. Ne pourrait-on pas le gérer autrement de façon à garder chaque mois la valeur du moment correspondante (en ce moment, le nombre d’articles est à 2 aussi bien pour le mois d’août que pour le mois de février dernier)&#;? UnsuiDiscuter 21 août à (UTC)

Bonjour Unsui, si tu parles des chiffres dans la section «&#;Progression actuelle&#;», alors oui ils sont générés automatiquement. Pour avoir le nombre de mots à un moment donné il faut consulter le bas du tableau. Attention il s’agit du nombre de mot, pas d’article. C’est-à-dire que s’il y a plusieurs sections de langues dans un article ça comptera pour autant de mots. Pamputt [Discuter] 22 août à (UTC)
Salut Pamputt, oui, je sais bien puisque j’avais écrit un programme temporaire à ce sujet. Mais je que j’aurais aimé, c’est en effet de connaître le nombre d’articles des mois passés. De toute façon ce n’est pas très normal d’afficher le nombre d’articles d’aujourdhui dans l(historique de février dernier par exemple. Bon, Ce n’est absolument pas important. Je peux en effet partir du nombres de mots qui lui, bien sûr, est correct à chaque fois. Je voulais juste le signaler et s’il y avait eu un truc simple pour avoir le nombre d’articles correct des mois passés (que le programme qui constitue ces stats fournirait à chaque fois à l’instar des autres nombres) j’étais preneur. T’en fais surtout pas c’est peanuts . UnsuiDiscuter 22 août à (UTC)

Erreurs[modifier le wikicode]

Il y a les modèles inexistants grc= et eo= présent dans le tableau. Je n’ose pas les retirer, de peur de tout casser, mais ça fait plutôt moche. Quelqu’un serait d’où vient le problème et serait en mesure de le résoudre&#;? Sinon il y a aussi le problème de la langue «&#;coréen (hanja)&#;» qui apparait deux fois dans le tableau mais avec évidemment des valeurs différentes. V!v£ [email protected] Rosière/Murmurer…/ 9 octobre à (UTC)

Ah oui je n’avais pas vu grc= et eo=. Il faut que je regarde le code car il doit y avoir un bogue quelque part, hmmm. Pour le coréen hanja, c’est parcequ’il utilise deux codes différents ( et ). Il faudrait remplacer l’un des deux modèles par l’autre. Par ailleurs, je ne connais pas le coréen mais on pourrait s’interroger sur la présence de cette langue&#;; n’est ce pas tout simplement du coréen&#;? Pamputt [Discuter] 9 octobre à (UTC)
Bah en gros si mais il semble que l’écriture hanja est dépréciée et soit devenue désuète (au moins en Corée du Sud) après en ce qui concerne le Nord on dirait que c’est encore utilisé. La fusion entrainerait les mêmes problèmes de classement que le japonais, vaut mieux donc avoir l’avis de Shinji. V!v£ [email protected] Rosière/Murmurer…/ 9 octobre à (UTC)
Pur info les codes eo= et grc= devraient avoir disparu dans la prochaine mise à jour. Pamputt [Discuter] 2 décembre à (UTC)

Compte total présenté par le tableau[modifier le wikicode]

Bonjour,

Le tableau indique 2 entrées récemment, mais la section Progression actuelle en indique de moins. Est-ce normal&#;? Automatik (discussion) 16 avril à (UTC)

Bonjour, la différence provient probablement du fait que «&#;Progression actuelle&#;» compte le nombre d’articles tandis que le compte donné dans le tableau compte chaque «&#;section&#;». Par exemple, si un article compte deux sections «&#;noms&#;», une section «&#;adjectif&#;» et une section «&#;flexion de verbe&#;» alors il comptera pour 4 dans le tableau. Pamputt [Discuter] 16 avril à (UTC)
Ça marche Automatik (discussion) 16 avril à (UTC)

Apparition de langues bizarres[modifier le wikicode]

…comme le Mickey Mouse, le Leeds, le Lucy, le Glagolitic, etc. Je suppose que c’est dû à du vandalisme, mais cachez où&#;? V!v£ [email protected] Rosière/Murmurer…/ 26 avril à (UTC)

Salut, ce n’était pas du vandalisme mais un bogue de JAckBot. Ces «&#;langues&#;» devraient donc disparaitre à la prochaine mise à jour. Pamputt [Discuter] 26 avril à (UTC)
On peut trouver la liste complète dans Catégorie:Modèles de langue sans code (déjà vidée apparemment). — Dakdada 26 avril à (UTC)
Dacodac. V!v£ [email protected] Rosière/Murmurer…/ 26 avril à (UTC)

Stats avec Lua[modifier le wikicode]

Bonjour,

Apparemment, les langues ajoutées en Lua n’ont plus de modèle associé (logique), donc ça crée un mauvais lien dans la liste des langues (ex&#;: [[:catégorie:Modèle:bzx|Modèle:bzx]]). Je ne sais pas si le bogue est facilement résolvable. Automatik (discussion) 18 juin à (UTC)

Il suffit de remplacer {{nzx}} par {{nom langue|bzx}}. Il faut que le script qui créée la page soit mis à jour du coup. — Dakdada 18 juin à (UTC)
Bon, la page est alourdie, forcément, mais il semble qu'on gagne quelques secondes (42s -> 30s, comparaison avec 1 échantillon de chaque :P). — Dakdada 18 juin à (UTC)
C’est bon ça, les effets du Lua commencent à se faire voir Automatik (discussion) 18 juin à (UTC)

Nombre de pages contenant au moins une entrée en français[modifier le wikicode]

Bonjour,

En lisant les en-têtes des colonnes du tableau des stats, je vois qu’il y a lemmes (indiqué comme "total - flexions"). Quelqu’un pourrait-il me dire comment est fait ce calcul&#;? Mon analyse de dump m’a donné pages pour le français (hors pages qui ne contiennent rien d’autre qu’une (ou des) flexion(s) en français), et il s’agit du dump du 1er juillet (donc à peu près au même moment si ce n’est au même).

Au cas où, je pose ci-dessous le regex que j’ai utilisé pour lister les pages&#;:

\{\{-(?:abr|adj(?:ectif|-dém|-excl|-indéf|-int|-num|-pos)?|adv(?:erbe|-int|-pron|-rel)?|aff |art(?:icle|-déf|-indéf|-part|-pers)?|conj(?:-coord)?|dét|faux-prov|inf|interf|interj(?:ection)?|lettre |nom(?:-fam|-pr|-propre|-sciences)?|num(?:ér|éral)?|onom(?:a|atopée)?|part(?:icule|-num) |post(?:position)?|préf(?:ixe)?|prénom|prép|pronom(?:-adj|-dém|-indéf|-int|-pers|-personnel|-pos|-rel)? |prov(?:erbe)?|radical|suf(?:fixe)?|symb(?:ole)?|verbe?|loc(?:-[^-]+)?)-\|fr\}\}

(Avec le regex , j’en obtiens de plus, dues aux sections -var-ortho- et -erreur- non prises en compte précédemment.)

J’avoue na pas trop comprendre, pourquoi cette différence avec la page de stats (il devrait y en avoir moins, puisque je liste les pages et non les entrées)&#;? En vous remerciant par avance, Automatik (discussion) 10 juillet à (UTC)

Bonjour Automatik, le nombre de «&#;lemmes&#;» correspond simplement au nombre total d’entrées moins le nombre de flexions. Donc tu as raison que tu devrais en trouver moins que le nombre actuellement indiqué dans le tableau. Je n’ai malheureusement pas le temps d’investiguer ça pour le moment mais le code utilisé pour faire les stats est dispo sur la page de Jona. Pamputt [Discuter] 11 juillet à (UTC)
J’ai le sentiment que le script de Jona ne prend pas en compte un certain nombre de types de mots&#;: tous les , , , , , etc. De plus, j’ai l’impression qu’il déduit le nombre de flexions à partir du nombre de , n’est-ce pas&#;?
D’ailleurs la ligne&#;:
elif(s[0].find("loc")==0):autumnrock.be([("loc",),currentLang])

est-elle censée récupérer les locutions&#;? J’ai l’impression qu’avec ce code seules les sont pris en compte, et non pas les , etc. (donc l’essentiel).

Finalement, en enlevant de l’analyse les modèles non pris en compte par Jona, et les locutions, j’en arrive à un nombre similaire (ce qui n’est toujours pas très logique). Il y a d’autre part un type de mot dans le code qui ne me paraît pas avoir sa place ici&#;:

elifs[0]=="pron":autumnrock.be([s,currentLang])

Avec plus loin&#;:

elifs[0]=="pronom":autumnrock.be([("pron",),currentLang])

alors que n’est pas un type de mot (par contre si). Automatik (discussion) 11 juillet à (UTC)

Beau travail d’analyse de code Automatik. Pour ma part, j’avoue ne pas m’être penché plus que ça sur le code. Donc si tu penses pouvoir améliorer son script, n’hésites surtout pas à le modifier. Je m’en servirai pour générer les prochaines stats. Pamputt [Discuter] 11 juillet à (UTC)
Après la rétro-ingénierie vient le refactoring. JackPotte ($♠) 11 juillet à (UTC)

Colonne "classement" fixe[modifier le wikicode]

Bonjour, que pensez-vous de ne pas rendre triable la colonne «&#;Classement&#;»&#;? L’intérêt c’est que les numéro ne bouge pas. Acutellement, si on veut regarder le classement d’une langue non pas en fonction du nombre d’entrée totale mais de son nombre de lemme (par exemple), on clique sur la flèche «&#;Lemme&#;» et toutes les colonnes bougent en même temps, y compris la colonne classement. Si on la rend fixe, ça permettrait de savoir directement quelle langue a le plus (ou le moins) de lemmes. Si ce n’est pas très parlant, j’ai fait un test sur Utilisateur:Pamputt/test. Ça mérite quelques améliorations. Par exemple, je ne sais pas comment spécifier la «&#;hauteur&#;» d’une cellule (pour le titre de la première colonne) ce qui explique que «&#;Classement&#;» ne soit pas centré. Pamputt [Discuter] 31 août à (UTC)

C'est pas mal, pour la hauteur voir Aide:Tableau (aide détaillée)#width_et_height sur l’encyclopédie Wikipédia . JackPotte ($♠) 31 août à (UTC)
J’ai regardé mais je n’arrive pas à utilisé «&#;height&#;» avec le «&#;!&#;» qui est utilisé pour le titre des colonnes. Du coup je ne sais pas comment modifier la hauteur d’une cellule de titre. Pamputt [Discuter] 5 septembre à (UTC)

Cela me semble une bonne idée. Lmaltier (discussion) 5 septembre à (UTC) À moi aussi&#;! Hector (discussion) 8 septembre à (UTC)

Ça y est, je viens de faire le changement. Petit problème, les colonnes semblent maintenant beaucoup plus large ce qui fait que le tableau «&#;déborde&#;» de mon petit écran à présent. Est ce que quelqu’un saurait comment corriger ce soucis&#;? Pamputt [Discuter] 18 décembre à (UTC)
En réduisant la police&#;? JackPotte ($♠) 18 décembre à (UTC)

Éxactitude des nombres présentés[modifier le wikicode]

Il y a comme un souci avec ces stats&#;: pour les langues les plus renseignées, la somme des lemmes ( nom communs + noms propres + adjectifs + verbes + adverbes + loc) affichée est souvent supérieure au nombre de lemmes de la colonne "Lemmes"&#;: Exemple en same du nord&#;: + + 74 + + 20 + 12 = Or le nombre de lemmes indique seulement Si par ailleurs on y ajoute les flexions, on obtient souvent un nombre supérieur au nombre d’entrées ( pour le français alors que le nombre d’entrées indiqué est de ). Il semble que le problème soit que le nombre d’entrées soit en fait le nombre de pages (qui peut contenir plusieurs types de mots pour une langue donnée). On ne peut donc pas calculer le nombre de lemmes comme étant le nombre d’entrées moins les flexions. Si cette hypothèse est la bonne, elle n’explique pas pourquoi le total des entrées en bas du tableau est différent du nombre de page Je reste perplexe… — UnsuiDiscuter 4 septembre à (UTC)

Oui en fait, le nombre total est différent du nombre de pages à cause des pages qui contiennent plusieurs langues. Quand à ce qui concerne les lemmes, il faudrait, amha, supprimer la colonne "ébauches" dont l’utilité ici n’est pas évidente et qui de plus prête à confusion car les entrées correspondantes sont déjà comptabilisées ailleurs (par exemple dans les noms communs, verbes, etc.) et renseigner 2 colonnes supplémentaires&#;: une "nombre total de définitions" et une "lemmes divers" et calculer le nombres de lemmes soit comme la somme des colonnes représentant les lemmes soit comme la différence entre le nombre total de définitions et les flexions (normalement cela devrait théoriquement donner la même chose). — UnsuiDiscuter 4 septembre à (UTC)
Salut, je pense que ça rejoins la discussion du dessus. Malheureusement, je n’ai pas encore trouvé le courage pour me pencher sur le code python du script de Jona… Pamputt [Discuter] 4 septembre à (UTC)
OK. Je ne pense pas qu’il y ait des tonnes de boulot mais je n’ai pas envie non plus de m’y coller, ne connaissant pas le python et ayant, comme tout le monde, des tas de casseroles sur le feu . — UnsuiDiscuter 4 septembre à (UTC)

problème du décompte de la colonne "lemmes"[modifier le wikicode]

Il y a un souci dans le calcul du nombre de lemmes dans la version actuelle (maj du 22 janvier ). Par exemple en occitan les flexions sont actuellement fort peu nombreuses, et le nombre total de mots est proche du nombre de lemmes, hors le tableau indique actuellement environ 50% de flexions (comparer avec la version du 7 janvier[2]). Même souci dans mes principales langues de travail (espagnol, catalan et ancien occitan). Xic 27 janvier à (UTC)

Bonsoir, le problème est connu. Le problème vient du fait que le code ne tient pas compte de la nouvelle syntaxe des articles (modèle ) (voir ma page de discussion). Unsui est en train de travailler dessus. Pamputt [Discuter] 27 janvier à (UTC)
Tout simplement, merci de la réponse Xic 27 janvier à (UTC)

Nouvelle version[modifier le wikicode]

Bonjour,

J’ai mis en ligne une nouvelle version tenant compte de la migration en cours des modèles relatifs aux types de mots. Il manque encore l’évolution avec les données du dump précédent. Je vais l’ajouter normalement pour la prochaine fois. L’analyse du dump étant différente de celle utilisée précédemment, il y a de petites différences parfois dans les résultats. De plus, les nouveaux modèles catégorise automatiquement comme locution tout mot vedette comportant une espace. Ce qui est différent de ce qui était pratiqué auparavant (où des modèles spécifiques étaient utilisés. Ce qui induit également des différences. N’hésitez pas à me faire part de vos remarques. Merci d’avance. — UnsuiDiscuter 28 janvier à (UTC)

Beau boulot&#;:) Remarquez, je me suis dit qu'on pourrait avoir une page qui utilise les mots magiques comme {{PAGESINCATEGORY:français}} qui donne 1&#;&#;, mais c’est une fonction coûteuse, ce qui veut dire qu’on ne peut en mettre que par pages (on peut faire ce genre de statistiques sur un portail par contre, ou n’utiliser que certaines statistiques pour certaines langues). — Dakdada 28 janvier à (UTC)
Pourquoi ne pas lancer le script d'Unsui toutes les nuits depuis un serveur de la fondation&#;?
Je pourrais le prendre sur mon profil si personne d'autres n'est en mesure de créer la cron. JackPotte ($♠) 28 janvier à (UTC)
On peut lancer le script automatiquement tous les jours pour vérifier s’il y a un nouveau dump, mais c’est à peu près tout. Par contre avoir une copie des codes d’Unsui sur le Tool Labs serait pas mal (même juste archivé), histoire d’éviter le problème qu’à eu Lmaltier. — Dakdada 29 janvier à (UTC)
Je mettrai une copie dès que les petits bugs que je suis en train de corriger auront disparu. Mais sinon, j’ai des copies de mes scripts un peu partout (y compris et surtout en cloud). Pour l’instant, je corrige les codes langues qu’a détectés le script, dans les modèles de types de mots quand ils ne correspondent pas à celui de la langue.. — UnsuiDiscuter 29 janvier à (UTC)
En ce qui concerne les lemmes d'italien, on est passé de mémoire de ~ à Est-ce dû à l'inclusion des locutions&#;? Ou à une autre raison&#;? Merci Hector (discussion) 29 janvier à (UTC)
Euh non, les locutions sont décomptées à part (elles ne font pas doublon avec les nombres des autres colonnes). Par contre les lemmes incluent maintenant les noms propres, je ne suis pas sûr que c’était le cas avant. C’est bien sûr discutable. J’attends un peu le résultat de la discussion sur les lemmes qui a lieu justement en ce moment pour m’aligner ensuite sur ce qui sera retenu. (Amha, ce sera à prendre avec des pincettes, la notion de lemmes étant une notion grammaticale propre à chaque langue et qui résulte des processus de lexicalisation. Bref, ça ne recouvre pas les mêmes choses selon les langues. Par exemple, en français, si "chantons" est une flexion de "chanter", "amicalement" n’est pas une flexion de "amical". Ce qui n’est pas le cas de toutes les langues. Du coup, ça me parait difficile de généraliser et ce de plus automatiquement. Je vais faire une page de présentation pour expliquer ces stats et le mode opératoire. — UnsuiDiscuter 29 janvier à (UTC)
OK, merci pour ta réponse. En fait, je viens de remarquer que la somme flexions+lemmes dépassait le total, tjs pour l'italien Mais ça n'est pas bien grave Merci pour ton boulot&#;! Hector (discussion) 30 janvier à (UTC)
J’ai vu que tu avais supprimé les proto-langues dans la dernière version. Je pense que c’est une bonne chose mais tu as oublié l’indo-européen commun Pamputt [Discuter] 30 janvier à (UTC)
Ah oui. OK je vais intégrer ça.
@Hector&#;: là, par contre, c’est normalement correct (j’ai vérifié avec plusieurs langues)&#;: le premier nombre est le nombre de pages; Mais dans une page en italien par exemple, tu peux avoir parfois pour un même mot par exemple un nom et un verbe, ou bien 2 noms (num=1 et num=2) etc. Du coup la somme des noms + verbes + etc dépasse alors le nombre de pages. Ça le fait pour toutes les langues pour lesquelles il y a beaucoup d’entrées. Je compte ajouter prochainement (après la migration) une colonne indiquant le nombre total de définitions par langue. On aura alors enfin&#;: nombre de déf = nombre de lemmes + nombres de flexion + divers (style locutions). Pour l’italien, j’ai pensé depuis, qu’outre l’explication que je t’ai donnée, il y a aussi le fait que le nombre de lemmes était mal calculé dans les stats précédentes (c’était justement dû au problème que je viens d’exposer car on faisait&#;: nombre de lemmes = nombre de pages (et non pas nombre de définitions) - nombre de flexions. Bref ça va finir par le faire comme on dit maintenant. . — UnsuiDiscuter 30 janvier à (UTC)
Une nouvelle version un peu plus détaillée est en ligne. Suite à une remarque de Lmaltier, j’ai modifié les intitulés de colonnes pour qu’ils correspondent un peu mieux à ce qu’ils sont censés représenter et ajouté deux colonnes pour les définitions en séparant celles concernant les flexions dont l’intérêt ne me parait pas très évident. — UnsuiDiscuter 17 février à (UTC)

Gentilés[modifier le wikicode]

En français on a importé énormément de gentilés (noms communs + adjectifs), si bien que leur nombre peut fausser les comparaisons avec les dictionnaires classiques qui n'en contiennent qu'une petite partie. Ce serait bien donc d'avoir une idée du nombre de ces gentilés. — Dakdada 17 février à (UTC)

Les gentilés sont des noms communs (avec majuscule), donc un nombre donné. Les adjectifs (avec minuscule) dérivés des gentilés représentent un autre nombre. Lmaltier a rentré automatiquement et avec leur accord les gentilés de autumnrock.be, des gentilés d'habitants de communes ( au 17 février annoncés sur le site). Il a créé les féminins et les pluriels. Il a créé parallèlement les adjectifs dérivés de ces gentilés, en faisant référence par courtoisie au site précité, avec les féminins et les pluriels. Il faut rajouter tous les gentilés qui ont été mis occasionnellement pour des habitants de pays, de régions, de provinces -- Béotien lambda 17 février à (UTC)
On a 50k adjectifs, si on estime que 30k sont des gentilés, c'est énorme et loin d'être négligeable si on veut comparer avec d'autres dicos. — Dakdada 17 février à (UTC)
Certes, mais les gentilés sont des noms et non pas des adjectifs (comme le fait remarquer Béo). Comment reconnait-on les gentilés et les adjectifs associés comme par exemple parisien&#;? — UnsuiDiscuter 17 février à (UTC)
La catégorie Gentilés_en_français indique pages … Pamputt [Discuter] 17 février à (UTC)
Elle rassemble aussi les flexions actuellement. Pour repérer les adjectifs associés à des gentilés comme parisien, je ne vois pas, pour autant il est possible de les cibler pour la majorité en cherchant dans la page. Une autre méthode pourrait être de chercher le terme capitalisé dans mais il y aura sans doute quelques faux-positifs (comme amateur/Amateur). Ce serait dans tous les cas une approximation du coup, sauf erreur. — Automatik (discussion) 17 février à (UTC)
Je ne serais pas contre un modèle pour marquer les définitions correspondant, ce serait bien pratique pour les traquer. De mon côté, mes scripts détectent les gentilés avec un mélange note-gentilé, merci-habitant, et en cherchant les définitions du type «&#;Habitant de&#;». J'en compte comme ça (noms français), mais ça doit inclure masculin et féminin. — Dakdada 17 février à (UTC)

Page lourde&#;: réorganiser&#;?[modifier le wikicode]

La page est particulièrement lourde à charger. Ce serait bien de trouver une solution pour alléger la page. Ce qu'on pourrait faire&#;:

  • Ne garder que les langues avec plus de //10 mots dans la page (soit 81, ou lignes sur ), et et mettre les autres dans une sous-page&#;;
  • Lister toutes les langues ici, mais détailler la composition dans une sous-page (en ne gardant que une ou deux colonnes, comme "total" et "lemmes").

Qu'en dites-vous&#;? — Dakdada 6 mars à (UTC)

Oui, j’y ai déjà travaillé. Ce que j’ai fait (pas encore en ligne)&#;: je regroupe toutes les langues qui ont une seule page sur une seule ligne (avec les totaux de chaque colonne correspondants) ce qui diminue la page de moitié. Quand on clique sur cette ligne on a soit le tableau inverse (toutes les langues qui n’ont qu’une seule page précédées d’une ligne pour regrouper toutes les autres) soit le tableau complet comme actuellement (je ne sais quelle est la solution préférable). Dans le 1er cas on ne peut plus faire une recherche de langue en une seule fois, dans le 2ème cas, si on a besoin de voir toutes langues la page reste bien évidemment lourde à charger. (Perso je préfère quand même la 1ère solution). Je vais présenter une maquette. — UnsuiDiscuter 6 mars à (UTC)
J’ai divisé la page en deux pages&#;: Utilisateur:Unsui/work d’où on peut se débrancher en cliquant sur "Langues n’ayant qu’une seule page" à Utilisateur:Unsui/work1 (et vice-versa). Merci de donner vos avis. — UnsuiDiscuter 7 mars à (UTC)
Je verrais bien plutôt une limite à 10 ou articles. — Dakdada 7 mars à (UTC)
Les nouvelles statistiques sont super, et puisqu’il est question de long temps de chargement, je m’étais demandé si colorer toute une colonne dans la même couleur était utile. Je trouve qu’une distinction par couleur est compréhensible pour la ligne d’évolution, mais pour les autres, on pourrait alléger en laissant une ligne colorée sur deux si le but est de s’y retrouver en naviguant, par exemple. Ça me semblerait plus logique, mais je peux me tromper. Par contre, ça n’augmente peut-être pas tellement le temps de chargement… — Automatik (discussion) 7 mars à (UTC)
C’est le temps de chargement qui te soucie (@ Dak) ou la longueur de la page. Car pour moi, sous chrome, les 2 pages se chargent en 4 secondes chacune, ce qui est somme toute acceptable. On pourrait, amha, par contre faire l’impasse sur la colonne "entrées précédentes" puisque l’on a la colonne "évolution". De plus ça réduirait la largeur de la page. Qu’en pensez-vous&#;; Pour l’alternance de la couleur, je ne suis pas sûr que ça réduise beaucoup le temps de chargement mais je vais la tester. — UnsuiDiscuter 7 mars à (UTC)
Personnellement, je suis d’accord pour supprimer la colonne "entrée précédente" pour la raison que tu énonces en effet. Je me suis mal exprimé à propos de la couleur. En fait ce que je voulais dire c’est&#;: est-ce utile d’avoir des colonnes colorées, à part la colonne «&#;Évolution&#;»&#;? Si c’est pour pouvoir s’y retrouver en utilisant l’ascenseur, alors je proposais l’alternance. Sinon, alors le mieux serait de supprimer simplement ces couleurs sauf pour la colonne «&#;Évolution&#;», et cela devrait faire gagner en même temps un peu de temps de chargement, même si certes pas beaucoup.
Pour le temps de chargement, la page WT:STAT prend actuellement 25 sec. à charger chez moi, Utilisateur:Unsui/work, 12 sec, Utilisateur:Unsui/work1 13 sec., sous Firefox. Déconnecté, les deux dernières prennent 8 sec. chacune à charger. Donc ça dépend beaucoup des configurations. — Automatik (discussion) 8 mars à (UTC)
OK c’est intéressant. Je vais supprimer la colonne "entrée précédente", je vais enlever un peu de couleur (mais pas tout) et garder dans la première page que les langues ayant au moins 3 pages. Je comprends le désir de Dak mais je pense qu’il ne faut pas trop défavoriser la 2ème page. Si ça reste trop long à charger (je compte sur toi pour m’indiquer le gain obtenu) j’éleverai à nouveau le seuil. Merci à toi en tout cas. — UnsuiDiscuter 8 mars à (UTC)
Bon, j’ai supprimé une colonne, enlevé des couleurs et gardé finalement que les langues ayant au moins 5 entrées sur la première page. Si tu pouvais me dire le gain obtenu ça serait super. — UnsuiDiscuter 8 mars à (UTC)
Ça reste les résultats obtenus avec ma configuration&#;: 8 secondes pour Utilisateur:Unsui/work et 15 pour l’autre. Ce devrait être un peu plus rapide avec quelqu’un qui a moins de gadgets. — Automatik (discussion) 9 mars à (UTC)

Bon, j’ai mis les nouvelles stats en ligne en faisant 2 tableaux&#;: langues ayant au moins 5 pages dans le premier et les autres dans le second. J’ai enlevé la colonne "entrées précédentes" puisqu’on a l’évolution et l’historique. J’ai supprimé les appels au module langue (mais le gain semble minime). On peut bien sûr changer également le nombre de pages par langues provoquant la rupture en 2 tableaux comme le suggère Dak. Et si vous avez d’autres suggestions, n’hésitez pas. Merci; — UnsuiDiscuter 15 mars à (UTC)

Historique[modifier le wikicode]

Y'a moyen qu'on obtienne des courbes au cours du temps&#;? Où sont archivé ces données&#;? --Lyokoï (discussion) 26 février à (UTC)

Je pense qu’il faut se taper l’historique. Je crois qu’il existe des technologies wiki pour tracer directement des graphes mais je n’ai plus le nom en tête des balises. Pamputt [Discuter] 26 février à (UTC)
J’ai ça pour mes courbes perso&#;:

Date - nombre de pages total - nombre de pages en français

25/04/ 11/05/ 02/06/ 21/06/ 20/07/ 29/07/ 07/08/ 27/08/ 16/09/ 07/10/ 25/11/ 05/12/ 26/12/ 14/02/ 13/03/ 08/04/ 26/04/ 15/05/ 03/06/ 16/06/ 02/07/ 18/07/ 09/08/ 19/08/ 29/08/ 12/09/ 24/09/ 10/10/ 23/10/ 07/11/ 23/11/ 07/12/ 23/12/ 07/01/ 22/01/ 10/02/ 26/02/ 15/03/ 31/03/ 18/04/ 19/04/ 13/06/ 04/07/ 30/07/ 21/08/ 01/09/ 06/10/ 02/11/ 01/12/ 05/01/ 25/02/
Désolé, je ne garde rien d’autres. Pour ce qui manque, il faut, comme le dit Pamputt, reprendre les historiques; — UnsuiDiscuter 26 février à (UTC)

Lignes de séparation[modifier le wikicode]

Dans le tableau, la ligne de séparation entre langues manque parfois. J'imagine que c'est très facile à corriger. Lmaltier (discussion) 11 mars à (UTC)

Je crois que c’est un bogue d’affichage. Mais je n’en suis pas absolument sûr. Entre quelle langue et quelle langue vois-tu qu’il manque une ligne de délimitation&#;? Pamputt [Discuter] 12 mars à (UTC)

  • Dessin anime alice au payes des merveille
  • Un jeu sur le site oculus
  • Chair de poule 2 les fantomes d halloween vostfr
  • Recuperer un morceau sur deezer
  • Voir films philharmonia episode 5
  • Les trolls 1fichier
  • Mechanic resurrection french
  • Helene merelle la reine noire ebook
  • Les jeux de lara croft a
  • Jeux de strategie pc age of mythology a