-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathTopWords.cs
More file actions
109 lines (90 loc) · 3.73 KB
/
TopWords.cs
File metadata and controls
109 lines (90 loc) · 3.73 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
using System.Text.RegularExpressions;
namespace MostTopWords;
/// <summary>
/// Fournit une méthode permettant d'extraire
/// les 3 mots les plus fréquents dans un texte.
/// </summary>
public class TopWords
{
/// <summary>
/// Retourne les trois mots les plus fréquents d'un texte.
/// </summary>
/// <param name="s">
/// Texte d'entrée pouvant contenir ponctuation, espaces et retours à la ligne.
/// </param>
/// <returns>
/// Liste contenant les trois mots les plus fréquents (ou moins si le texte
/// contient moins de mots distincts).
/// </returns>
public static List<string> Top3(string s)
{
// Si la chaîne est nulle ou vide, on retourne une liste vide.
if (string.IsNullOrWhiteSpace(s))
return new List<string>();
/*
Expression régulière permettant d'extraire les mots valides.
[a-zA-Z']+ -> séquence de lettres ou apostrophes
Nous filtrerons ensuite les séquences composées uniquement
d'apostrophes (ex : "'", "'''").
*/
var matches = Regex.Matches(s.ToLower(), @"[a-z']+");
// Dictionnaire permettant de compter les occurrences de chaque mot.
Dictionary<string, int> frequencies = new();
foreach (Match match in matches)
{
string word = match.Value;
// On ignore les séquences composées uniquement d'apostrophes.
if (word.All(c => c == '\''))
continue;
// Incrémentation du compteur.
if (frequencies.ContainsKey(word))
frequencies[word]++;
else
frequencies[word] = 1;
}
/*
Sélection des 3 mots les plus fréquents.
OrderByDescending -> tri par fréquence
Take(3) -> on garde les 3 premiers
Select -> on récupère uniquement le mot
*/
return frequencies
.OrderByDescending(kv => kv.Value)
.Take(3)
.Select(kv => kv.Key)
.ToList();
}
/// <summary>
/// Analyse un texte et retourne les trois mots les plus fréquents.
/// </summary>
/// <param name="s">Texte à analyser.</param>
/// <returns>Liste des trois mots les plus fréquents en minuscules.</returns>
public static List<string> Top3Linq(string s)
{
return Regex.Matches(s.ToLower(), @"[a-z']+")
// Recherche dans le texte toutes les séquences composées
// de lettres (a-z) ou d'apostrophes.
// Le texte est d'abord converti en minuscules afin de rendre
// la comparaison insensible à la casse.
.Select(m => m.Value)
// Chaque correspondance Regex (Match) est transformée
// en sa valeur textuelle (le mot trouvé).
.Where(w => w.Any(char.IsLetter))
// Filtre les correspondances invalides composées uniquement
// d'apostrophes comme "'" ou "'''".
// Un mot valide doit contenir au moins une lettre.
.GroupBy(w => w)
// Regroupe tous les mots identiques ensemble.
// Chaque groupe représente un mot unique et toutes ses occurrences.
.OrderByDescending(g => g.Count())
// Trie les groupes par nombre d'occurrences décroissant
// afin d'obtenir les mots les plus fréquents en premier.
.Take(3)
// Ne conserve que les 3 groupes les plus fréquents.
.Select(g => g.Key)
// Récupère uniquement le mot associé à chaque groupe.
.ToList();
// Convertit la séquence finale en List<string>
// conformément au type de retour demandé par la fonction.
}
}