Code PHP pour extraire tous les liens d’une page HTML

Voici un petit bout de code qui permet d’extraire les liens d’une page HTML en PHP. L’algorithme s’appuie sur un regex dans lequel on indique les empreintes qui délimitent le liens. Reste à boucler sur chacun des liens dans un foreach.

Pour extraire les liens d’une page HTML en utilisant PHP, vous pouvez utiliser la fonction preg_match_all avec une expression régulière appropriée. Le code suivant illustre comment procéder :


// Le contenu HTML à analyser
$htmlContent = '...'; // Remplacez ceci avec le contenu HTML réel

// Expression régulière pour détecter les liens
$regex = '/<a href="(.*?)"/';

// Recherche des liens dans le contenu HTML
preg_match_all($regex, $htmlContent, $matches);

// $matches[1] contiendra tous les liens extraits
foreach ($matches[1] as $link) {
echo "Lien trouvé : $link\n";
}

Description du code :

Définition du Contenu HTML :
- La variable $htmlContent contient le contenu HTML à analyser. Dans un cas d’utilisation réel, cela pourrait être le résultat d’un file_get_contents ou d’une autre source de contenu HTML.
Définition de l’Expression Régulière :
- La variable $regex contient l’expression régulière pour identifier les liens dans le HTML. Cette expression recherche des balises <a> avec un attribut href, capturant l’URL dans href.
Extraction des Liens :
- La fonction preg_match_all est utilisée pour rechercher toutes les correspondances de cette expression régulière dans le contenu HTML. Les résultats sont stockés dans la variable $matches.
Parcours des Liens Extraits :
- $matches[1] contient un tableau des URL capturées par la partie (.*?) de l’expression régulière. Le script parcourt ce tableau avec une boucle foreach et affiche chaque lien trouvé.
Affichage des Liens :
- Dans la boucle foreach, chaque lien extrait est affiché.

Ce script est un exemple de base pour extraire des liens d’une page HTML. Gardez à l’esprit que l’utilisation d’expressions régulières pour analyser le HTML peut être fragile face à des variations dans la structure du HTML. Pour une analyse plus robuste, il est recommandé d’utiliser des parseurs HTML spécifiques tels que DOMDocument en PHP.