Scraping des pages Web pour enrichissement avant Machine Learning

Cet article fait suite aux 4 articles précédents :

Classification de pages Web pour le SEO via le Machine Learning avec Python
Récupérez des données de positionnement de vos pages via Google Search Console API
Modèle Interne : test de classification de pages via le Machine Learning pour un seul site
Classification de pages via le Machine Learning sur un univers de concurrence avec Python – I.

Dans cet article nous allons créer de nouvelles variables explicatives à partir du contenu des pages Web positionnées, pour pouvoir les utiliser dans un nouvel essai de Machine Learning que nous verrons dans un article suivant.

Pour ce faire nous allons créer un scraper de pages Web directement dans notre code Python.

Nouvelles variables explicatives

Une fois la récupération du contenu des pages effectuées nous allons créer de nouvelles variables que nous allons ajouter à celles que nous avions déjà. La liste des variables au final sera :

isHttps : le site est -il en https ?
level : « pseudo niveau » de la
page dans l’arborescence du site
lenWebsite : taille de l’url du site en caractères
lenTokensWebSite : taille de l’url du site
en nombre de mots
lenTokensQueryInWebSiteFrequency :
fréquence des mots de la requête dans le nom du site.
sumTFIDFPathFrequency : somme des TF-IDF
pour les mots de WebSite en fonction de la taille en mots (indicateur
d’originalité du contenu).
lenPath : taille du chemin en caractères
lenTokensPath : taille du chemin en nombre
de mots
lenTokensQueryInPathFrequency : fréquence
des mots de la requête dans le chemin.
sumTFIDFPathFrequency : idem que pour
WebSite.
lenTitle : taille du titre en caractères
lenTokensTitle : taille du titre en mots
lenTokensQueryInTitleFrequency : fréquence
des mots de la requête dans le titre
sumTFIDFTitleFrequency : somme des TF-IDF
pour les mots du titre en fonction de la taille en mots (indicateur
d’originalité du contenu).
… on répète
les 4 variables précédentes pour les balises suivantes : description, H1,
H2, H3, H4, H5, B, EM, strong et aussi pour l’ensemble du contenu de la page
body
…
elapsedTime : temps de chargement de la
page
nbrInternalLinks : nombre de liens internes
sur la page
nbrExternalLinks : nombre de liens externes
sur la page.

De quoi aurons nous besoin ?

Python Anaconda

Comme précédemment, téléchargez la version de Python Anaconda qui vous convient selon votre ordinateur.

Jeu de données

Nous partons du jeu de données dfQPPS1-MAI.json créé lors de la phase précédente que vous pouvez récupérer au format .zip sur notre Github.

Code Source

Vous pouvez soit copier/coller les morceaux de codes ci-dessous, soit récupérer le code source en entier gratuitement dans notre boutique à l’adresse : https://www.anakeyn.com/boutique/produit/script-python-scraping-web-pour-machine-learning/

Pour des problèmes de manque de mémoire vive, vous remarquerez que nous sauvegardons régulièrement des données en fichiers .json et supprimons les jeux de données correspondants en mémoire pour pouvoir effectuer des traitements.

Récupération des bibliothèques utiles et définition de la fonction TF*IDF

Pour plus de détail sur la notion de TF*IDF, reportez vous à notre article Modèle Interne : test de classification de pages via le Machine Learning pour un seul site .

# -*- coding: utf-8 -*-

"""

Created on Tue Jun 25 18:39:18 2019

@author: Pierre

"""

##########################################################################

# ScrapWebPagesForMachineLearning

# Auteur : Pierre Rouarch - Licence GPL 3

# Scraping de page Web pour enrichir le Machine Learning

# sur un univers de concurrence

# Dans cette partie on va créer de nouvelles variables explicatives

# en récupérant le contenu des pages.

###################################################################

# On démarre ici

###################################################################

#Chargement des bibliothèques générales utiles

import numpy as np #pour les vecteurs et tableaux notamment

import pandas as pd #pour les Dataframes ou tableaux de données

import os

from urllib.parse import urlparse #pour parser les urls

import nltk # Pour le text mining

import requests #idem pour requete de la page finalement on choisit celui-ci

import time #pour calculer le 'temps' de chargement de la page

from bs4 import BeautifulSoup, SoupStrainer #pour le traitement des balises.

from bs4.element import Comment #pour récupérer les commentaires du source html

import re #pour les expressions regulieres

#pip install unicodedata

import unicodedata #pour décoder les accents

import gc #pour vider la memoire

print(os.getcwd()) #verif

#mon répertoire sur ma machine - nécessaire quand on fait tourner le programme

#par morceaux dans Spyder.

#myPath = "C:/Users/Pierre/MyPath"

#os.chdir(myPath) #modification du path

#print(os.getcwd()) #verif

############################################

# Calcul de la somme des tf*idf

#somme des TF*IDF pour chaque colonne de tokens calculée avec TfidfVectorizer

def getSumTFIDFfromDFColumn(myDFColumn) :

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = myDFColumn.apply(' '.join)

vectorizer = TfidfVectorizer(norm=None)

X = vectorizer.fit_transform(corpus)

return np.sum(X.toarray(), axis=1)

# -*- coding: utf-8 -*- """ Created on Tue Jun 25 18:39:18 2019 @author: Pierre """ ########################################################################## # ScrapWebPagesForMachineLearning # Auteur : Pierre Rouarch - Licence GPL 3 # Scraping de page Web pour enrichir le Machine Learning # sur un univers de concurrence # Dans cette partie on va créer de nouvelles variables explicatives # en récupérant le contenu des pages. ################################################################### # On démarre ici ################################################################### #Chargement des bibliothèques générales utiles import numpy as np #pour les vecteurs et tableaux notamment import pandas as pd #pour les Dataframes ou tableaux de données import os from urllib.parse import urlparse #pour parser les urls import nltk # Pour le text mining import requests #idem pour requete de la page finalement on choisit celui-ci import time #pour calculer le 'temps' de chargement de la page from bs4 import BeautifulSoup, SoupStrainer #pour le traitement des balises. from bs4.element import Comment #pour récupérer les commentaires du source html import re #pour les expressions regulieres #pip install unicodedata import unicodedata #pour décoder les accents import gc #pour vider la memoire print(os.getcwd()) #verif #mon répertoire sur ma machine - nécessaire quand on fait tourner le programme #par morceaux dans Spyder. #myPath = "C:/Users/Pierre/MyPath" #os.chdir(myPath) #modification du path #print(os.getcwd()) #verif ############################################ # Calcul de la somme des tf*idf #somme des TF*IDF pour chaque colonne de tokens calculée avec TfidfVectorizer def getSumTFIDFfromDFColumn(myDFColumn) : from sklearn.feature_extraction.text import TfidfVectorizer corpus = myDFColumn.apply(' '.join) vectorizer = TfidfVectorizer(norm=None) X = vectorizer.fit_transform(corpus) return np.sum(X.toarray(), axis=1)

# -*- coding: utf-8 -*-
"""
Created on Tue Jun 25 18:39:18 2019

@author: Pierre
"""
##########################################################################
# ScrapWebPagesForMachineLearning
# Auteur : Pierre Rouarch - Licence GPL 3
# Scraping de page Web pour enrichir le Machine Learning
# sur un univers de concurrence 
# Dans cette partie on va créer de nouvelles variables explicatives 
# en récupérant le contenu des pages.
###################################################################
# On démarre ici 
###################################################################
#Chargement des bibliothèques générales utiles
import numpy as np #pour les vecteurs et tableaux notamment
import pandas as pd  #pour les Dataframes ou tableaux de données
import os

from urllib.parse import urlparse #pour parser les urls
import nltk # Pour le text mining

import requests #idem pour requete de la page  finalement on choisit celui-ci
import time  #pour calculer le 'temps' de chargement de la page
from bs4 import BeautifulSoup, SoupStrainer #pour le traitement des balises.
from bs4.element import Comment #pour récupérer les commentaires du source html
import re  #pour les expressions regulieres
#pip install unicodedata
import unicodedata  #pour décoder les accents 
import gc #pour vider la memoire


print(os.getcwd())  #verif
#mon répertoire sur ma machine - nécessaire quand on fait tourner le programme 
#par morceaux dans Spyder.
#myPath = "C:/Users/Pierre/MyPath"
#os.chdir(myPath) #modification du path
#print(os.getcwd()) #verif


############################################
# Calcul de la somme des tf*idf
#somme des TF*IDF pour chaque colonne de tokens calculée avec TfidfVectorizer
def getSumTFIDFfromDFColumn(myDFColumn) :
    from sklearn.feature_extraction.text import TfidfVectorizer
    corpus = myDFColumn.apply(' '.join)
    vectorizer = TfidfVectorizer(norm=None)
    X = vectorizer.fit_transform(corpus)
    return np.sum(X.toarray(), axis=1)

Récupération du jeu de données et sélection des pages à scraper.

On ne va garder que les pages html. Par ailleurs, on effectue qu’une seule fois la lecture de chaque page.

#########################################################################

# Enrichissement des données avec le contenu des pages.

###########################################################

# on va scraper les pages que l'on a avec beautifoulsoup4 et

# requests :

# http://docs.python-requests.org/en/master/

###############################################################

#Lecture du fichier précédent ############

dfQPPS1 = pd.read_json("dfQPPS1-MAI.json")

dfQPPS1.query

dfQPPS1.info() # 14315 enregistrements.

#on filtre les extensions non html

extensionsToCheck = ('.7z','.aac','.au','.avi','.bmp','.bzip','.css','.doc',

'.docx','.flv','.gif','.gz','.gzip','.ico','.jpg','.jpeg',

'.js','.mov','.mp3','.mp4','.mpeg','.mpg','.odb','.odf',

'.odg','.odp','.ods','.odt','.pdf','.png','.ppt','.pptx',

'.psd','.rar','.swf','.tar','.tgz','.txt','.wav','.wmv',

'.xls','.xlsx','.xml','.z','.zip')

indexGoodFile=dfQPPS1['page'].apply(lambda x : not x.endswith(extensionsToCheck) )

dfQPPS2=dfQPPS1.iloc[indexGoodFile.values]

dfQPPS2.reset_index(inplace=True, drop=True)

dfQPPS2.info() #14162 un peu moins que précédement - 150 environ

#######################################################

# On ne va scraper les pages qu'une fois !

########################################################

myPagesToScrap = dfQPPS2['page'].unique()

dfPagesToScrap= pd.DataFrame(myPagesToScrap, columns=["page"])

dfPagesToScrap.size #9709 pages

######################################################################### # Enrichissement des données avec le contenu des pages. ########################################################### # on va scraper les pages que l'on a avec beautifoulsoup4 et # requests : # http://docs.python-requests.org/en/master/ ############################################################### #Lecture du fichier précédent ############ dfQPPS1 = pd.read_json("dfQPPS1-MAI.json") dfQPPS1.query dfQPPS1.info() # 14315 enregistrements. #on filtre les extensions non html extensionsToCheck = ('.7z','.aac','.au','.avi','.bmp','.bzip','.css','.doc', '.docx','.flv','.gif','.gz','.gzip','.ico','.jpg','.jpeg', '.js','.mov','.mp3','.mp4','.mpeg','.mpg','.odb','.odf', '.odg','.odp','.ods','.odt','.pdf','.png','.ppt','.pptx', '.psd','.rar','.swf','.tar','.tgz','.txt','.wav','.wmv', '.xls','.xlsx','.xml','.z','.zip') indexGoodFile=dfQPPS1['page'].apply(lambda x : not x.endswith(extensionsToCheck) ) dfQPPS2=dfQPPS1.iloc[indexGoodFile.values] dfQPPS2.reset_index(inplace=True, drop=True) dfQPPS2.info() #14162 un peu moins que précédement - 150 environ ####################################################### # On ne va scraper les pages qu'une fois ! ######################################################## myPagesToScrap = dfQPPS2['page'].unique() dfPagesToScrap= pd.DataFrame(myPagesToScrap, columns=["page"]) dfPagesToScrap.size #9709 pages

#########################################################################
#  Enrichissement des données avec le contenu des pages.
###########################################################
# on va scraper les pages que l'on a avec beautifoulsoup4 et 
# requests :
# http://docs.python-requests.org/en/master/
###############################################################
    
#Lecture du fichier précédent  ############
dfQPPS1 = pd.read_json("dfQPPS1-MAI.json")
dfQPPS1.query
dfQPPS1.info() # 14315 enregistrements.

#on filtre les extensions non html
extensionsToCheck = ('.7z','.aac','.au','.avi','.bmp','.bzip','.css','.doc',
                     '.docx','.flv','.gif','.gz','.gzip','.ico','.jpg','.jpeg',
                     '.js','.mov','.mp3','.mp4','.mpeg','.mpg','.odb','.odf',
                     '.odg','.odp','.ods','.odt','.pdf','.png','.ppt','.pptx',
                     '.psd','.rar','.swf','.tar','.tgz','.txt','.wav','.wmv',
                     '.xls','.xlsx','.xml','.z','.zip')

indexGoodFile=dfQPPS1['page'].apply(lambda x : not x.endswith(extensionsToCheck) )
dfQPPS2=dfQPPS1.iloc[indexGoodFile.values]
dfQPPS2.reset_index(inplace=True, drop=True)
dfQPPS2.info() #14162 un peu moins que précédement - 150 environ

#######################################################
# On ne va scraper les pages qu'une fois  !
########################################################
myPagesToScrap = dfQPPS2['page'].unique()
dfPagesToScrap= pd.DataFrame(myPagesToScrap, columns=["page"])
dfPagesToScrap.size #9709 pages

Scraping des pages

Cette partie peut durer un certain temps en fonction de votre nombre de pages. Pour nous 9709 pages.

#######################################################

########## Lecture des pages !!!! peut être long !!!

#ajout de nouvelles variables

dfPagesToScrap['statusCode'] = ''

dfPagesToScrap['html'] = '' #servira par la suite.

dfPagesToScrap['encoding'] = '' #servira par la suite.

dfPagesToScrap['elapsedTime'] = np.nan

for i in range(0,len(dfPagesToScrap)) :

url = dfPagesToScrap.loc[i, 'page']

print("Page i = "+url+" "+str(i))

startTime = time.time()

try:

#html = urllib.request.urlopen(url).read()$

r = requests.get(url, timeout=5) #finalement on prend request

dfPagesToScrap.loc[i,'statusCode'] = r.status_code

print('Status_code '+str(dfPagesToScrap.loc[i,'statusCode']))

if r.status_code == 200 :

dfPagesToScrap.loc[i,'encoding'] = r.encoding #peut servir

dfPagesToScrap.loc[i, 'html'] = r.text #on conserve tout le contenu

#au format texte r.text - pas bytes : r.content

print("ok page ")

except:

print("Erreur page ")

endTime= time.time()

dfPagesToScrap.loc[i, 'elapsedTime'] = endTime - startTime

#SVG dfPagesToScrap

#Sauvegarde

dfPagesToScrap.to_json("dfPagesToScrap.json")

####################################################### ########## Lecture des pages !!!! peut être long !!! #ajout de nouvelles variables dfPagesToScrap['statusCode'] = '' dfPagesToScrap['html'] = '' #servira par la suite. dfPagesToScrap['encoding'] = '' #servira par la suite. dfPagesToScrap['elapsedTime'] = np.nan for i in range(0,len(dfPagesToScrap)) : url = dfPagesToScrap.loc[i, 'page'] print("Page i = "+url+" "+str(i)) startTime = time.time() try: #html = urllib.request.urlopen(url).read()$ r = requests.get(url, timeout=5) #finalement on prend request dfPagesToScrap.loc[i,'statusCode'] = r.status_code print('Status_code '+str(dfPagesToScrap.loc[i,'statusCode'])) if r.status_code == 200 : dfPagesToScrap.loc[i,'encoding'] = r.encoding #peut servir dfPagesToScrap.loc[i, 'html'] = r.text #on conserve tout le contenu #au format texte r.text - pas bytes : r.content print("ok page ") except: print("Erreur page ") endTime= time.time() dfPagesToScrap.loc[i, 'elapsedTime'] = endTime - startTime #SVG dfPagesToScrap #Sauvegarde dfPagesToScrap.to_json("dfPagesToScrap.json")

#######################################################
########## Lecture des pages !!!!  peut être long !!! 


#ajout de nouvelles variables
dfPagesToScrap['statusCode'] = ''
dfPagesToScrap['html'] = ''  #servira par la suite.
dfPagesToScrap['encoding'] = ''  #servira par la suite.
dfPagesToScrap['elapsedTime'] = np.nan

for i in range(0,len(dfPagesToScrap)) :
    url = dfPagesToScrap.loc[i, 'page']
    print("Page i = "+url+" "+str(i))
    startTime = time.time()
    try:
        #html = urllib.request.urlopen(url).read()$
        r = requests.get(url, timeout=5)  #finalement on prend request
        dfPagesToScrap.loc[i,'statusCode'] = r.status_code
        print('Status_code '+str(dfPagesToScrap.loc[i,'statusCode']))
        if r.status_code == 200 :
            dfPagesToScrap.loc[i,'encoding'] = r.encoding #peut servir 
            dfPagesToScrap.loc[i, 'html'] = r.text  #on conserve tout le contenu 
            #au format texte r.text - pas bytes : r.content
            print("ok page ") 
    except:
        print("Erreur page ") 
    endTime= time.time()   
    dfPagesToScrap.loc[i, 'elapsedTime'] =  endTime - startTime
    
           
      
#SVG dfPagesToScrap        
   #Sauvegarde 
dfPagesToScrap.to_json("dfPagesToScrap.json")

Reconstruction du jeu de données principal

On va récupérer les données de scraping dans le jeu de données principal. on va aussi enlever les pages en erreur qui ne nous intéressent pas :

#Relecture ############

dfPagesToScrap = pd.read_json("dfPagesToScrap.json")

dfPagesToScrap.query

dfPagesToScrap.info() # env 9709 enregistrements.

#ici faire le merge avec dfQPPS2 -> dfQPPS3

dfQPPS3 = pd.merge(dfQPPS2, dfPagesToScrap, on='page', how='left')

#on ne garde que les status code = 200

dfQPPS3 = dfQPPS3.loc[dfQPPS3['statusCode'] == 200]

dfQPPS3.reset_index(inplace=True, drop=True)

dfQPPS3.info() # 12207 enregistrements

dfQPPS3 = dfQPPS3.dropna() #on vire les lignes qui comportent au moins un na

dfQPPS3.reset_index(inplace=True, drop=True)

dfQPPS3.info() #12194 enregistrements

#Sauvegarde

dfQPPS3.to_json("dfQPPS3.json")

##########################################

#Relecture ############ dfPagesToScrap = pd.read_json("dfPagesToScrap.json") dfPagesToScrap.query dfPagesToScrap.info() # env 9709 enregistrements. #ici faire le merge avec dfQPPS2 -> dfQPPS3 dfQPPS3 = pd.merge(dfQPPS2, dfPagesToScrap, on='page', how='left') #on ne garde que les status code = 200 dfQPPS3 = dfQPPS3.loc[dfQPPS3['statusCode'] == 200] dfQPPS3.reset_index(inplace=True, drop=True) dfQPPS3.info() # 12207 enregistrements dfQPPS3 = dfQPPS3.dropna() #on vire les lignes qui comportent au moins un na dfQPPS3.reset_index(inplace=True, drop=True) dfQPPS3.info() #12194 enregistrements #Sauvegarde dfQPPS3.to_json("dfQPPS3.json") ##########################################

#Relecture ############
dfPagesToScrap = pd.read_json("dfPagesToScrap.json")
dfPagesToScrap.query
dfPagesToScrap.info() # env 9709  enregistrements.     
        
        
#ici faire le merge avec   dfQPPS2    ->  dfQPPS3   
dfQPPS3 = pd.merge(dfQPPS2, dfPagesToScrap, on='page', how='left')    
#on ne garde que les status code = 200   
dfQPPS3 = dfQPPS3.loc[dfQPPS3['statusCode'] == 200]   
dfQPPS3.reset_index(inplace=True, drop=True)    
dfQPPS3.info() # 12207 enregistrements
dfQPPS3 = dfQPPS3.dropna()  #on vire les lignes qui comportent au moins un na
dfQPPS3.reset_index(inplace=True, drop=True) 
dfQPPS3.info() #12194 enregistrements
#Sauvegarde 
dfQPPS3.to_json("dfQPPS3.json")  
##########################################

Préparation des nouvelles variables

Les nouvelles variables seront créées à partir du contenu que l’on vient de scraper. On a besoin aussi de quelques fonctions pour le nettoyage.

###########################################################################

# Enrichissement avec des variables créées à partir du contenu des pages

###########################################################################

#Relecture ############

dfQPPS3 = pd.read_json("dfQPPS3.json")

dfQPPS3.query

dfQPPS3.info() # 12194 enregistrements

#vider la memoire

dir()

del dfPagesToScrap

del dfQPPS1

del dfQPPS2

gc.collect()

#####Récupération de données de balises

def getStringfromTag(tag="h1") :

theTag = soup.find_all(tag)

myTag = ""

for x in theTag:

myTag= myTag + " " + x.text.strip()

return myTag.strip()

#pour enlever les éléments non visibles et les commentaires

def tag_visible(element):

if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:

return False

if isinstance(element, Comment):

return False

return True

def strip_accents(text, encoding='utf-8'):

"""

Strip accents from input String.

:param text: The input string.

:type text: String.

:returns: The processed String.

:rtype: String.

"""

text = unicodedata.normalize('NFD', text)

text = text.encode('ascii', 'ignore')

text = text.decode(encoding)

return str(text)

tokenizer = nltk.RegexpTokenizer(r'\w+') #définition du tokeniser pour séparation des mots

###############################################################

# Intialisation et définition de nouvelles variables

###############################################################

dfQPPS3['lenTokensQuery'] = 0.0 #nombre de mots dans la requete

#pour le titre

dfQPPS3['Title'] = "" #Titre String vide

dfQPPS3['lenTitle'] = 0.0 #taille en caractères du titre

dfQPPS3['tokensTitle'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots du titre

dfQPPS3['lenTokensTitle'] = 0.0 #nombre de mots du titre

dfQPPS3['lenTokensQueryInTitleFrequency'] = 0.0 #fréquence de mots de la requete dans le titre

#sumTFIDF

dfQPPS3['sumTFIDFTitle'] = 0.0

#pour la description

dfQPPS3['Description'] = "" #String vide

dfQPPS3['lenDescription'] = 0.0 #taille en caractères

dfQPPS3['tokensDescription'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensDescription'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInDescriptionFrequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFDescription'] = 0.0

#pour H1

dfQPPS3['H1'] = "" #String vide

dfQPPS3['lenH1'] = 0.0 #taille en caractères

dfQPPS3['tokensH1'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensH1'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInH1Frequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFH1'] = 0.0

#pour H2

dfQPPS3['H2'] = "" #String vide

dfQPPS3['lenH2'] = 0.0 #taille en caractères

dfQPPS3['tokensH2'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensH2'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInH2Frequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFH2'] = 0.0

#pour H3

dfQPPS3['H3'] = "" #String vide

dfQPPS3['lenH3'] = 0.0 #taille en caractères

dfQPPS3['tokensH3'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensH3'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInH3Frequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFH3'] = 0.0

#pour H4

dfQPPS3['H4'] = "" #String vide

dfQPPS3['lenH4'] = 0.0 #taille en caractères

dfQPPS3['tokensH4'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensH4'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInH4Frequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFH4'] = 0.0

#pour H5

dfQPPS3['H5'] = "" #String vide

dfQPPS3['lenH5'] = 0.0 #taille en caractères

dfQPPS3['tokensH5'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensH5'] = 0.0 #nombre de mots en H5

dfQPPS3['lenTokensQueryInH5Frequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFH5'] = 0.0

#pour H6

dfQPPS3['H6'] = "" #String vide

dfQPPS3['lenH6'] = 0.0 #taille en caractères

dfQPPS3['tokensH6'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensH6'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInH6Frequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFH6'] = 0.0

#pour B

dfQPPS3['B'] = "" #String vide

dfQPPS3['lenB'] = 0.0 #taille en caractères

dfQPPS3['tokensB'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensB'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInBFrequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFB'] = 0.0

#pour I

dfQPPS3['I'] = "" #String vide

dfQPPS3['lenI'] = 0.0 #taille en caractères

dfQPPS3['tokensI'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensI'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInIFrequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFI'] = 0.0

#pour EM

dfQPPS3['EM'] = "" #String vide

dfQPPS3['lenEM'] = 0.0 #taille en caractères

dfQPPS3['tokensEM'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensEM'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInEMFrequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFEM'] = 0.0

#pour Strong

dfQPPS3['Strong'] = "" #String vide

dfQPPS3['lenStrong'] = 0.0 #taille en caractères

dfQPPS3['tokensStrong'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensStrong'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInStrongFrequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFStrong'] = 0.0

#pour Body

dfQPPS3['Body'] = "" #String vide

dfQPPS3['lenBody'] = 0.0 #taille en caractères

dfQPPS3['tokensBody'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots

dfQPPS3['lenTokensBody'] = 0.0 #nombre de mots

dfQPPS3['lenTokensQueryInBodyFrequency'] = 0.0 #fréquence de mots de la requete

#sumTFIDF

dfQPPS3['sumTFIDFBody'] = 0.0

#Liens internes et externes

dfQPPS3['nbrInternalLinks'] = 0

dfQPPS3['nbrExternalLinks'] = 0

########################################################################### # Enrichissement avec des variables créées à partir du contenu des pages ########################################################################### #Relecture ############ dfQPPS3 = pd.read_json("dfQPPS3.json") dfQPPS3.query dfQPPS3.info() # 12194 enregistrements #vider la memoire dir() del dfPagesToScrap del dfQPPS1 del dfQPPS2 gc.collect() #####Récupération de données de balises def getStringfromTag(tag="h1") : theTag = soup.find_all(tag) myTag = "" for x in theTag: myTag= myTag + " " + x.text.strip() return myTag.strip() #pour enlever les éléments non visibles et les commentaires def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True def strip_accents(text, encoding='utf-8'): """ Strip accents from input String. :param text: The input string. :type text: String. :returns: The processed String. :rtype: String. """ text = unicodedata.normalize('NFD', text) text = text.encode('ascii', 'ignore') text = text.decode(encoding) return str(text) tokenizer = nltk.RegexpTokenizer(r'\w+') #définition du tokeniser pour séparation des mots ############################################################### # Intialisation et définition de nouvelles variables ############################################################### dfQPPS3['lenTokensQuery'] = 0.0 #nombre de mots dans la requete #pour le titre dfQPPS3['Title'] = "" #Titre String vide dfQPPS3['lenTitle'] = 0.0 #taille en caractères du titre dfQPPS3['tokensTitle'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots du titre dfQPPS3['lenTokensTitle'] = 0.0 #nombre de mots du titre dfQPPS3['lenTokensQueryInTitleFrequency'] = 0.0 #fréquence de mots de la requete dans le titre #sumTFIDF dfQPPS3['sumTFIDFTitle'] = 0.0 #pour la description dfQPPS3['Description'] = "" #String vide dfQPPS3['lenDescription'] = 0.0 #taille en caractères dfQPPS3['tokensDescription'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensDescription'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInDescriptionFrequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFDescription'] = 0.0 #pour H1 dfQPPS3['H1'] = "" #String vide dfQPPS3['lenH1'] = 0.0 #taille en caractères dfQPPS3['tokensH1'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensH1'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInH1Frequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFH1'] = 0.0 #pour H2 dfQPPS3['H2'] = "" #String vide dfQPPS3['lenH2'] = 0.0 #taille en caractères dfQPPS3['tokensH2'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensH2'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInH2Frequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFH2'] = 0.0 #pour H3 dfQPPS3['H3'] = "" #String vide dfQPPS3['lenH3'] = 0.0 #taille en caractères dfQPPS3['tokensH3'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensH3'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInH3Frequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFH3'] = 0.0 #pour H4 dfQPPS3['H4'] = "" #String vide dfQPPS3['lenH4'] = 0.0 #taille en caractères dfQPPS3['tokensH4'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensH4'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInH4Frequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFH4'] = 0.0 #pour H5 dfQPPS3['H5'] = "" #String vide dfQPPS3['lenH5'] = 0.0 #taille en caractères dfQPPS3['tokensH5'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensH5'] = 0.0 #nombre de mots en H5 dfQPPS3['lenTokensQueryInH5Frequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFH5'] = 0.0 #pour H6 dfQPPS3['H6'] = "" #String vide dfQPPS3['lenH6'] = 0.0 #taille en caractères dfQPPS3['tokensH6'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensH6'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInH6Frequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFH6'] = 0.0 #pour B dfQPPS3['B'] = "" #String vide dfQPPS3['lenB'] = 0.0 #taille en caractères dfQPPS3['tokensB'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensB'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInBFrequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFB'] = 0.0 #pour I dfQPPS3['I'] = "" #String vide dfQPPS3['lenI'] = 0.0 #taille en caractères dfQPPS3['tokensI'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensI'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInIFrequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFI'] = 0.0 #pour EM dfQPPS3['EM'] = "" #String vide dfQPPS3['lenEM'] = 0.0 #taille en caractères dfQPPS3['tokensEM'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensEM'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInEMFrequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFEM'] = 0.0 #pour Strong dfQPPS3['Strong'] = "" #String vide dfQPPS3['lenStrong'] = 0.0 #taille en caractères dfQPPS3['tokensStrong'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensStrong'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInStrongFrequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFStrong'] = 0.0 #pour Body dfQPPS3['Body'] = "" #String vide dfQPPS3['lenBody'] = 0.0 #taille en caractères dfQPPS3['tokensBody'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots dfQPPS3['lenTokensBody'] = 0.0 #nombre de mots dfQPPS3['lenTokensQueryInBodyFrequency'] = 0.0 #fréquence de mots de la requete #sumTFIDF dfQPPS3['sumTFIDFBody'] = 0.0 #Liens internes et externes dfQPPS3['nbrInternalLinks'] = 0 dfQPPS3['nbrExternalLinks'] = 0

###########################################################################
# Enrichissement avec des variables créées à partir du contenu des pages
###########################################################################

#Relecture ############
dfQPPS3 = pd.read_json("dfQPPS3.json")
dfQPPS3.query
dfQPPS3.info() # 12194 enregistrements
      
#vider la memoire
dir()
del dfPagesToScrap
del dfQPPS1
del dfQPPS2

gc.collect()

     
#####Récupération de données de balises
def getStringfromTag(tag="h1") :
    theTag = soup.find_all(tag)
    myTag = ""
    for x in theTag:
        myTag= myTag + " " + x.text.strip()
    return myTag.strip()   

#pour enlever les éléments non visibles et les commentaires 
def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True

 

def strip_accents(text, encoding='utf-8'):
    """
    Strip accents from input String.

    :param text: The input string.
    :type text: String.

    :returns: The processed String.
    :rtype: String.
    """
    text = unicodedata.normalize('NFD', text)
    text = text.encode('ascii', 'ignore')
    text = text.decode(encoding)
    return str(text)

tokenizer = nltk.RegexpTokenizer(r'\w+')  #définition du tokeniser pour séparation des mots

###############################################################
# Intialisation et définition de nouvelles variables
###############################################################
dfQPPS3['lenTokensQuery'] = 0.0  #nombre de mots dans la requete 
#pour le titre
dfQPPS3['Title'] = ""  #Titre String vide
dfQPPS3['lenTitle'] = 0.0  #taille en caractères du titre
dfQPPS3['tokensTitle'] = dfQPPS3.apply(lambda x: [], axis=1) #liste de mots du titre
dfQPPS3['lenTokensTitle'] = 0.0  #nombre de mots du titre
dfQPPS3['lenTokensQueryInTitleFrequency'] = 0.0 #fréquence de mots de la requete dans le titre
#sumTFIDF
dfQPPS3['sumTFIDFTitle'] = 0.0   


#pour la description
dfQPPS3['Description'] = ""  #String vide
dfQPPS3['lenDescription'] = 0.0  #taille en caractères
dfQPPS3['tokensDescription'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensDescription'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInDescriptionFrequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFDescription'] = 0.0   
#pour H1
dfQPPS3['H1'] = ""  #String vide
dfQPPS3['lenH1'] = 0.0  #taille en caractères
dfQPPS3['tokensH1'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensH1'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInH1Frequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFH1'] = 0.0  
#pour H2
dfQPPS3['H2'] = ""  #String vide
dfQPPS3['lenH2'] = 0.0  #taille en caractères
dfQPPS3['tokensH2'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensH2'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInH2Frequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFH2'] = 0.0  
#pour H3
dfQPPS3['H3'] = ""  #String vide
dfQPPS3['lenH3'] = 0.0  #taille en caractères
dfQPPS3['tokensH3'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensH3'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInH3Frequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFH3'] = 0.0  
#pour H4
dfQPPS3['H4'] = ""  #String vide
dfQPPS3['lenH4'] = 0.0  #taille en caractères
dfQPPS3['tokensH4'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensH4'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInH4Frequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFH4'] = 0.0  
#pour H5
dfQPPS3['H5'] = ""  #String vide
dfQPPS3['lenH5'] = 0.0  #taille en caractères
dfQPPS3['tokensH5'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensH5'] = 0.0  #nombre de mots en H5
dfQPPS3['lenTokensQueryInH5Frequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFH5'] = 0.0  
#pour H6
dfQPPS3['H6'] = ""  #String vide
dfQPPS3['lenH6'] = 0.0  #taille en caractères
dfQPPS3['tokensH6'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensH6'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInH6Frequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFH6'] = 0.0  
#pour B
dfQPPS3['B'] = ""  #String vide
dfQPPS3['lenB'] = 0.0  #taille en caractères
dfQPPS3['tokensB'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensB'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInBFrequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFB'] = 0.0  
#pour I
dfQPPS3['I'] = ""  #String vide
dfQPPS3['lenI'] = 0.0  #taille en caractères
dfQPPS3['tokensI'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensI'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInIFrequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFI'] = 0.0  
#pour EM
dfQPPS3['EM'] = ""  #String vide
dfQPPS3['lenEM'] = 0.0  #taille en caractères
dfQPPS3['tokensEM'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensEM'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInEMFrequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFEM'] = 0.0  
#pour Strong
dfQPPS3['Strong'] = ""  #String vide
dfQPPS3['lenStrong'] = 0.0  #taille en caractères
dfQPPS3['tokensStrong'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensStrong'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInStrongFrequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFStrong'] = 0.0  
#pour Body
dfQPPS3['Body'] = ""  #String vide
dfQPPS3['lenBody'] = 0.0  #taille en caractères
dfQPPS3['tokensBody'] = dfQPPS3.apply(lambda x: [], axis=1)  #liste de mots
dfQPPS3['lenTokensBody'] = 0.0  #nombre de mots 
dfQPPS3['lenTokensQueryInBodyFrequency'] = 0.0 #fréquence de mots de la requete 
#sumTFIDF 
dfQPPS3['sumTFIDFBody'] = 0.0  

#Liens internes et externes
dfQPPS3['nbrInternalLinks'] = 0
dfQPPS3['nbrExternalLinks'] = 0

Récupération des données pour les nouvelles variables

On récupère les données en bouclant sur tous les contenus HTML. La plupart des variables que l’on souhaite sont créées dans cette phase.

#i=0 #pour test

#len(dfQPPS3) 12194

#on boucle pour décoder le code HTML des pages web

for i in range(0,len(dfQPPS3)) :

print("Page query i = "+dfQPPS3.loc[i, 'page']+" "+dfQPPS3.loc[i, 'query']+" "+str(i))

#autre méthode brute pour récupérer l'encoding

#encoding = re.findall(r'<meta.*?charset=["\']*(.+?)["\'>]', dfQPPS3['html'][i], flags=re.I)[0]

encoding = dfQPPS3.loc[i, 'encoding'] #on l'avait conservé.

if (type(encoding) == float and np.isnan(encoding)) or encoding=='binary' : #ça arrive !

encoding="utf-8"

#Récuperation de la recquete

queryNoAccent= strip_accents( dfQPPS3.loc[i,'query'], encoding).lower()

tokensQueryNoAccent = tokenizer.tokenize(queryNoAccent)

dfQPPS3.loc[i, 'lenTokensQuery']=len(tokensQueryNoAccent) #taille en mots

try:

soup = BeautifulSoup(dfQPPS3.loc[i, 'html'], 'html.parser')

except :

soup=""

if len(soup) != 0 : #si on a de la soup

!!!

#Titre

try:

myTitle = strip_accents(soup.title.string, encoding).lower()

except:

myTitle=""

print("Title="+myTitle)

dfQPPS3.loc[i, 'Title'] = myTitle

dfQPPS3.loc[i, 'lenTitle'] = len(myTitle)

tokensTitle= tokenizer.tokenize(myTitle)

#taille en mots

dfQPPS3.loc[i,'lenTokensTitle'] = len(tokensTitle)

#nombre de mots de la query dans le titre

lenTokensQueryInTitle = len([word for word in tokensTitle if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensTitle'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInTitleFrequency'] = lenTokensQueryInTitle/dfQPPS3.loc[i,'lenTokensTitle']

else :

dfQPPS3.loc[i, 'lenTokensQueryInTitleFrequency'] = 0

#Description

myDescription=""

if (len(soup.select('meta[name="description"]')) >0) :

try:

myDescription = soup.select('meta[name="description"]')[0].attrs['content']

except:

myDescription=""

else :

myDescription=""

print("Description="+myDescription)

myDescription = strip_accents(myDescription, encoding).lower()

dfQPPS3.loc[i, 'lenDescription'] = len(myDescription)

tokensDescription= tokenizer.tokenize(myDescription)

dfQPPS3.loc[i, 'Description'] = myDescription

#taille en mots

dfQPPS3.loc[i,'lenTokensDescription'] = len(tokensDescription)

lenTokensQueryInDescription = len([word for word in tokensDescription if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensDescription'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInDescriptionFrequency'] = lenTokensQueryInDescription/dfQPPS3.loc[i,'lenTokensDescription']

else :

dfQPPS3.loc[i, 'lenTokensQueryInDescriptionFrequency'] = 0

#H1

myH1 = getStringfromTag("h1")

myH1 = strip_accents(myH1, encoding).lower()

dfQPPS3.loc[i, 'lenH1'] = len(myH1)

tokensH1= tokenizer.tokenize(myH1)

dfQPPS3.loc[i, 'H1'] = myH1

#taille en mots

dfQPPS3.loc[i,'lenTokensH1'] = len(tokensH1)

lenTokensQueryInH1 = len([word for word in tokensH1 if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensH1'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInH1Frequency'] = lenTokensQueryInH1/dfQPPS3.loc[i,'lenTokensH1']

else :

dfQPPS3.loc[i, 'lenTokensQueryInH1Frequency'] = 0

#H2

myH2 = getStringfromTag("h2")

myH2 = strip_accents(myH2, encoding).lower()

dfQPPS3.loc[i, 'lenH2'] = len(myH2)

tokensH2= tokenizer.tokenize(myH2)

dfQPPS3.loc[i, 'H2'] = myH2

#taille en mots

dfQPPS3.loc[i,'lenTokensH2'] = len(tokensH2)

lenTokensQueryInH2 = len([word for word in tokensH2 if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensH2'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInH2Frequency'] = lenTokensQueryInH2/dfQPPS3.loc[i,'lenTokensH2']

else :

dfQPPS3.loc[i, 'lenTokensQueryInH2Frequency'] = 0

#H3

myH3 = getStringfromTag("h3")

myH3 = strip_accents(myH3, encoding).lower()

dfQPPS3.loc[i, 'lenH3'] = len(myH3)

tokensH3= tokenizer.tokenize(myH3)

dfQPPS3.loc[i, 'H3'] = myH3

#taille en mots

dfQPPS3.loc[i,'lenTokensH3'] = len(tokensH3)

lenTokensQueryInH3 = len([word for word in tokensH3 if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensH3'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInH3Frequency'] = lenTokensQueryInH3/dfQPPS3.loc[i,'lenTokensH3']

else :

dfQPPS3.loc[i, 'lenTokensQueryInH3Frequency'] = 0

#H4

myH4 = getStringfromTag("h4")

myH4 = strip_accents(myH4, encoding).lower()

dfQPPS3.loc[i, 'lenH4'] = len(myH4)

tokensH4= tokenizer.tokenize(myH4)

dfQPPS3.loc[i, 'H4'] = myH4

#taille en mots

dfQPPS3.loc[i,'lenTokensH4'] = len(tokensH4)

lenTokensQueryInH4 = len([word for word in tokensH4 if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensH4'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInH4Frequency'] = lenTokensQueryInH4/dfQPPS3.loc[i,'lenTokensH4']

else :

dfQPPS3.loc[i, 'lenTokensQueryInH4Frequency'] = 0

#H5

myH5 = getStringfromTag("h5")

myH5 = strip_accents(myH5, encoding).lower()

dfQPPS3.loc[i, 'lenH5'] = len(myH5)

tokensH5= tokenizer.tokenize(myH5)

dfQPPS3.loc[i, 'H5'] = myH5

#taille en mots

dfQPPS3.loc[i,'lenTokensH5'] = len(tokensH5)

lenTokensQueryInH5 = len([word for word in tokensH5 if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensH5'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInH5Frequency'] = lenTokensQueryInH5/dfQPPS3.loc[i,'lenTokensH5']

else :

dfQPPS3.loc[i, 'lenTokensQueryInH5Frequency'] = 0

#H6

myH6 = getStringfromTag("h6")

myH6 = strip_accents(myH6, encoding).lower()

dfQPPS3.loc[i, 'lenH6'] = len(myH6)

tokensH6= tokenizer.tokenize(myH6)

dfQPPS3.loc[i, 'H6'] = myH6

#taille en mots

dfQPPS3.loc[i,'lenTokensH6'] = len(tokensH6)

lenTokensQueryInH6 = len([word for word in tokensH6 if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensH6'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInH6Frequency'] = lenTokensQueryInH6/dfQPPS3.loc[i,'lenTokensH6']

else :

dfQPPS3.loc[i, 'lenTokensQueryInH6Frequency'] = 0

myB = getStringfromTag("b")

myB = strip_accents(myB, encoding).lower()

dfQPPS3.loc[i, 'lenB'] = len(myB)

tokensB= tokenizer.tokenize(myB)

dfQPPS3.loc[i, 'B'] = myB

#taille en mots

dfQPPS3.loc[i,'lenTokensB'] = len(tokensB)

lenTokensQueryInB = len([word for word in tokensB if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensB'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInBFrequency'] = lenTokensQueryInB/dfQPPS3.loc[i,'lenTokensB']

else :

dfQPPS3.loc[i, 'lenTokensQueryInBFrequency'] = 0

myI = getStringfromTag("I")

myI = strip_accents(myI, encoding).lower()

dfQPPS3.loc[i, 'lenI'] = len(myI)

tokensI = tokenizer.tokenize(myI)

dfQPPS3.loc[i, 'I'] = myI

#taille en mots

dfQPPS3.loc[i,'lenTokensI'] = len(tokensI)

lenTokensQueryInI = len([word for word in tokensI if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensI'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInIFrequency'] = lenTokensQueryInI/dfQPPS3.loc[i,'lenTokensI']

else :

dfQPPS3.loc[i, 'lenTokensQueryInIFrequency'] = 0

#EM

myEM = getStringfromTag("em")

myEM = strip_accents(myEM, encoding).lower()

dfQPPS3.loc[i, 'lenEM'] = len(myEM)

tokensEM= tokenizer.tokenize(myEM)

dfQPPS3.loc[i, 'EM'] = myEM

#taille en mots

dfQPPS3.loc[i,'lenTokensEM'] = len(tokensEM)

lenTokensQueryInEM = len([word for word in tokensEM if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensEM'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInEMFrequency'] = lenTokensQueryInEM/dfQPPS3.loc[i,'lenTokensEM']

else :

dfQPPS3.loc[i, 'lenTokensQueryInEMFrequency'] = 0

#Strong

myStrong = getStringfromTag("strong")

myStrong = strip_accents(myStrong, encoding).lower()

dfQPPS3.loc[i, 'lenStrong'] = len(myStrong)

tokensStrong= tokenizer.tokenize(myStrong)

dfQPPS3.loc[i, 'Strong'] = myStrong

#taille en mots

dfQPPS3.loc[i,'lenTokensStrong'] = len(tokensStrong)

lenTokensQueryInStrong = len([word for word in tokensStrong if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensStrong'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInStrongFrequency'] = lenTokensQueryInStrong/dfQPPS3.loc[i,'lenTokensStrong']

else :

dfQPPS3.loc[i, 'lenTokensQueryInStrongFrequency'] = 0

#Tout le contenu de body

texts = soup.findAll(text=True)

visible_texts = filter(tag_visible, texts)

myBody = " ".join(t.strip() for t in visible_texts)

myBody=myBody.strip()

myBody=re.sub(' +', ' ',myBody)

myBody = strip_accents(myBody, encoding).lower()

dfQPPS3.loc[i, 'lenBody'] = len(myBody)

tokensBody= tokenizer.tokenize(myBody)

dfQPPS3.loc[i, 'Body'] = myBody

#taille en mots

dfQPPS3.loc[i,'lenTokensBody'] = len(tokensBody)

lenTokensQueryInBody = len([word for word in tokensBody if word in tokensQueryNoAccent])

if dfQPPS3.loc[i,'lenTokensBody'] > 0 :

dfQPPS3.loc[i, 'lenTokensQueryInBodyFrequency'] = lenTokensQueryInBody/dfQPPS3.loc[i,'lenTokensBody']

else :

dfQPPS3.loc[i, 'lenTokensQueryInBodyFrequency'] = 0

#recupération des liens

soupLinks = BeautifulSoup(dfQPPS3.loc[i, 'html'], 'html.parser', parse_only=SoupStrainer('a'))

theLinks = [link['href'] for link in soupLinks if link.get('href')]

myDomain=dfQPPS3.loc[i, 'uriNetLoc']

nbrInternalLinks = 0

nbrExternalLinks = 0

for link in theLinks :

if len(link) > 0 : #on ne prend que s'il y a qq chose dans le lien

myLink = urlparse(link)

#print("Lien repéré = "+link)

#print("Domaine repéré = "+myLink.netloc)

if (myLink.netloc == myDomain or myLink.netloc == ""):

nbrInternalLinks += 1

else:

nbrExternalLinks += 1

dfQPPS3.loc[i, 'nbrInternalLinks'] = nbrInternalLinks

dfQPPS3.loc[i, 'nbrExternalLinks'] = nbrExternalLinks

#on ne garde que les enregistrement avec "body"

indexGoodBody = dfQPPS3[(dfQPPS3.loc[dfQPPS3['Body']==""]==False)].index

dfQPPS3 = dfQPPS3.iloc[indexGoodBody] #on ne garde que les bons enregistremments

dfQPPS3.reset_index(inplace=True, drop=True) #on reindexe

dfQPPS3.info(verbose=True) #12194 aucune perte

#svg en flat file

dfQPPS3.to_json("dfQPPS4.json") #

#vider la memoire

del dfQPPS3

gc.collect()

#i=0 #pour test #len(dfQPPS3) 12194 #on boucle pour décoder le code HTML des pages web for i in range(0,len(dfQPPS3)) : print("Page query i = "+dfQPPS3.loc[i, 'page']+" "+dfQPPS3.loc[i, 'query']+" "+str(i)) #autre méthode brute pour récupérer l'encoding #encoding = re.findall(r'<meta.*?charset=["\']*(.+?)["\'>]', dfQPPS3['html'][i], flags=re.I)[0] encoding = dfQPPS3.loc[i, 'encoding'] #on l'avait conservé. if (type(encoding) == float and np.isnan(encoding)) or encoding=='binary' : #ça arrive ! encoding="utf-8" #Récuperation de la recquete queryNoAccent= strip_accents( dfQPPS3.loc[i,'query'], encoding).lower() tokensQueryNoAccent = tokenizer.tokenize(queryNoAccent) dfQPPS3.loc[i, 'lenTokensQuery']=len(tokensQueryNoAccent) #taille en mots try: soup = BeautifulSoup(dfQPPS3.loc[i, 'html'], 'html.parser') except : soup="" if len(soup) != 0 : #si on a de la soup

!!! #Titre try: myTitle = strip_accents(soup.title.string, encoding).lower() except: myTitle="" print("Title="+myTitle) dfQPPS3.loc[i, 'Title'] = myTitle dfQPPS3.loc[i, 'lenTitle'] = len(myTitle) tokensTitle= tokenizer.tokenize(myTitle) #taille en mots dfQPPS3.loc[i,'lenTokensTitle'] = len(tokensTitle) #nombre de mots de la query dans le titre lenTokensQueryInTitle = len([word for word in tokensTitle if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensTitle'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInTitleFrequency'] = lenTokensQueryInTitle/dfQPPS3.loc[i,'lenTokensTitle'] else : dfQPPS3.loc[i, 'lenTokensQueryInTitleFrequency'] = 0 #Description myDescription="" if (len(soup.select('meta[name="description"]')) >0) : try: myDescription = soup.select('meta[name="description"]')[0].attrs['content'] except: myDescription="" else : myDescription="" print("Description="+myDescription) myDescription = strip_accents(myDescription, encoding).lower() dfQPPS3.loc[i, 'lenDescription'] = len(myDescription) tokensDescription= tokenizer.tokenize(myDescription) dfQPPS3.loc[i, 'Description'] = myDescription #taille en mots dfQPPS3.loc[i,'lenTokensDescription'] = len(tokensDescription) lenTokensQueryInDescription = len([word for word in tokensDescription if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensDescription'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInDescriptionFrequency'] = lenTokensQueryInDescription/dfQPPS3.loc[i,'lenTokensDescription'] else : dfQPPS3.loc[i, 'lenTokensQueryInDescriptionFrequency'] = 0 #H1 myH1 = getStringfromTag("h1") myH1 = strip_accents(myH1, encoding).lower() dfQPPS3.loc[i, 'lenH1'] = len(myH1) tokensH1= tokenizer.tokenize(myH1) dfQPPS3.loc[i, 'H1'] = myH1 #taille en mots dfQPPS3.loc[i,'lenTokensH1'] = len(tokensH1) lenTokensQueryInH1 = len([word for word in tokensH1 if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensH1'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInH1Frequency'] = lenTokensQueryInH1/dfQPPS3.loc[i,'lenTokensH1'] else : dfQPPS3.loc[i, 'lenTokensQueryInH1Frequency'] = 0 #H2 myH2 = getStringfromTag("h2") myH2 = strip_accents(myH2, encoding).lower() dfQPPS3.loc[i, 'lenH2'] = len(myH2) tokensH2= tokenizer.tokenize(myH2) dfQPPS3.loc[i, 'H2'] = myH2 #taille en mots dfQPPS3.loc[i,'lenTokensH2'] = len(tokensH2) lenTokensQueryInH2 = len([word for word in tokensH2 if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensH2'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInH2Frequency'] = lenTokensQueryInH2/dfQPPS3.loc[i,'lenTokensH2'] else : dfQPPS3.loc[i, 'lenTokensQueryInH2Frequency'] = 0 #H3 myH3 = getStringfromTag("h3") myH3 = strip_accents(myH3, encoding).lower() dfQPPS3.loc[i, 'lenH3'] = len(myH3) tokensH3= tokenizer.tokenize(myH3) dfQPPS3.loc[i, 'H3'] = myH3 #taille en mots dfQPPS3.loc[i,'lenTokensH3'] = len(tokensH3) lenTokensQueryInH3 = len([word for word in tokensH3 if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensH3'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInH3Frequency'] = lenTokensQueryInH3/dfQPPS3.loc[i,'lenTokensH3'] else : dfQPPS3.loc[i, 'lenTokensQueryInH3Frequency'] = 0 #H4 myH4 = getStringfromTag("h4") myH4 = strip_accents(myH4, encoding).lower() dfQPPS3.loc[i, 'lenH4'] = len(myH4) tokensH4= tokenizer.tokenize(myH4) dfQPPS3.loc[i, 'H4'] = myH4 #taille en mots dfQPPS3.loc[i,'lenTokensH4'] = len(tokensH4) lenTokensQueryInH4 = len([word for word in tokensH4 if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensH4'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInH4Frequency'] = lenTokensQueryInH4/dfQPPS3.loc[i,'lenTokensH4'] else : dfQPPS3.loc[i, 'lenTokensQueryInH4Frequency'] = 0 #H5 myH5 = getStringfromTag("h5") myH5 = strip_accents(myH5, encoding).lower() dfQPPS3.loc[i, 'lenH5'] = len(myH5) tokensH5= tokenizer.tokenize(myH5) dfQPPS3.loc[i, 'H5'] = myH5 #taille en mots dfQPPS3.loc[i,'lenTokensH5'] = len(tokensH5) lenTokensQueryInH5 = len([word for word in tokensH5 if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensH5'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInH5Frequency'] = lenTokensQueryInH5/dfQPPS3.loc[i,'lenTokensH5'] else : dfQPPS3.loc[i, 'lenTokensQueryInH5Frequency'] = 0 #H6 myH6 = getStringfromTag("h6") myH6 = strip_accents(myH6, encoding).lower() dfQPPS3.loc[i, 'lenH6'] = len(myH6) tokensH6= tokenizer.tokenize(myH6) dfQPPS3.loc[i, 'H6'] = myH6 #taille en mots dfQPPS3.loc[i,'lenTokensH6'] = len(tokensH6) lenTokensQueryInH6 = len([word for word in tokensH6 if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensH6'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInH6Frequency'] = lenTokensQueryInH6/dfQPPS3.loc[i,'lenTokensH6'] else : dfQPPS3.loc[i, 'lenTokensQueryInH6Frequency'] = 0 #B myB = getStringfromTag("b") myB = strip_accents(myB, encoding).lower() dfQPPS3.loc[i, 'lenB'] = len(myB) tokensB= tokenizer.tokenize(myB) dfQPPS3.loc[i, 'B'] = myB #taille en mots dfQPPS3.loc[i,'lenTokensB'] = len(tokensB) lenTokensQueryInB = len([word for word in tokensB if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensB'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInBFrequency'] = lenTokensQueryInB/dfQPPS3.loc[i,'lenTokensB'] else : dfQPPS3.loc[i, 'lenTokensQueryInBFrequency'] = 0 #I myI = getStringfromTag("I") myI = strip_accents(myI, encoding).lower() dfQPPS3.loc[i, 'lenI'] = len(myI) tokensI = tokenizer.tokenize(myI) dfQPPS3.loc[i, 'I'] = myI #taille en mots dfQPPS3.loc[i,'lenTokensI'] = len(tokensI) lenTokensQueryInI = len([word for word in tokensI if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensI'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInIFrequency'] = lenTokensQueryInI/dfQPPS3.loc[i,'lenTokensI'] else : dfQPPS3.loc[i, 'lenTokensQueryInIFrequency'] = 0 #EM myEM = getStringfromTag("em") myEM = strip_accents(myEM, encoding).lower() dfQPPS3.loc[i, 'lenEM'] = len(myEM) tokensEM= tokenizer.tokenize(myEM) dfQPPS3.loc[i, 'EM'] = myEM #taille en mots dfQPPS3.loc[i,'lenTokensEM'] = len(tokensEM) lenTokensQueryInEM = len([word for word in tokensEM if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensEM'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInEMFrequency'] = lenTokensQueryInEM/dfQPPS3.loc[i,'lenTokensEM'] else : dfQPPS3.loc[i, 'lenTokensQueryInEMFrequency'] = 0 #Strong myStrong = getStringfromTag("strong") myStrong = strip_accents(myStrong, encoding).lower() dfQPPS3.loc[i, 'lenStrong'] = len(myStrong) tokensStrong= tokenizer.tokenize(myStrong) dfQPPS3.loc[i, 'Strong'] = myStrong #taille en mots dfQPPS3.loc[i,'lenTokensStrong'] = len(tokensStrong) lenTokensQueryInStrong = len([word for word in tokensStrong if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensStrong'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInStrongFrequency'] = lenTokensQueryInStrong/dfQPPS3.loc[i,'lenTokensStrong'] else : dfQPPS3.loc[i, 'lenTokensQueryInStrongFrequency'] = 0 #Tout le contenu de body texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) myBody = " ".join(t.strip() for t in visible_texts) myBody=myBody.strip() myBody=re.sub(' +', ' ',myBody) myBody = strip_accents(myBody, encoding).lower() dfQPPS3.loc[i, 'lenBody'] = len(myBody) tokensBody= tokenizer.tokenize(myBody) dfQPPS3.loc[i, 'Body'] = myBody #taille en mots dfQPPS3.loc[i,'lenTokensBody'] = len(tokensBody) lenTokensQueryInBody = len([word for word in tokensBody if word in tokensQueryNoAccent]) if dfQPPS3.loc[i,'lenTokensBody'] > 0 : dfQPPS3.loc[i, 'lenTokensQueryInBodyFrequency'] = lenTokensQueryInBody/dfQPPS3.loc[i,'lenTokensBody'] else : dfQPPS3.loc[i, 'lenTokensQueryInBodyFrequency'] = 0 #recupération des liens soupLinks = BeautifulSoup(dfQPPS3.loc[i, 'html'], 'html.parser', parse_only=SoupStrainer('a')) theLinks = [link['href'] for link in soupLinks if link.get('href')] myDomain=dfQPPS3.loc[i, 'uriNetLoc'] nbrInternalLinks = 0 nbrExternalLinks = 0 for link in theLinks : if len(link) > 0 : #on ne prend que s'il y a qq chose dans le lien myLink = urlparse(link) #print("Lien repéré = "+link) #print("Domaine repéré = "+myLink.netloc) if (myLink.netloc == myDomain or myLink.netloc == ""): nbrInternalLinks += 1 else: nbrExternalLinks += 1 dfQPPS3.loc[i, 'nbrInternalLinks'] = nbrInternalLinks dfQPPS3.loc[i, 'nbrExternalLinks'] = nbrExternalLinks #on ne garde que les enregistrement avec "body" indexGoodBody = dfQPPS3[(dfQPPS3.loc[dfQPPS3['Body']==""]==False)].index dfQPPS3 = dfQPPS3.iloc[indexGoodBody] #on ne garde que les bons enregistremments dfQPPS3.reset_index(inplace=True, drop=True) #on reindexe dfQPPS3.info(verbose=True) #12194 aucune perte #svg en flat file dfQPPS3.to_json("dfQPPS4.json") # #vider la memoire del dfQPPS3 gc.collect()

#i=0 #pour test
#len(dfQPPS3)  12194
#on boucle pour décoder le code HTML des pages web
for i in range(0,len(dfQPPS3)) :
    print("Page query i = "+dfQPPS3.loc[i, 'page']+" "+dfQPPS3.loc[i, 'query']+" "+str(i))
    #autre méthode brute pour récupérer l'encoding
    #encoding = re.findall(r'<meta.*?charset=["\']*(.+?)["\'>]', dfQPPS3['html'][i], flags=re.I)[0]
    encoding = dfQPPS3.loc[i, 'encoding'] #on l'avait conservé.
    if (type(encoding) == float and np.isnan(encoding)) or encoding=='binary' : #ça arrive !
        encoding="utf-8"
    #Récuperation de la recquete
    queryNoAccent= strip_accents( dfQPPS3.loc[i,'query'], encoding).lower()
    tokensQueryNoAccent = tokenizer.tokenize(queryNoAccent)
    dfQPPS3.loc[i, 'lenTokensQuery']=len(tokensQueryNoAccent) #taille en mots
    try:
        soup = BeautifulSoup(dfQPPS3.loc[i, 'html'], 'html.parser')
    except :
        soup="" 
    if len(soup) != 0 :  #si on a de la  soup  !!!

        #Titre 
        try: 
            myTitle = strip_accents(soup.title.string, encoding).lower()
        except:
            myTitle=""
            
        print("Title="+myTitle) 
        dfQPPS3.loc[i, 'Title'] = myTitle   
        dfQPPS3.loc[i, 'lenTitle'] = len(myTitle)
        tokensTitle= tokenizer.tokenize(myTitle)
        #taille en mots
        dfQPPS3.loc[i,'lenTokensTitle'] = len(tokensTitle)
        #nombre de mots de la query dans le titre
        lenTokensQueryInTitle = len([word for word in tokensTitle if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensTitle'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInTitleFrequency'] = lenTokensQueryInTitle/dfQPPS3.loc[i,'lenTokensTitle']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInTitleFrequency'] = 0
        
        #Description
        myDescription=""
        if (len(soup.select('meta[name="description"]')) >0) :
            try:
                myDescription = soup.select('meta[name="description"]')[0].attrs['content']
            except:
              myDescription=""
        else :
            myDescription=""
        print("Description="+myDescription) 
        myDescription = strip_accents(myDescription, encoding).lower()
        dfQPPS3.loc[i, 'lenDescription'] = len(myDescription)
        tokensDescription= tokenizer.tokenize(myDescription)
        dfQPPS3.loc[i, 'Description'] = myDescription
        #taille en mots
        dfQPPS3.loc[i,'lenTokensDescription'] = len(tokensDescription)
        lenTokensQueryInDescription = len([word for word in tokensDescription if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensDescription'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInDescriptionFrequency'] = lenTokensQueryInDescription/dfQPPS3.loc[i,'lenTokensDescription']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInDescriptionFrequency'] = 0       
        #H1
        myH1 =  getStringfromTag("h1")
        myH1 = strip_accents(myH1, encoding).lower()
        dfQPPS3.loc[i, 'lenH1'] = len(myH1)
        tokensH1= tokenizer.tokenize(myH1)
        dfQPPS3.loc[i, 'H1'] = myH1
        #taille en mots
        dfQPPS3.loc[i,'lenTokensH1'] = len(tokensH1)
        lenTokensQueryInH1 = len([word for word in tokensH1 if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensH1'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInH1Frequency'] = lenTokensQueryInH1/dfQPPS3.loc[i,'lenTokensH1']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInH1Frequency'] = 0
        #H2
        myH2 =  getStringfromTag("h2")
        myH2 = strip_accents(myH2, encoding).lower()
        dfQPPS3.loc[i, 'lenH2'] = len(myH2)
        tokensH2= tokenizer.tokenize(myH2)
        dfQPPS3.loc[i, 'H2'] = myH2
        #taille en mots
        dfQPPS3.loc[i,'lenTokensH2'] = len(tokensH2)
        lenTokensQueryInH2 = len([word for word in tokensH2 if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensH2'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInH2Frequency'] = lenTokensQueryInH2/dfQPPS3.loc[i,'lenTokensH2']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInH2Frequency'] = 0
        #H3
        myH3 =  getStringfromTag("h3")
        myH3 = strip_accents(myH3, encoding).lower()
        dfQPPS3.loc[i, 'lenH3'] = len(myH3)
        tokensH3= tokenizer.tokenize(myH3)
        dfQPPS3.loc[i, 'H3'] = myH3
        #taille en mots
        dfQPPS3.loc[i,'lenTokensH3'] = len(tokensH3)
        lenTokensQueryInH3 = len([word for word in tokensH3 if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensH3'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInH3Frequency'] = lenTokensQueryInH3/dfQPPS3.loc[i,'lenTokensH3']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInH3Frequency'] = 0
        #H4
        myH4 =  getStringfromTag("h4")
        myH4 = strip_accents(myH4, encoding).lower()
        dfQPPS3.loc[i, 'lenH4'] = len(myH4)
        tokensH4= tokenizer.tokenize(myH4)
        dfQPPS3.loc[i, 'H4'] = myH4
        #taille en mots
        dfQPPS3.loc[i,'lenTokensH4'] = len(tokensH4)
        lenTokensQueryInH4 = len([word for word in tokensH4 if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensH4'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInH4Frequency'] = lenTokensQueryInH4/dfQPPS3.loc[i,'lenTokensH4']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInH4Frequency'] = 0
        #H5
        myH5 =  getStringfromTag("h5")
        myH5 = strip_accents(myH5, encoding).lower()
        dfQPPS3.loc[i, 'lenH5'] = len(myH5)
        tokensH5= tokenizer.tokenize(myH5)
        dfQPPS3.loc[i, 'H5'] = myH5
        #taille en mots
        dfQPPS3.loc[i,'lenTokensH5'] = len(tokensH5)
        lenTokensQueryInH5 = len([word for word in tokensH5 if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensH5'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInH5Frequency'] = lenTokensQueryInH5/dfQPPS3.loc[i,'lenTokensH5']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInH5Frequency'] = 0
        #H6
        myH6 =  getStringfromTag("h6")
        myH6 = strip_accents(myH6, encoding).lower()
        dfQPPS3.loc[i, 'lenH6'] = len(myH6)
        tokensH6= tokenizer.tokenize(myH6)     
        dfQPPS3.loc[i, 'H6'] = myH6
        #taille en mots
        dfQPPS3.loc[i,'lenTokensH6'] = len(tokensH6)
        lenTokensQueryInH6 = len([word for word in tokensH6 if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensH6'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInH6Frequency'] = lenTokensQueryInH6/dfQPPS3.loc[i,'lenTokensH6']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInH6Frequency'] = 0
        #B
        myB =  getStringfromTag("b")
        myB = strip_accents(myB, encoding).lower()
        dfQPPS3.loc[i, 'lenB'] = len(myB)
        tokensB= tokenizer.tokenize(myB)
        dfQPPS3.loc[i, 'B'] = myB
        #taille en mots
        dfQPPS3.loc[i,'lenTokensB'] = len(tokensB)
        lenTokensQueryInB = len([word for word in tokensB if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensB'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInBFrequency'] = lenTokensQueryInB/dfQPPS3.loc[i,'lenTokensB']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInBFrequency'] = 0
        #I
        myI =  getStringfromTag("I")
        myI = strip_accents(myI, encoding).lower()
        dfQPPS3.loc[i, 'lenI'] = len(myI)
        tokensI = tokenizer.tokenize(myI)
        dfQPPS3.loc[i, 'I'] = myI
        #taille en mots
        dfQPPS3.loc[i,'lenTokensI'] = len(tokensI)
        lenTokensQueryInI = len([word for word in tokensI if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensI'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInIFrequency'] = lenTokensQueryInI/dfQPPS3.loc[i,'lenTokensI']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInIFrequency'] = 0
        #EM
        myEM =  getStringfromTag("em")
        myEM = strip_accents(myEM, encoding).lower()
        dfQPPS3.loc[i, 'lenEM'] = len(myEM)
        tokensEM= tokenizer.tokenize(myEM)
        dfQPPS3.loc[i, 'EM'] = myEM
        #taille en mots
        dfQPPS3.loc[i,'lenTokensEM'] = len(tokensEM)
        lenTokensQueryInEM = len([word for word in tokensEM if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensEM'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInEMFrequency'] = lenTokensQueryInEM/dfQPPS3.loc[i,'lenTokensEM']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInEMFrequency'] = 0
        #Strong
        myStrong =  getStringfromTag("strong")
        myStrong = strip_accents(myStrong, encoding).lower()
        dfQPPS3.loc[i, 'lenStrong'] = len(myStrong)
        tokensStrong= tokenizer.tokenize(myStrong)
        dfQPPS3.loc[i, 'Strong'] = myStrong
        #taille en mots
        dfQPPS3.loc[i,'lenTokensStrong'] = len(tokensStrong)
        lenTokensQueryInStrong = len([word for word in tokensStrong if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensStrong'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInStrongFrequency'] = lenTokensQueryInStrong/dfQPPS3.loc[i,'lenTokensStrong']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInStrongFrequency'] = 0
        #Tout le contenu de body
        texts = soup.findAll(text=True)
        visible_texts = filter(tag_visible, texts)  
        myBody = " ".join(t.strip() for t in visible_texts)
        myBody=myBody.strip()
        myBody=re.sub(' +', ' ',myBody)
        myBody = strip_accents(myBody, encoding).lower()
        dfQPPS3.loc[i, 'lenBody'] = len(myBody)
        tokensBody= tokenizer.tokenize(myBody)
        dfQPPS3.loc[i, 'Body'] = myBody
        #taille en mots
        dfQPPS3.loc[i,'lenTokensBody'] = len(tokensBody)
        lenTokensQueryInBody = len([word for word in tokensBody if word in tokensQueryNoAccent])
        if dfQPPS3.loc[i,'lenTokensBody'] > 0 :
            dfQPPS3.loc[i, 'lenTokensQueryInBodyFrequency'] = lenTokensQueryInBody/dfQPPS3.loc[i,'lenTokensBody']
        else :
            dfQPPS3.loc[i, 'lenTokensQueryInBodyFrequency'] = 0
        #recupération des liens
        soupLinks = BeautifulSoup(dfQPPS3.loc[i, 'html'], 'html.parser', parse_only=SoupStrainer('a'))
        theLinks = [link['href'] for link in soupLinks if link.get('href')]
        myDomain=dfQPPS3.loc[i, 'uriNetLoc']
        nbrInternalLinks = 0
        nbrExternalLinks = 0
        for link  in theLinks :
            if len(link) > 0 :    #on ne prend que s'il y a qq chose dans le lien
                myLink = urlparse(link)        
                #print("Lien repéré = "+link)
                #print("Domaine repéré = "+myLink.netloc)
                if (myLink.netloc == myDomain or myLink.netloc == ""):
                    nbrInternalLinks += 1
                else:
                    nbrExternalLinks += 1
        dfQPPS3.loc[i, 'nbrInternalLinks'] = nbrInternalLinks
        dfQPPS3.loc[i, 'nbrExternalLinks'] = nbrExternalLinks
    

    
#on ne garde que  les enregistrement avec "body"
indexGoodBody =  dfQPPS3[(dfQPPS3.loc[dfQPPS3['Body']==""]==False)].index
dfQPPS3 = dfQPPS3.iloc[indexGoodBody]  #on ne garde que les bons enregistremments 
dfQPPS3.reset_index(inplace=True, drop=True) #on reindexe
dfQPPS3.info(verbose=True)  #12194 aucune perte
#svg en flat file
dfQPPS3.to_json("dfQPPS4.json")  #

#vider la memoire
del dfQPPS3
gc.collect()

Traitements non effectués dans la boucle

Ici nous enrichissons avec les variables contenant les termes (tokensxx) et les sommes des TF*IDF (sumTFIDF). Attention le calcul de TF*IDF pour Body est très gourmand en mémoire. Il vous faut au moins 16 GO de Ram sur votre machine.

################################################

# Traitements non effectué dans la boucle

#Relecture ############

dfQPPS4 = pd.read_json("dfQPPS4.json")

dfQPPS4.info(verbose=True) # #12194

dfQPPS4.reset_index(inplace=True, drop=True)

#apply pour tokens

dfQPPS4['tokensTitle'] = dfQPPS4['Title'].apply(tokenizer.tokenize)

dfQPPS4['tokensDescription'] = dfQPPS4['Description'].apply(tokenizer.tokenize)

dfQPPS4['tokensH1'] = dfQPPS4['H1'].apply(tokenizer.tokenize)

dfQPPS4['tokensH2'] = dfQPPS4['H2'].apply(tokenizer.tokenize)

dfQPPS4['tokensH3'] = dfQPPS4['H3'].apply(tokenizer.tokenize)

dfQPPS4['tokensH4'] = dfQPPS4['H4'].apply(tokenizer.tokenize)

dfQPPS4['tokensH5'] = dfQPPS4['H5'].apply(tokenizer.tokenize)

dfQPPS4['tokensH6'] = dfQPPS4['H6'].apply(tokenizer.tokenize)

dfQPPS4['tokensB'] = dfQPPS4['B'].apply(tokenizer.tokenize)

dfQPPS4['tokensI'] = dfQPPS4['I'].apply(tokenizer.tokenize)

dfQPPS4['tokensEM'] = dfQPPS4['EM'].apply(tokenizer.tokenize)

dfQPPS4['tokensStrong'] = dfQPPS4['Strong'].apply(tokenizer.tokenize)

dfQPPS4['tokensBody'] = dfQPPS4['Body'].apply(tokenizer.tokenize)

#Somme des TFIDF - somme des pertinences lexicales des mots

#dfQPPS4['sumTFIDFPath'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensPath']) #déjà calculé plus haut

dfQPPS4['sumTFIDFTitle'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensTitle'])

dfQPPS4['sumTFIDFDescription'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensDescription'])

dfQPPS4['sumTFIDFH1'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH1'])

dfQPPS4['sumTFIDFH2'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH2'])

dfQPPS4['sumTFIDFH3'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH3'])

dfQPPS4['sumTFIDFH4'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH4'])

dfQPPS4['sumTFIDFH5'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH5'])

dfQPPS4['sumTFIDFH6'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH6'])

dfQPPS4['sumTFIDFB'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensB'])

#fQPPS4['sumTFIDFI'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensI']) #a virer aucun I

dfQPPS4['sumTFIDFI']= 0.0 #pour éviter plantage

dfQPPS4['sumTFIDFEM'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensEM'])

dfQPPS4['sumTFIDFStrong'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensStrong'])

dfQPPS4['sumTFIDFBody'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensBody'])

dfQPPS4.to_json("dfQPPS5.json") #Sauvegarde

del dfQPPS4

gc.collect()

################################################ # Traitements non effectué dans la boucle #Relecture ############ dfQPPS4 = pd.read_json("dfQPPS4.json") dfQPPS4.info(verbose=True) # #12194 dfQPPS4.reset_index(inplace=True, drop=True) #apply pour tokens dfQPPS4['tokensTitle'] = dfQPPS4['Title'].apply(tokenizer.tokenize) dfQPPS4['tokensDescription'] = dfQPPS4['Description'].apply(tokenizer.tokenize) dfQPPS4['tokensH1'] = dfQPPS4['H1'].apply(tokenizer.tokenize) dfQPPS4['tokensH2'] = dfQPPS4['H2'].apply(tokenizer.tokenize) dfQPPS4['tokensH3'] = dfQPPS4['H3'].apply(tokenizer.tokenize) dfQPPS4['tokensH4'] = dfQPPS4['H4'].apply(tokenizer.tokenize) dfQPPS4['tokensH5'] = dfQPPS4['H5'].apply(tokenizer.tokenize) dfQPPS4['tokensH6'] = dfQPPS4['H6'].apply(tokenizer.tokenize) dfQPPS4['tokensB'] = dfQPPS4['B'].apply(tokenizer.tokenize) dfQPPS4['tokensI'] = dfQPPS4['I'].apply(tokenizer.tokenize) dfQPPS4['tokensEM'] = dfQPPS4['EM'].apply(tokenizer.tokenize) dfQPPS4['tokensStrong'] = dfQPPS4['Strong'].apply(tokenizer.tokenize) dfQPPS4['tokensBody'] = dfQPPS4['Body'].apply(tokenizer.tokenize) #Somme des TFIDF - somme des pertinences lexicales des mots #dfQPPS4['sumTFIDFPath'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensPath']) #déjà calculé plus haut dfQPPS4['sumTFIDFTitle'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensTitle']) dfQPPS4['sumTFIDFDescription'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensDescription']) dfQPPS4['sumTFIDFH1'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH1']) dfQPPS4['sumTFIDFH2'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH2']) dfQPPS4['sumTFIDFH3'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH3']) dfQPPS4['sumTFIDFH4'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH4']) dfQPPS4['sumTFIDFH5'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH5']) dfQPPS4['sumTFIDFH6'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH6']) dfQPPS4['sumTFIDFB'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensB']) #fQPPS4['sumTFIDFI'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensI']) #a virer aucun I dfQPPS4['sumTFIDFI']= 0.0 #pour éviter plantage dfQPPS4['sumTFIDFEM'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensEM']) dfQPPS4['sumTFIDFStrong'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensStrong']) dfQPPS4['sumTFIDFBody'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensBody']) dfQPPS4.to_json("dfQPPS5.json") #Sauvegarde del dfQPPS4 gc.collect()

################################################
# Traitements non effectué dans la boucle

#Relecture ############
dfQPPS4 = pd.read_json("dfQPPS4.json")
dfQPPS4.info(verbose=True) # #12194
dfQPPS4.reset_index(inplace=True, drop=True) 

#apply pour tokens
dfQPPS4['tokensTitle'] = dfQPPS4['Title'].apply(tokenizer.tokenize)
dfQPPS4['tokensDescription'] = dfQPPS4['Description'].apply(tokenizer.tokenize)
dfQPPS4['tokensH1'] = dfQPPS4['H1'].apply(tokenizer.tokenize)
dfQPPS4['tokensH2'] = dfQPPS4['H2'].apply(tokenizer.tokenize)
dfQPPS4['tokensH3'] = dfQPPS4['H3'].apply(tokenizer.tokenize)
dfQPPS4['tokensH4'] = dfQPPS4['H4'].apply(tokenizer.tokenize)
dfQPPS4['tokensH5'] = dfQPPS4['H5'].apply(tokenizer.tokenize)
dfQPPS4['tokensH6'] = dfQPPS4['H6'].apply(tokenizer.tokenize)
dfQPPS4['tokensB'] = dfQPPS4['B'].apply(tokenizer.tokenize)
dfQPPS4['tokensI'] = dfQPPS4['I'].apply(tokenizer.tokenize)
dfQPPS4['tokensEM'] = dfQPPS4['EM'].apply(tokenizer.tokenize)
dfQPPS4['tokensStrong'] = dfQPPS4['Strong'].apply(tokenizer.tokenize)
dfQPPS4['tokensBody'] = dfQPPS4['Body'].apply(tokenizer.tokenize)


#Somme des TFIDF - somme des pertinences lexicales des mots 
#dfQPPS4['sumTFIDFPath'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensPath']) #déjà calculé plus haut
dfQPPS4['sumTFIDFTitle'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensTitle'])
dfQPPS4['sumTFIDFDescription'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensDescription'])
dfQPPS4['sumTFIDFH1'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH1'])
dfQPPS4['sumTFIDFH2'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH2'])
dfQPPS4['sumTFIDFH3'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH3'])
dfQPPS4['sumTFIDFH4'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH4'])
dfQPPS4['sumTFIDFH5'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH5'])
dfQPPS4['sumTFIDFH6'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensH6'])
dfQPPS4['sumTFIDFB'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensB'])
#fQPPS4['sumTFIDFI'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensI'])  #a virer aucun I
dfQPPS4['sumTFIDFI']= 0.0 #pour éviter plantage
dfQPPS4['sumTFIDFEM'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensEM'])
dfQPPS4['sumTFIDFStrong'] = getSumTFIDFfromDFColumn(dfQPPS4['tokensStrong'])
dfQPPS4['sumTFIDFBody'] =  getSumTFIDFfromDFColumn(dfQPPS4['tokensBody'])

dfQPPS4.to_json("dfQPPS5.json")  #Sauvegarde


del dfQPPS4
gc.collect()

Fréquence de SumTFIDF

Finalement on va calculer sumTFIDF vs la longueur de l’objet recherché pour avoir un fréquence de sumTFIDF. Cela permet d’avoir un indicateur de « l’originalité » de l’objet. : Plus c’est grand plus c’est « original » .

###########################################################################################

#Calculons plutôt une fréquence de sumTFIDF vs la longueur de l'objet recherché

#pour avoir "l'originalité" de l'objet : Plus c'est grand plus c'est "original"

#on rajoute 0.01 pour éviter les divisions par zéro

###########################################################################################

#Relecture pour continuer ############

dfQPPS5 = pd.read_json("dfQPPS5.json")

dfQPPS5.info(verbose=True) # 12194 enregistrements.

dfQPPS5.reset_index(inplace=True, drop=True)

dfQPPS5['sumTFIDFPageFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFPage']/(x['lenTokensPage']+0.01),axis=1)

dfQPPS5['sumTFIDFWebSiteFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFWebSite']/(x['lenTokensWebSite']+0.01),axis=1)

dfQPPS5['sumTFIDFPathFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFPath']/(x['lenTokensPath']+0.01),axis=1)

dfQPPS5['sumTFIDFTitleFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFTitle']/(x['lenTokensTitle']+0.01),axis=1)

dfQPPS5['sumTFIDFDescriptionFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFDescription']/(x['lenTokensDescription']+0.01),axis=1)

dfQPPS5['sumTFIDFH1Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH1']/(x['lenTokensH1']+0.01),axis=1)

dfQPPS5['sumTFIDFH2Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH2']/(x['lenTokensH2']+0.01),axis=1)

dfQPPS5['sumTFIDFH3Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH3']/(x['lenTokensH3']+0.01),axis=1)

dfQPPS5['sumTFIDFH4Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH4']/(x['lenTokensH4']+0.01),axis=1)

dfQPPS5['sumTFIDFH5Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH5']/(x['lenTokensH5']+0.01),axis=1)

dfQPPS5['sumTFIDFH6Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH6']/(x['lenTokensH6']+0.01),axis=1)

dfQPPS5['sumTFIDFBFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFB']/(x['lenTokensB']+0.01),axis=1)

dfQPPS5['sumTFIDFIFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFI']/(x['lenTokensI']+0.01),axis=1)

dfQPPS5['sumTFIDFEMFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFEM']/(x['lenTokensEM']+0.01),axis=1)

dfQPPS5['sumTFIDFStrongFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFStrong']/(x['lenTokensStrong']+0.01),axis=1)

dfQPPS5['sumTFIDFBodyFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFBody']/(x['lenTokensBody']+0.01),axis=1)

#Attention très gourmand en mémoire. !!!!!!!!!!!!!!!

dfQPPS5.to_json("dfQPPS6.json") # sauvegarde en flat file json

#Sauvegarde dans un format plus léger qui sera utilisé pour le machine Learning.

#dans un prochain article.

#on ne sauvegarde que les variables qui nous intéresseront par la suite

#Relecture pour continuer ############

dfQPPS6 = pd.read_json("dfQPPS6.json")

dfQPPS6.info(verbose=True) # 12194 enregistrements.

dfQPPS6.reset_index(inplace=True, drop=True)

dfQPPS7 = dfQPPS6[['query', 'page', 'position', 'group','isHttps', 'level',

'lenWebSite', 'lenTokensWebSite', 'lenTokensQueryInWebSiteFrequency', 'sumTFIDFWebSiteFrequency',

'lenPath', 'lenTokensPath', 'lenTokensQueryInPathFrequency' , 'sumTFIDFPathFrequency',

'lenTitle', 'lenTokensTitle', 'lenTokensQueryInTitleFrequency', 'sumTFIDFTitleFrequency',

'lenDescription', 'lenTokensDescription', 'lenTokensQueryInDescriptionFrequency', 'sumTFIDFDescriptionFrequency',

'lenH1', 'lenTokensH1', 'lenTokensQueryInH1Frequency' , 'sumTFIDFH1Frequency',

'lenH2', 'lenTokensH2', 'lenTokensQueryInH2Frequency' , 'sumTFIDFH2Frequency',

'lenH3', 'lenTokensH3', 'lenTokensQueryInH3Frequency' , 'sumTFIDFH3Frequency',

'lenH4', 'lenTokensH4','lenTokensQueryInH4Frequency', 'sumTFIDFH4Frequency',

'lenH5', 'lenTokensH5', 'lenTokensQueryInH5Frequency', 'sumTFIDFH5Frequency',

'lenH6', 'lenTokensH6', 'lenTokensQueryInH6Frequency', 'sumTFIDFH6Frequency',

'lenB', 'lenTokensB', 'lenTokensQueryInBFrequency', 'sumTFIDFBFrequency',

'lenEM', 'lenTokensEM', 'lenTokensQueryInEMFrequency', 'sumTFIDFEMFrequency',

'lenStrong', 'lenTokensStrong', 'lenTokensQueryInStrongFrequency', 'sumTFIDFStrongFrequency',

'lenBody', 'lenTokensBody', 'lenTokensQueryInBodyFrequency', 'sumTFIDFBodyFrequency',

'elapsedTime', 'nbrInternalLinks', 'nbrExternalLinks' ]]

dfQPPS7.to_csv("dfQPPS7.csv", sep=",", encoding='utf-8', index=False)

dfQPPS7.to_csv("dfQPPS7FR.csv", sep=";", encoding='utf-8', index=False) #séparateur ;

##########################################################################

# MERCI pour votre attention !

##########################################################################

#on reste dans l'IDE

#if __name__ == '__main__':

# main()

########################################################################################### #Calculons plutôt une fréquence de sumTFIDF vs la longueur de l'objet recherché #pour avoir "l'originalité" de l'objet : Plus c'est grand plus c'est "original" #on rajoute 0.01 pour éviter les divisions par zéro ########################################################################################### #Relecture pour continuer ############ dfQPPS5 = pd.read_json("dfQPPS5.json") dfQPPS5.info(verbose=True) # 12194 enregistrements. dfQPPS5.reset_index(inplace=True, drop=True) dfQPPS5['sumTFIDFPageFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFPage']/(x['lenTokensPage']+0.01),axis=1) dfQPPS5['sumTFIDFWebSiteFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFWebSite']/(x['lenTokensWebSite']+0.01),axis=1) dfQPPS5['sumTFIDFPathFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFPath']/(x['lenTokensPath']+0.01),axis=1) dfQPPS5['sumTFIDFTitleFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFTitle']/(x['lenTokensTitle']+0.01),axis=1) dfQPPS5['sumTFIDFDescriptionFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFDescription']/(x['lenTokensDescription']+0.01),axis=1) dfQPPS5['sumTFIDFH1Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH1']/(x['lenTokensH1']+0.01),axis=1) dfQPPS5['sumTFIDFH2Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH2']/(x['lenTokensH2']+0.01),axis=1) dfQPPS5['sumTFIDFH3Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH3']/(x['lenTokensH3']+0.01),axis=1) dfQPPS5['sumTFIDFH4Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH4']/(x['lenTokensH4']+0.01),axis=1) dfQPPS5['sumTFIDFH5Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH5']/(x['lenTokensH5']+0.01),axis=1) dfQPPS5['sumTFIDFH6Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH6']/(x['lenTokensH6']+0.01),axis=1) dfQPPS5['sumTFIDFBFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFB']/(x['lenTokensB']+0.01),axis=1) dfQPPS5['sumTFIDFIFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFI']/(x['lenTokensI']+0.01),axis=1) dfQPPS5['sumTFIDFEMFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFEM']/(x['lenTokensEM']+0.01),axis=1) dfQPPS5['sumTFIDFStrongFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFStrong']/(x['lenTokensStrong']+0.01),axis=1) dfQPPS5['sumTFIDFBodyFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFBody']/(x['lenTokensBody']+0.01),axis=1) #Attention très gourmand en mémoire. !!!!!!!!!!!!!!! dfQPPS5.to_json("dfQPPS6.json") # sauvegarde en flat file json #Sauvegarde dans un format plus léger qui sera utilisé pour le machine Learning. #dans un prochain article. #on ne sauvegarde que les variables qui nous intéresseront par la suite #Relecture pour continuer ############ dfQPPS6 = pd.read_json("dfQPPS6.json") dfQPPS6.info(verbose=True) # 12194 enregistrements. dfQPPS6.reset_index(inplace=True, drop=True) dfQPPS7 = dfQPPS6[['query', 'page', 'position', 'group','isHttps', 'level', 'lenWebSite', 'lenTokensWebSite', 'lenTokensQueryInWebSiteFrequency', 'sumTFIDFWebSiteFrequency', 'lenPath', 'lenTokensPath', 'lenTokensQueryInPathFrequency' , 'sumTFIDFPathFrequency', 'lenTitle', 'lenTokensTitle', 'lenTokensQueryInTitleFrequency', 'sumTFIDFTitleFrequency', 'lenDescription', 'lenTokensDescription', 'lenTokensQueryInDescriptionFrequency', 'sumTFIDFDescriptionFrequency', 'lenH1', 'lenTokensH1', 'lenTokensQueryInH1Frequency' , 'sumTFIDFH1Frequency', 'lenH2', 'lenTokensH2', 'lenTokensQueryInH2Frequency' , 'sumTFIDFH2Frequency', 'lenH3', 'lenTokensH3', 'lenTokensQueryInH3Frequency' , 'sumTFIDFH3Frequency', 'lenH4', 'lenTokensH4','lenTokensQueryInH4Frequency', 'sumTFIDFH4Frequency', 'lenH5', 'lenTokensH5', 'lenTokensQueryInH5Frequency', 'sumTFIDFH5Frequency', 'lenH6', 'lenTokensH6', 'lenTokensQueryInH6Frequency', 'sumTFIDFH6Frequency', 'lenB', 'lenTokensB', 'lenTokensQueryInBFrequency', 'sumTFIDFBFrequency', 'lenEM', 'lenTokensEM', 'lenTokensQueryInEMFrequency', 'sumTFIDFEMFrequency', 'lenStrong', 'lenTokensStrong', 'lenTokensQueryInStrongFrequency', 'sumTFIDFStrongFrequency', 'lenBody', 'lenTokensBody', 'lenTokensQueryInBodyFrequency', 'sumTFIDFBodyFrequency', 'elapsedTime', 'nbrInternalLinks', 'nbrExternalLinks' ]] dfQPPS7.to_csv("dfQPPS7.csv", sep=",", encoding='utf-8', index=False) dfQPPS7.to_csv("dfQPPS7FR.csv", sep=";", encoding='utf-8', index=False) #séparateur ; ########################################################################## # MERCI pour votre attention ! ########################################################################## #on reste dans l'IDE #if __name__ == '__main__': # main()

###########################################################################################
#Calculons plutôt une fréquence de sumTFIDF vs la longueur de l'objet recherché 
#pour avoir "l'originalité" de l'objet : Plus c'est grand plus c'est "original" 
#on rajoute 0.01 pour éviter les divisions par zéro
###########################################################################################
#Relecture pour continuer ############
dfQPPS5 = pd.read_json("dfQPPS5.json")
dfQPPS5.info(verbose=True) # 12194  enregistrements.    
dfQPPS5.reset_index(inplace=True, drop=True) 


dfQPPS5['sumTFIDFPageFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFPage']/(x['lenTokensPage']+0.01),axis=1) 

dfQPPS5['sumTFIDFWebSiteFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFWebSite']/(x['lenTokensWebSite']+0.01),axis=1)    
dfQPPS5['sumTFIDFPathFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFPath']/(x['lenTokensPath']+0.01),axis=1) 

dfQPPS5['sumTFIDFTitleFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFTitle']/(x['lenTokensTitle']+0.01),axis=1)      
dfQPPS5['sumTFIDFDescriptionFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFDescription']/(x['lenTokensDescription']+0.01),axis=1)      
dfQPPS5['sumTFIDFH1Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH1']/(x['lenTokensH1']+0.01),axis=1)      
dfQPPS5['sumTFIDFH2Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH2']/(x['lenTokensH2']+0.01),axis=1)      
dfQPPS5['sumTFIDFH3Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH3']/(x['lenTokensH3']+0.01),axis=1)      
dfQPPS5['sumTFIDFH4Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH4']/(x['lenTokensH4']+0.01),axis=1)      
dfQPPS5['sumTFIDFH5Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH5']/(x['lenTokensH5']+0.01),axis=1)      
dfQPPS5['sumTFIDFH6Frequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFH6']/(x['lenTokensH6']+0.01),axis=1)      
dfQPPS5['sumTFIDFBFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFB']/(x['lenTokensB']+0.01),axis=1)      
dfQPPS5['sumTFIDFIFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFI']/(x['lenTokensI']+0.01),axis=1)      
dfQPPS5['sumTFIDFEMFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFEM']/(x['lenTokensEM']+0.01),axis=1)      
dfQPPS5['sumTFIDFStrongFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFStrong']/(x['lenTokensStrong']+0.01),axis=1)      
dfQPPS5['sumTFIDFBodyFrequency'] = dfQPPS5.apply(lambda x : x['sumTFIDFBody']/(x['lenTokensBody']+0.01),axis=1)      


#Attention très gourmand en mémoire. !!!!!!!!!!!!!!!
dfQPPS5.to_json("dfQPPS6.json")  # sauvegarde en flat file json

#Sauvegarde dans un format plus léger qui sera utilisé pour le machine Learning.
#dans un prochain article.
#on ne sauvegarde que les variables qui nous intéresseront  par la suite
#Relecture pour continuer ############
dfQPPS6 = pd.read_json("dfQPPS6.json")
dfQPPS6.info(verbose=True) # 12194  enregistrements.    
dfQPPS6.reset_index(inplace=True, drop=True) 

dfQPPS7 =  dfQPPS6[['query', 'page', 'position', 'group','isHttps', 'level', 
             'lenWebSite', 'lenTokensWebSite',  'lenTokensQueryInWebSiteFrequency',  'sumTFIDFWebSiteFrequency',            
             'lenPath', 'lenTokensPath',  'lenTokensQueryInPathFrequency' , 'sumTFIDFPathFrequency',  
              'lenTitle', 'lenTokensTitle', 'lenTokensQueryInTitleFrequency', 'sumTFIDFTitleFrequency',
              'lenDescription', 'lenTokensDescription', 'lenTokensQueryInDescriptionFrequency', 'sumTFIDFDescriptionFrequency',
              'lenH1', 'lenTokensH1', 'lenTokensQueryInH1Frequency' ,  'sumTFIDFH1Frequency',        
              'lenH2', 'lenTokensH2',  'lenTokensQueryInH2Frequency' ,  'sumTFIDFH2Frequency',          
              'lenH3', 'lenTokensH3', 'lenTokensQueryInH3Frequency' , 'sumTFIDFH3Frequency',
              'lenH4',  'lenTokensH4','lenTokensQueryInH4Frequency', 'sumTFIDFH4Frequency', 
              'lenH5', 'lenTokensH5', 'lenTokensQueryInH5Frequency', 'sumTFIDFH5Frequency', 
              'lenH6', 'lenTokensH6', 'lenTokensQueryInH6Frequency', 'sumTFIDFH6Frequency', 
              'lenB', 'lenTokensB', 'lenTokensQueryInBFrequency', 'sumTFIDFBFrequency', 
              'lenEM', 'lenTokensEM', 'lenTokensQueryInEMFrequency', 'sumTFIDFEMFrequency', 
              'lenStrong', 'lenTokensStrong', 'lenTokensQueryInStrongFrequency', 'sumTFIDFStrongFrequency', 
              'lenBody', 'lenTokensBody', 'lenTokensQueryInBodyFrequency', 'sumTFIDFBodyFrequency', 
              'elapsedTime', 'nbrInternalLinks', 'nbrExternalLinks' ]] 

dfQPPS7.to_csv("dfQPPS7.csv", sep=",", encoding='utf-8', index=False) 
dfQPPS7.to_csv("dfQPPS7FR.csv", sep=";", encoding='utf-8', index=False) #séparateur ; 


##########################################################################
# MERCI pour votre attention !
##########################################################################
#on reste dans l'IDE
#if __name__ == '__main__':
#  main()

Nous récupérerons ces données dans notre prochain article pour tester à nouveau des algorithmes de Machine Learning.

Fichier de données sur l'univers de concurrence de Networking Morbihan — Fichier de données sur l’univers de concurrence de Networking Morbihan

A bientôt,

Pierre

Nouvelles variables explicatives

De quoi aurons nous besoin ?

Python Anaconda

Jeu de données

Code Source

Récupération des bibliothèques utiles et définition de la fonction TF*IDF

Récupération du jeu de données et sélection des pages à scraper.

Scraping des pages

Reconstruction du jeu de données principal

Préparation des nouvelles variables

Récupération des données pour les nouvelles variables

Traitements non effectués dans la boucle

Fréquence de SumTFIDF

Leave a ReplyCancel