DataScience Training



Text Mining
Feedback form    |       Redare audio    |   Download:    |   


Text Mining

Introduction

Ce este text mining? Click to read  

        Text mining este o confluență a procesării limbajului natural, extragerea datelor, învățarea automată È™i statisticile utilizate pentru extragerea cunoÈ™tinÈ›elor din text nestructurat.


În general vorbind, text mining poate fi de două tipuri:
Întrebările utilizatorului sunt foarte clare È™i specifice, dar nu È™tiu răspunsul la întrebări.
Utilizatorul cunoaÈ™te doar scopul general, dar nu are întrebări specifice È™i precise.

 

 
 
Provocări ale explorării textului Click to read  

Textul în limbaj natural este nestructurat.


Majoritatea metodelor de data mining gestionează date structurate sau semi-structurate => analiza È™i modelarea textului nestructurat în limbaj natural este o provocare.
Explorarea de date text este de facto o tehnologie integrată de procesare a limbajului natural, clasificare a modelelor È™i învățare automată.
Sistemul teoretic de procesare a limbajului natural nu a fost încă pe deplin stabilit.
Principalele dificultăți cu care se confruntă explorarea textului sunt generate de :
Apariția zgomotului sau a expresiilor prost formate,
Expresii ambigue în text,
Colectarea È™i adnotarea dificilă a mostrelor pentru a cultiva metodele de învățare automată,
Greu de exprimat scopul și cerințele text mining

 

 
 
Text Mining Processing Flow Click to read  

Text mining îndeplineÈ™te unele sarcini generale pentru a extrage în mod eficient texte, documente, cărÈ›i, comentarii:
 
Tehnici de explorare a textului

Tehnici tipice de explorare a textului Click to read  

Text mining este un domeniu de cercetare care cuprinde mai multe tehnologii și tehnici :


Metodele de clasificare a textului împart un text dat în tipuri de text predefinite.
Tehnicile de grupare a textului împart un anumit set de text în diferite categorii.
Modele de subiecte = modele statistice folosite pentru a analiza subiectele È™i conceptele ascunse în spatele cuvintelor din text.
Analiza de sentiment a textului (text opinion mining) dezvăluie informaÈ›iile subiective exprimate de autorul unui text, adică punctul de vedere È™i atitudinea autorului. Textul este clasificat pe baza atitudinilor exprimate în text sau a judecăților polarității sale pozitive sau negative.

TTehnici tipice de extragere a textului (2) Click to read  

Detectarea topicului se referă la analizarea È™i filtrarea subiectelor de text (subiecte fierbinÈ›i) de încredere pentru analiza opiniei publice, calcularea reÈ›elelor sociale È™i serviciile de informare personalizate.

Extragerea informaÈ›iilor se referă la extragerea de informaÈ›ii faptice, cum ar fi entități, atribute ale entităților, relaÈ›ii dintre entități È™i evenimente din textul în limbaj natural nestructurat È™i semistructurat pe care îl formează în date structurate.
Rezumarea automată a textului generează automat rezumate folosind metode de procesare a limbajului natural.

 
Tehnici de pregătire și transformare a datelor Click to read  

Tokenizarea se referă la un proces de segmentare a unui text dat în unități lexicale.
Eliminarea cuvintelor stop: cuvintele stop se referă în principal la cuvinte funcÈ›ionale, inclusiv cuvinte auxiliare, prepoziÈ›ii, conjuncÈ›ii, cuvinte modale È™i alte cuvinte de înaltă frecvență.
Normalizarea formei cuvintelor pentru a îmbunătăți eficienÈ›a procesării textului. Normalizarea formelor de cuvinte include două concepte de bază:
Lematizare - restaurarea cuvintelor deformate în forme originale, pentru a exprima o semantică completă,
Tulpinirea - procesul de îndepărtare a afixelor pentru a obÈ›ine rădăcini.
Adnotarea datelor reprezintă o etapă esenÈ›ială a metodelor de învățare automată supravegheată. Dacă scara datelor adnotate este mai mare, calitatea este mai mare, iar dacă acoperirea este mai largă, performanÈ›a modelului antrenat va fi mai bună.
 
Bazele reprezentării textului Click to read  

Modelul spațial vectorial este cea mai simplă metodă de reprezentare a textului.
 
Concepte de bază înrudite:
Textul este o secvență de caractere cu anumite granularități, cum ar fi fraze, propoziÈ›ii, paragrafe sau un document întreg. 
Termenul este cea mai mică unitate lingvistică inseparabilă care poate desemna caractere, cuvinte, fraze etc.
Ponderea termenului este ponderea atribuită unui termen în conformitate cu anumite principii, indicând importanÈ›a È™i relevanÈ›a acelui termen în text.

 
Modelul de spațiu vectorial presupune că un text respectă următoarele două cerințe: (1) fiecare termen ti este unic, (2) termenii nu au nicio ordine.
 
Clasificarea Textului Click to read  

În clasificarea textului, un document trebuie să fie reprezentat corect È™i eficient pentru algoritmii de clasificare.
Selectarea unei metode de reprezentare a textului depinde de alegerea algoritmului de clasificare.

 

 

Algoritmi de bază de învățare automată pentru clasificarea textului Click to read  

 

Algoritmi de clasificare a textului:


Naive Bayes este o colecÈ›ie de clasificatoare care funcÈ›ionează pe principiile teoremei lui Bayes. Naïve Bayes modelează distribuÈ›ia comună p(x, y) a observaÈ›iei x È™i clasa sa y.
Entropia maximă (ME) atribuie probabilitatea comună perechilor de observare și etichetare (x, y) pe baza unui model log-liniar:


 

 

Algoritmi de clasificare a textului:
Naive Bayes este o colecÈ›ie de clasificatoare care funcÈ›ionează pe principiile teoremei lui Bayes. Naïve Bayes modelează distribuÈ›ia comună p(x, y) a observaÈ›iei x È™i clasa sa y.
Entropia maximă (ME) atribuie probabilitatea comună perechilor de observare și etichetare (x, y) pe baza unui model log-liniar:


unde: θ este un vector de greutăți, f este o funcÈ›ie care mapează perechile (x, y) la un vector caracteristic cu valori binare
MaÈ™ini vectoriale suport (SVM) este un algoritm de învățare discriminativ supravegheat pentru clasificarea binară.
Metodele de ansamblu combină mai mulÈ›i algoritmi de învățare pentru a obÈ›ine o performanță predictivă mai bună decât oricare dintre algoritmii de învățare de bază.

 


unde: θ este un vector de greutăți, f este o funcÈ›ie care mapează perechile (x, y) la un vector caracteristic cu valori binare
MaÈ™ini vectoriale suport (SVM) este un algoritm de învățare discriminativ supravegheat pentru clasificarea binară.
Metodele de ansamblu combină mai mulÈ›i algoritmi de învățare pentru a obÈ›ine o performanță predictivă mai bună decât oricare dintre algoritmii de învățare de bază.

 

Introducere în Modele de topic Click to read  

Modelele de topic oferă o metodă de reprezentare a conceptului care transformă vectorii rari de dimensiuni înalte din modelul tradiÈ›ional de spaÈ›iu vectorial în vectori denÈ™i de dimensiuni joase pentru a atenua blestemul dimensionalității, poate surprinde mai bine polisemia È™i sinonimia È™i să mine subiecte implicite (numite È™i concepte) în texte.

Modele de teme de bază:


Analiza semantică latentă (LSA) reprezintă o bucată de text printr-un set de concepte semantice implicite, mai degrabă decât termenii explici din modelul spaÈ›iului vectorial. LSA reduce dimensiunea reprezentării textului selectând k subiecte latente în loc de m termeni explici ca


Analiza semantică latentă probabilistică (PLSA) extinde semantica latentă în cadrul algebric al analizei pentru a include probabilitatea.


Alocarea Dirichlet latentă (LDA) introduce o distribuÈ›ie Dirichlet în distribuÈ›ia de subiecte condiÈ›ionată de document È™i în distribuÈ›ia de termeni condiÈ›ionată de subiect.
 

BERT: Reprezentări codificatoare bidirecționale de la Transformer Click to read  

BERT este un model de preinstruire și reglare fină care utilizează codificatorul bidirecțional Transformer.

Reprezentarea fiecărui jeton de intrare hj este învățată È›inând cont atât de contextul din partea stângă, x1, · · · , xj−1, cat si contextul din dreapta xj · · · , xn.

 

Contextele bidirecÈ›ionale sunt cruciale în sarcini precum etichetarea secvenÈ›ială È™i răspunsul la întrebări.
Contribuțiile BERT :


BERT foloseÈ™te un model mult mai profund decât GPT, iar codificatorul bidirecÈ›ional constă din până la 24 de straturi cu 340 de milioane de parametri de reÈ›ea.
BERT proiectează două funcții obiective nesupravegheate, inclusiv modelul de limbaj mascat și predicția următoarei propoziții.
BERT is pretrained on even larger text datasets.


 


 

Analiza de sentiment și explorarea opiniei Click to read  

Sarcinile principale ale analizei sentimentelor È™i ale analizei opiniei includ extragerea, clasificarea È™i inferenÈ›a informaÈ›iilor subiective din texte, cum ar fi sentimentul, opinia, atitudinea, emoÈ›ia, poziÈ›ia. 
Tehnicile de analiză a sentimentelor sunt împărÈ›ite în mod natural în două categorii: 
metode bazate pe reguli - efectuează o analiză a sentimentelor la diferite granularități ale textului pe baza orientării sentimentului a cuvintelor furnizate de un lexic de sentimente,
metodele bazate pe învățarea automată se concentrează pe inginerie eficientă a caracteristicilor pentru reprezentarea textului È™i învățarea automată.

 

Studiu de caz folosind Python

Biblioteci comune Python pentru explorarea textului Click to read  

NLTK (Natural Language Toolkit) – include biblioteci puternice pentru procesarea simbolică È™i statistică a limbajului natural care poate funcÈ›iona pe diferite tehnici
ML.
 
SpaCy - bibliotecă open-source pentru NLP în Python, concepută pentru extragerea informaÈ›iilor sau procesarea limbajului natural cu scop general.

 
TextBlob library oferă un API simplu pentru sarcini NLP, cum ar fi etichetarea parțială a vorbirii, extragerea expresiilor nominale, analiza sentimentelor, clasificarea,
traducerea și multe altele.

 
Stanford NLP conÈ›ine instrumente utile într-o conductă, pentru a converti un È™ir care conÈ›ine text în limbajul uman în liste de propoziÈ›ii È™i cuvinte, pentru a genera
forme de bază ale acestor cuvinte, părțile lor de vorbire și caracteristicile morfologice și pentru a oferi o analiză de dependență a structurii sintactice, care este
concepută. să fie paralele între peste 70 de limbi.
 
 
Utilizarea bibliotecilor NTLK pentru extragerea textului Click to read  
SUtilizarea bibliotecilor NTLK pentru extragerea textului (2) Click to read  
Analiza de sentiment exemplificată folosind metoda Bag of words și biblioteca NLTK Click to read  
Analiza de sentiment exemplificată folosind metoda Bag of words și biblioteca NLTK Click to read  
Clasificarea textului folosind Naïve Base Click to read  

PreziceÈ›i sentimentul unei anumite recenzii folosind un model de învățare automată Naïve Bayse.


 

Rezumat

Rezumat Click to read  

Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI