📄️ 🗂️ Introducción del PLN
Se entiende como un subcampo del machine learning el cual le permite a los ordenadores tener la capacidad de interpretar, manipular y controlar el lenguaje humano.
📄️ 🌎 Historia del PLN
Primeras apariciones del procesamiento de lenguaje natural
📄️ 📚 Natural Language Toolkit (NLTK)
🌟 Introducción
📄️ 🔑 Tokenización
🌟 Introducción
📄️ 🌱 Stemming y lematización
En el ámbito del procesamiento del lenguaje natural (PLN), dos métodos comunes para la normalización de textos que transforman datos de texto sin procesar en un formato legible para su procesamiento automático son el stemming y la lematización. Ambos métodos eliminan los afijos de las palabras flexionadas, dejando solo la raíz. Estos procesos eliminan caracteres al inicio y al final de las palabras. Las raíces resultantes, o palabras base, se utilizan para el procesamiento posterior. Aunque comparten esta similitud, la lematización y el stemming difieren en cómo simplifican las palabras a una forma base común.
📄️ 🛑 Stop words
Las "stop words" son palabras que no aportan valor semántico relevante en el análisis de texto, por lo que se eliminan para mejorar la precisión de los algoritmos de procesamiento de lenguaje natural (PLN).
📄️ 🔖 Etiquetado de partes del discurso
Esta es una herramienta que permite la asignación de etiquetas a cada una de las palabras que componen una oración, tal como lo pudieran ser un sustantivo, un verbo y un adjetivo. En este sentido, dicho proceso facilita la comprensión de la estructura de un texto, al igual que las relaciones existentes entre los elementos que lo componen.