El texto en inglés se usa en casi todas partes. Sería mejor si nuestro sistema pudiera entenderlo y generarlo automáticamente. Sin embargo, comprender el lenguaje natural es una tarea complicada. Es tan complicado que muchos investigadores dedicaron toda su vida a hacerlo.
Hoy en día, se han publicado muchas herramientas para realizar trabajos de procesamiento del lenguaje natural. Las siguientes son 8 herramientas que he recopilado. También verifiqué que todas ellas son utilizadas por algunas aplicaciones al menos una vez, por lo que todas son ejecutables. Algunos de ellos de empresas del sector, otros de institutos de investigación. Proporciona funciones como analizar, buscar temas automáticamente, etc.
- OpenNLP: un paquete de Java para realizar tokenización de texto, etiquetado de parte del discurso, fragmentación, etc. (tutorial)
- Stanford Parser: una implementación Java de analizadores probabilísticos de lenguaje natural, tanto PCFG * altamente optimizados como analizadores de dependencia lexicalizados, y un analizador PCFG lexicalizado
- ScalaNLP: procesamiento de lenguaje natural y aprendizaje automático.
- Snowball: un lematizador, compatible con C y Java.
- MALLET: un paquete basado en Java para procesamiento estadístico de lenguaje natural, clasificación de documentos, agrupamiento, modelado de temas, extracción de información y otras aplicaciones de aprendizaje automático a texto.
- JGibbLDA: LDA en Java
- Apache Lucene Core: una biblioteca de Java para la eliminación y derivación de palabras vacías
- Caja de herramientas de modelado de temas de Stanford: algoritmo CVB0, etc.
* PCFG: Gramática libre de contexto probabilístico