Wolfram Language

Agregue estructuras de oraciones de un gran corpus

Con Wolfram Language, es posible analizar grandes bases de datos con facilidad. Este ejemplo usa ExtendedEntityClass para extraer e investigar la estructura gramatical de más de un millón de oraciones a partir de las publicaciones de la página web english.stackexchange.com.

Importe un EntityStore creado a partir de english.stackexchange.com.

Registre el almacén para su uso en EntityValue.

Para las publicaciones clasificadas con la etiqueta "single-word-requests", encuentre las 50 palabras más citadas comúnmente, italizadas, en negrilla o enlazadas y cree una nube de palabras de los resultados.

muestre la entrada completa de Wolfram Language

Puede investigar el sitio a mayor escala examinando las estructuras de las oraciones utilizadas en las publicaciones. Comience extendiendo el tipo de entidad de publicación con una propiedad para extraer oraciones simples.

muestre la entrada completa de Wolfram Language

Use la nueva propiedad para extraer más de un millón de oraciones de las publicaciones.

Encuentre las palabras en cada oración dividiendo en espacios en blanco o puntuación.

El número de palabras contadas por frase de la prosa escrita se conjeturó para seguir una distribución logarítmica normal de acuerdo a un artículo de revista. Use FindDistributionParameters para encontrar parámetros adecuados para la distribución de palabras en cada oración del corpus y trazarlas juntas para compararlas.

muestre la entrada completa de Wolfram Language

Encuentre con qué frecuencia se produce cada palabra individual.

Use DeleteStopwords para limpiar el conjunto de datos.

Visualice los recuentos de palabras limpiadas en un gráfico de log-log.

Concéntrese en las 50 palabras principales, utilizando Callout para ver las palabras individuales.

Analice todas las oraciones en el corpus con TextStructure, anexando resultados a un archivo a medida que finalizan. Tenga en cuenta que este proceso lleva mucho tiempo y puede evaluarse durante varios días.

Lea los datos del archivo.

Mira un ejemplo específico.

Construya una función para extraer la estructura central de una oración.

muestre la entrada completa de Wolfram Language

Extraiga la estructura central de todas las oraciones.

Encuentre todas las unidades gramaticales en los datos y con qué frecuencia aparecen.

Encuentre los recuentos de transición para cada par de unidades consecutivas.

Aquí está el número de transiciones entre sustantivos y preposiciones.

Visualice con qué frecuencia ocurre cada transición con MatrixPlot.

muestre la entrada completa de Wolfram Language

Agrupe oraciones con la misma estructura.

Visualice las estructuras de oración más comunes en una trama.

muestre la entrada completa de Wolfram Language

Vea las oraciones de ejemplo para algunas estructuras interesantes.

muestre la entrada completa de Wolfram Language

Cree una red de algunas de las estructuras de oración más comunes, conectando dos estructuras si comparten una relación padre-hijo a través de la inserción de una unidad gramatical.

muestre la entrada completa de Wolfram Language

Ejemplos relacionados

de en fr ja ko pt-br zh