Wolfram Language

Agregue estruturas de frases de um corpus grande

Com a Wolfram Language, é possível analisar grandes conjuntos de dados com facilidade. Este exemplo usa ExtendedEntityClass para extrair e investigar a estrutura gramatical de mais de um milhão de sentenças das postagens no site english.stackexchange.com.

Importe um EntityStore criado com english.stackexchange.com.

Registre o armazenamento para uso em EntityValue.

Para postagens classificadas com a tag "single-word-requests", localize as 50 palavras mais citadas, em itálico, em negrito ou vinculadas e crie uma nuvem de palavras com os resultados.

mostre o input completo da Wolfram Language

Você pode investigar o site em uma escala mais ampla examinando estruturas de frases usadas em postagens. Comece estendendo o tipo de entidade da postagem com uma propriedade para extrair sentenças simples.

mostre o input completo da Wolfram Language

Use a nova propriedade para extrair mais de um milhão de frases das postagens.

Encontre as palavras em cada sentença, separadas por espaços ou sinais de pontuação.

A contagem de palavras por frase de textos em prosa foi conjecturada para seguir uma distribuição logarítmica normal de acordo com um artigo de uma publicação. Use FindDistributionParameters para encontrar parâmetros de ajuste para a distribuição de palavras em cada sentença do corpus e faça um gráfico para compará-los.

mostre o input completo da Wolfram Language

Descubra com que frequência cada palavra ocorre.

Use DeleteStopwords para limpar o conjunto de dados.

Visualize as contagens de palavras ajustadas em uma representação logarítmica dupla.

Foque nas 50 principais palavras, usando Callout para ver as palavras individuais.

Analise todas as frases no corpus com TextStructure, anexando os resultados a um arquivo quando eles forem concluídos. Observe que esse processo leva muito tempo e pode ser processado por vários dias.

Leia os dados do arquivo.

Veja um exemplo específico.

Crie uma função para extrair a estrutura central de uma frase.

mostre o input completo da Wolfram Language

Extraia a estrutura central de todas as sentenças.

Encontre todas as unidades gramaticais nos dados e com que frequência elas aparecem.

Encontre contagens de transição para cada par de unidades consecutivas.

Aqui está o número de transições entre substantivos e preposições.

Visualize com que frequência cada transição ocorre com MatrixPlot.

mostre o input completo da Wolfram Language

Agrupe frases com a mesma estrutura.

Visualize as estruturas de frases mais comuns em um gráfico.

mostre o input completo da Wolfram Language

Veja frases de exemplo para algumas estruturas interessantes.

mostre o input completo da Wolfram Language

Crie uma rede de algumas das estruturas de sentenças mais comuns, conectando duas estruturas se elas compartilharem um relacionamento pai-filho por meio da inserção de uma unidade gramatical.

mostre o input completo da Wolfram Language

Exemplos Relacionados

de en es fr ja ko zh