Os laudos de ecocardiograma contêm dados estruturados e não estruturados valiosos que, quando extraídos adequadamente, podem aprimorar a pesquisa clínica e as iniciativas de melhoria da qualidade. Entretanto, a extração automatizada de informações clinicamente relevantes de laudos em língua portuguesa permanece desafiadora.
Desenvolvemos um modelo de reconhecimento de entidades nomeadas utilizando a estrutura de processamento de linguagem natural spaCy para extrair automaticamente 58 parâmetros clínicos distintos de laudos de ecocardiograma transtorácico. O modelo foi treinado com um conjunto de dados de laudos anotados de um centro de cardiologia terciário em São Paulo, Brasil. Técnicas de aumento de dados foram empregadas para abordar o desequilíbrio entre classes, visando um mínimo de 50 exemplos por entidade. O conjunto de dados foi dividido em conjuntos de treinamento (80%) e validação (20%). O desempenho do modelo foi avaliado usando precisão, recall e pontuações F1 para cada entidade.
O modelo demonstrou excelente desempenho na maioria dos parâmetros clínicos. Medidas antropométricas (altura, peso, superfície corpórea) e dimensões lineares(raiz aórtica, aorta ascendente proximal) alcançaram precisão, recall e pontuações F1 perfeitas (1,00). Parâmetros funcionais como fração de ejeção do ventrículo esquerdo e volume cavitários apresentaram forte desempenho (F1=0,96 e 0,97, respectivamente). Avaliações morfológicas como mobilidade da válvula mitral (F1=0,95) e avaliaçãoda deformidade miocárdica (F1=0,99) também foram extraídas com confiabilidade. Menores desempenhos foramobservados em parâmetros com maior variabilidade de descrição, como movimento do septo interventricular (F1=0,71) e refluxo valvar (F1=0,76);porém, ainda mantendo acurácia clinicamente aceitável.
O modelo de reconhecimento de entidades nomeadas apresenta um desempenho sólido na extração automática de informações clinicamente relevantes de laudos de ecocardiograma em português. Sua aplicação pode contribuir significativamente para a pesquisa clínica, a avaliação da qualidade assistencial e a construção de bancos de dados. No entanto, antes de sua implementação na prática clínica, é fundamental realizar uma validação rigorosa, especialmente para os parâmetros com métricas de desempenho mais baixas.