Generalização limitada de rede neural profunda única para segmentação de instrumentos cirúrgicos em diferentes ambientes cirúrgicos

Scientific Reports volume 12, Número do artigo: 12575 (2022) Citar este artigo

917 Acessos

2 Altmétrica

Detalhes das métricas

Esclarecer a capacidade de generalização das redes de segmentação de instrumentos cirúrgicos baseadas em aprendizado profundo em diversos ambientes cirúrgicos é importante para reconhecer os desafios do overfitting no desenvolvimento de dispositivos cirúrgicos. Este estudo avaliou de forma abrangente a generalização da rede neural profunda para segmentação de instrumentos cirúrgicos usando 5.238 imagens extraídas aleatoriamente de 128 vídeos intraoperatórios. O conjunto de dados de vídeo continha 112 casos de ressecção colorretal laparoscópica, 5 gastrectomia distal laparoscópica, 5 colecistectomia laparoscópica e 6 casos de hepatectomia parcial laparoscópica. A segmentação de instrumentos cirúrgicos baseada em aprendizado profundo foi realizada para conjuntos de teste com (1) as mesmas condições do conjunto de treinamento; (2) o mesmo instrumento cirúrgico alvo de reconhecimento e tipo de cirurgia, mas diferentes sistemas de registro laparoscópico; (3) o mesmo sistema de registro laparoscópico e tipo de cirurgia, mas pinças cirúrgicas laparoscópicas de alvo de reconhecimento ligeiramente diferentes; (4) o mesmo sistema de registro laparoscópico e instrumento cirúrgico alvo de reconhecimento, mas diferentes tipos de cirurgia. A precisão média média e a interseção média sobre a união para os conjuntos de teste 1, 2, 3 e 4 foram 0,941 e 0,887, 0,866 e 0,671, 0,772 e 0,676 e 0,588 e 0,395, respectivamente. Portanto, a precisão do reconhecimento diminuiu mesmo em condições ligeiramente diferentes. Os resultados deste estudo revelam a generalização limitada de redes neurais profundas no campo da inteligência artificial cirúrgica e alertam contra conjuntos de dados e modelos tendenciosos baseados em aprendizagem profunda.

Número de registro do teste: 2020-315, data de registro: 5 de outubro de 2020.

A cirurgia minimamente invasiva (CMI), incluindo a cirurgia robótica, tem se tornado cada vez mais comum1. MIS que usa escopos para observar a anatomia interna é preferido para muitos procedimentos cirúrgicos porque um campo de visão cirúrgico ampliado pode ser obtido através do escopo. Além disso, os procedimentos cirúrgicos podem ser armazenados como dados de vídeo; portanto, essa abordagem facilita não apenas o treinamento e a educação cirúrgica, mas também a ciência de dados cirúrgicos2, como visão computacional usando aprendizado profundo.

A visão computacional é um campo de pesquisa que descreve a compreensão da máquina de imagens e vídeos, e avanços significativos resultaram em máquinas alcançando capacidades de nível humano em áreas como reconhecimento de objetos e cenas3. O principal trabalho relacionado à saúde em visão computacional é o diagnóstico assistido por computador, como detecção de pólipos colônicos4,5 e detecção de câncer de pele6,7; no entanto, a aplicação da cirurgia assistida por computador também se acelerou8,9. Em particular, a segmentação do instrumental cirúrgico e o rastreamento de suas pontas são tecnologias subjacentes importantes, pois podem ser aplicadas na avaliação da habilidade cirúrgica10,11 e são essenciais para a realização de uma cirurgia automática e autônoma12.

A segmentação é uma tarefa de visão computacional na qual imagens inteiras são divididas em grupos de pixels que podem ser rotulados e classificados. Em particular, a segmentação semântica tenta entender semanticamente o papel de cada pixel nas imagens13. A segmentação de instâncias, que estende a segmentação semântica, segmenta diferentes instâncias de classes, ou seja, rotulando cinco indivíduos com cinco cores diferentes; portanto, pode identificar os limites, diferenças e relações entre objetos para múltiplos objetos sobrepostos14.

Essas abordagens de visão computacional têm grande aplicabilidade para o reconhecimento de instrumentos cirúrgicos em vídeos intraoperatórios para MIS e, nos últimos anos, vários esforços têm sido feitos para desenvolver a segmentação de instrumentos cirúrgicos15,16. Entre eles, a Medical Image Computing and Computer Assisted Interventions Society realizou desafios internacionais baseados na precisão de reconhecimento para segmentação de instrumentos cirúrgicos e o Endoscopic Vision Challenge15,17,18,19; novas redes neurais profundas quebraram o recorde de precisão de segmentação de última geração. No entanto, esses esforços foram realizados em conjuntos de dados de vídeo correspondentes ao mesmo tipo de cirurgia usando um tipo fixo de instrumento cirúrgico e o mesmo tipo de sistema de registro laparoscópico, ao contrário das configurações cirúrgicas do mundo real. Na prática, existem muitas condições diferentes em situações cirúrgicas do mundo real. Por exemplo, diferentes tipos de sistemas de registro laparoscópicos e instrumentos cirúrgicos laparoscópicos são usados em diferentes hospitais; além disso, os dispositivos cirúrgicos são atualizados e suas formas mudam ligeiramente a cada poucos anos. Ao considerar as propriedades de propósito geral de uma única rede de reconhecimento de instrumentos cirúrgicos, também é importante verificar a aplicabilidade da rede a outros tipos de cirurgia, ou seja, esclarecer a diferença na precisão do reconhecimento quando uma rede de reconhecimento desenvolvida com base nos dados de um determinado tipo de cirurgia é aplicado a outro tipo de cirurgia. Embora tais condições relacionadas à precisão do reconhecimento possam esclarecer que a construção de um conjunto de dados de vídeo intraoperatório com diversidade é importante, nenhum estudo abrangente sobre a generalização de uma única rede de reconhecimento de instrumentos cirúrgicos foi relatado. Portanto, os resultados deste estudo são importantes porque fornecem informações valiosas para o futuro desenvolvimento e implementação cirúrgica.

3.0.CO;2-E" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291522-712X%281995%291%3A6%3C308%3A%3AAID-IGS3%3E3.0.CO%3B2-E" aria-label="Article reference 31" data-doi="10.1002/(SICI)1522-712X(1995)1:63.0.CO;2-E"Article CAS Google Scholar /p>