Efectos del vocabulario y el conocimiento lingüístico implícito en el reconocimiento en condiciones de escucha adversas
Annalise Flecther
Departamento de Audiología y Logopedia, Universidad del Norte de Texas, Denton
Megan McAuliffe y Sarah Kerr
Departamento de Trastornos de la Comunicación, Universidad de Canterbury, Christchurch, Nueva Zelanda
Donal Sinex
Departamento de Ciencias del Habla, el Lenguaje y la Audición, Universidad de Florida, Gainsville
Objetivo: El objetivo de este estudio es examinar la combinación de la influencia del conocimiento del vocabulario y de las propiedades estadísticas del idioma en el reconocimiento del habla en condiciones de escucha adversas. Además, se propone determinar si los efectos identificados son más destacados en determinados niveles de degradación de la señal.
Método: Ciento tres adultos jóvenes sanos transcribieron frases presentadas en 4 relaciones señal/ruido diferentes, que se codificaron para la precisión del reconocimiento. Los participantes realizaron también pruebas de agudeza auditiva, conocimiento del vocabulario, inteligencia no verbal, velocidad de procesamiento y memoria de trabajo.
Resultados: El conocimiento del vocabulario y la memoria de trabajo demostraron ejercer efectos independientes en la precisión del reconocimiento de palabras cuando se controlaba la agudeza auditiva, la inteligencia no verbal y la velocidad de procesamiento. Estos efectos fueron más intensos con el mismo nivel moderado de degradación de la señal. Si bien las variables del participante fueron estadísticamente significativas, sus efectos fueron sutiles en comparación con la influencia de la frecuencia de las palabras y el contenido fonológico. Estos factores basados en el idioma tuvieron un gran efecto en el reconocimiento de palabras en todas las relaciones señal/ruido.
Discusión: La experiencia lingüística y la memoria de trabajo pueden tener efectos complementarios en la precisión del reconocimiento de palabras. No obstante, para aprovechar el conocimiento del vocabulario al procesar el habla en condiciones adversas, da la impresión de que los hablantes necesitan tener acceso a fragmentos adecuados de información acústica.
Las condiciones de escucha cotidianas rara vez son óptimas. Las personas nos solemos encontrar con un habla enmascarada por algún grado de ruido superpuesto (p. ej., cuando se conversa con ruido de fondo o se escucha la televisión con el ruido de un ventilador portátil). La presencia de condiciones de escucha adversas aumenta la probabilidad de que una persona no perciba correctamente lo que se dice y cometa errores en el reconocimiento del habla. Sin embargo, algunas personas tienen más capacidad que otras para comprender el habla en condiciones de escucha adversas y estas diferencias no se explican solamente por la variación básica en la agudeza auditiva (Humes, 2007).
En estudios recientes se ha puesto de relieve que el conocimiento y la experiencia lingüísticos de una persona pueden influir en el reconocimiento del habla (Banks, Gowen, Munro y Adank, 2015; Bent, Baese-Berk, Borrie y McKee, 2016; Ingvalson, Lansford, Fedorova y Fernandez, 2017; McAuliffe, Gibson, Kerr, Anderson y LaShell, 2013; McLaughlin, Baese-Berk, Bent, Borrie y Van Engen, 2018). En general, parece que un vocabulario más amplio se asocia con mejores capacidades de reconocimiento del habla en una variedad de condiciones adversas. Los resultados sugieren que el conocimiento del idioma a largo plazo (indexado a través del vocabulario) influye en la capacidad de las personas nativas de resolver una señal de habla ambigua, contribuyendo a una variación única en su desempeño que no se explica por las mediciones de la función cognitiva.
Es de sobra conocido que las personas utilizan su conocimiento de un idioma cuando tratan de identificar palabras en presencia de ruido. El conocimiento implícito de las propiedades estadísticas del idioma nativo de una persona influye en su precisión del reconocimiento del habla (Mattys, White y Melhorn, 2005). Las palabras que aparecen con mayor frecuencia en el lenguaje hablado son más fáciles de reconocer en condiciones adversas, como también lo son las palabras con una mayor singularidad fonológica (Luce y Pisoni, 1998). No obstante, si bien tanto los factores basados en la persona (p. ej., agudeza auditiva, conocimiento de palabras, memoria de trabajo) como las características léxicas inherentes al idioma (p. ej., densidad de vecindad fonológica, frecuencia de palabras) influyen en el reconocimiento del habla en aislamiento, existen pocos estudios en los que se hayan investigado estos fenómenos conjuntamente y en ninguno se examinan ambos efectos sobre distintos niveles de degradación de la señal. En este estudio se amplía un trabajo anterior examinando el papel combinado de las características de la persona, las propiedades estadísticas del idioma y los diversos niveles de degradación de la señal en el reconocimiento del habla.
Existen varios motivos por los que un vocabulario más amplio podría facilitar el reconocimiento del habla. Tal vez lo más evidente sea que el conocimiento del idioma puede ayudar a la persona a realizar inferencias basadas en el contexto semántico (y sintáctico) en el que se presente una palabra. Estas pistas contextuales descendentes tienen una influencia significativa en el reconocimiento del habla (Sohoglu, Peelle, Carlyon y Davis, 2012). El éxito en el uso de las pistas semánticas se ha relacionado previamente con el conocimiento del vocabulario. Benard, Mensink y Başkent (2014) demostraron que el volumen del vocabulario de una persona se correlacionaba con su capacidad de restaurar palabras interrumpidas basándose en el contexto de la oración en la que se presentaban. No obstante, es poco probable que el uso más preciso de las pistas semánticas explique completamente la ventaja que tienen las personas con un gran vocabulario. Resulta curioso que los estudios en los que se identifica la ventaja del vocabulario se centran con más frecuencia en frases que son semánticamente anómalas, con pocas pistas contextuales disponibles (Bent et al., 2016; Ingvalson et al., 2017; McAuliffe et al., 2013). La naturaleza de estos estímulos del habla significa que la dependencia de las inferencias semánticas no sería útil en la precisión del reconocimiento de palabras. Por lo tanto, el aparente efecto sistemático del conocimiento del vocabulario en la identificación de palabras no se puede explicar completamente basándose en el conocimiento del contexto semántico por parte del participante.
Una segunda hipótesis es que las personas con un vocabulario más amplio tienen un acceso léxico más rápido a la memoria a largo plazo. Una mayor velocidad de acceso léxico reduce la carga de trabajo de la memoria de trabajo cuando una persona se enfrenta a condiciones de escucha adversas. El conocimiento del vocabulario se aloja en la memoria semántica a largo plazo de una persona (Herrmann y Harwood, 1980). En el modelo de «Facilidad de comprensión del lenguaje» (Ease of Language Understanding) se plantea la hipótesis de que las diferencias individuales en la memoria semántica a largo plazo influyen en la capacidad de emparejar la información de las características del habla entrante con las representaciones de las palabras almacenadas (Rönnberg et al., 2013). De hecho, Lyxell y Rönnberg (1992) sugieren que el volumen del vocabulario está asociado con la velocidad de acceso léxico (medida como el tiempo necesario para identificar una palabra como real o no). Por lo tanto, su efecto en el procesamiento del habla puede estar relacionado con la velocidad a la que se extrae la información de la memoria a largo plazo (aunque es probable que esté mediada por la velocidad de procesamiento general de una persona). Banks et al. (2015) observaron que la influencia de la memoria de trabajo en la precisión del reconocimiento del habla estaba mediada por el volumen del vocabulario, por lo que era el vocabulario, más que la memoria de trabajo, lo que influía directamente en las puntuaciones de reconocimiento del habla. Sugirieron que un mayor conocimiento del vocabulario permitía a los participantes un acceso más rápido a los elementos léxicos, además de anticipar con mayor eficacia las siguientes palabras de una oración. Se planteó la hipótesis de que reduciría la carga de trabajo de la memoria de trabajo. Esta hipótesis se utilizó para explicar por qué el volumen de la memoria de trabajo de los participantes era un factor menos importante para determinar su precisión en el reconocimiento cuando el vocabulario se incluía en el análisis.
El análisis de la contribución relativa del conocimiento del vocabulario al reconocimiento del habla en condiciones adversas es un reto. El volumen del vocabulario está intrínsecamente vinculado a la capacidad cognitiva general y a la capacidad de una persona de aprender nuevas habilidades (Plomin y Spinath, 2002). Por lo tanto, no queda claro hasta qué punto el conocimiento del vocabulario actúa como un predictor independiente de la capacidad de una persona de identificar palabras en presencia de ruido. Se ha sugerido que, en los estudios futuros, se controlen las diferencias subyacentes en la inteligencia no verbal de los participantes cuando se comparen los efectos de la memoria de trabajo y el vocabulario (Banks et al., 2015). Hasta la fecha, en los estudios en los que se analizan los efectos del conocimiento del vocabulario, se han incluido mediciones de la memoria de trabajo (Banks et al., 2015; Ingvalson et al., 2017; McAuliffe et al., 2013; McLaughlin et al., 2018), la flexibilidad cognitiva (Bent et al., 2016; Ingvalson et al., 2017), la percepción del ritmo (McLaughlin et al., 2018) y el control inhibitorio de la atención (Banks et al., 2015; Bent et al., 2016; McLaughlin et al., 2018). Sin embargo, en estos modelos no se ha incluido el efecto del cociente intelectual (CI) general de los participantes. En consecuencia, en este trabajo se controla la memoria de trabajo, las mediciones generales de la velocidad de procesamiento (que pueden explicar algunas diferencias en el tiempo de acceso léxico) y el CI no verbal de los participantes.
Como oyentes de nuestro idioma nativo, tenemos un conocimiento implícito de sus propiedades estadísticas, lo que también es probable que esté asociado con nuestro conocimiento del vocabulario. El conocimiento del lenguaje implícito desempeña un papel clave en el reconocimiento del habla. Por ejemplo, las regularidades fonotácticas hacen que sea más probable que determinadas silabas se interpreten como límites entre palabras (Mattys et al., 2005). Se ha planteado la hipótesis de que el conocimiento implícito de las propiedades estadísticas de un idioma, incluida la probabilidad esperada de combinaciones de fonemas y palabras, facilita la comprensión del habla en condiciones adversas (Cutler, Garcia Lecumberri y Cooke, 2008; Cutler, Weber, Smits y Cooper, 2004). En los estudios de investigación en los que se compara el reconocimiento del habla de oyentes nativos frente a no nativos, es evidente que estos últimos tienen una dificultad desproporcionada para identificar palabras en presencia de ruido (Mayo, Florentine y Buus, 1997; Meador, Flege y MacKay, 2000; Rogers, Lister, Febo, Besing y Abrams, 2006). Parece probable que el conocimiento implícito de los oyentes nativos de las propiedades estadísticas de un idioma (p. ej., frecuencia de palabras, densidad de vecindad fonológica o número de palabras que son muy parecidas entre sí y únicamente difieren en un fonema) sea en gran medida responsable de estos efectos. En el modelo de fragmentos del reconocimiento del habla de Cooke (2006) se postula que el reconocimiento del habla en presencia de ruido es una función de la disponibilidad de fragmentos de la señal objetivo y el conocimiento del habla previo del oyente. Se necesita un conocimiento implícito de las distribuciones de fonemas y palabras para interpretar los fragmentos disponibles y realizar inferencias sobre la información ausente. Cooke, Garcia Lecumberri y Barker (2008) observaron que, en situaciones de enmascaramiento energético, los oyentes nativos de un idioma pueden haber aprendido qué pistas específicas son más destacadas en determinadas condiciones de ruido y aplicar este conocimiento para comprender la señal degradada. Es posible que las personas con un mayor vocabulario tengan una ventaja en el reconocimiento del habla en condiciones adversas por estos mismos motivos: tienen una mayor comprensión implícita de las propiedades estadísticas del idioma y han aprendido a aplicar estas pistas de una manera eficaz en una situación en la que falta información. No obstante, no quedan claras las contribuciones relativas del conocimiento del vocabulario ni de las propiedades estadísticas del idioma en el reconocimiento del habla. Por esta razón, en este estudio se analiza el papel combinado de las características lingüísticas (como la frecuencia de las palabras y la similitud fonológica) y las diferencias propias del oyente en la percepción del habla.
Un último componente que influye en el reconocimiento de palabras es el tipo y el grado de degradación de la señal. Parece posible que un nivel más alto de experiencia lingüística pueda ser una mayor ventaja en determinados niveles de degradación de la señal. En estudios de investigación anteriores se ha sugerido que el uso relativo de pistas en el reconocimiento de palabras difiere en función del nivel de ruido presente (Mattys et al., 2005). Siguiendo el modelo de fragmentos de Cooke (2006), se esperaría que, a medida que aumenta la degradación de la señal y las pistas para el reconocimiento de palabras son menos destacadas, es posible que exista una región en la que determinados factores propios del oyente (p. ej., el vocabulario) sean más ventajosos para el reconocimiento del habla. Potencialmente, las personas con un mayor conocimiento de vocabulario pueden ser más capaces de aprovechar las redundancias presentes en la señal para elaborar hipótesis léxicas precisas. Si fuera este el caso, su desempeño debería ser superior al de las personas con un menor conocimiento de vocabulario cuando la degradación de la señal sea moderada, es decir, cuando se disponga de algunos fragmentos de información acústica o léxica (Cooke, 2006; Cooke et al., 2008). Cuando la calidad de la señal sea muy baja, y estos fragmentos se minimicen o no se encuentren disponibles, esta ventaja quedaría anulada. Además, planteamos la hipótesis de que los efectos facilitadores de la información léxica y fonotáctica pueden aumentar y disminuir a determinados niveles de alteración del ruido de manera similar a los efectos de la memoria de trabajo y el vocabulario.
Existen algunos datos conductuales que respaldan estas ideas. Başkent (2012) demostró que una reducción en la calidad de la señal tiende a perjudicar la capacidad de los oyentes de aplicar pistas descendentes en el reconocimiento de palabras; es más difícil utilizar el conocimiento léxico y semántico cuando las palabras vecinas son imposibles de identificar. Por lo tanto, si bien el efecto de la memoria de trabajo en el reconocimiento de palabras aumenta en condiciones auditivas adversas (Rönnberg et al., 2013), es muy probable que este efecto comience a reducirse lentamente en algún nivel de alteración del ruido (es decir, cuando ya no se pueda acceder al conocimiento léxico y semántico), lo que también se podría aplicar al conocimiento del vocabulario. Si la experiencia con el idioma fomenta la velocidad de acceso léxico (y el conocimiento más preciso de la distribución de los fonemas y palabras), los efectos del vocabulario deberían disminuir, dado que las palabras y los fonemas vecinos ya no se pueden identificar.
Por lo tanto, en este estudio se analizan las contribuciones relativas de los factores propios del oyente (conocimiento del vocabulario, CI, velocidad de procesamiento y memoria de trabajo) y las propiedades estadísticas del idioma (frecuencia léxica, probabilidad fonotáctica y densidad de vecindad fonológica) al reconocimiento del habla en condiciones de escucha adversas. Se investiga, además, la solidez de estos efectos en diferentes niveles de condiciones adversas. En consonancia, preguntamos: a) ¿qué efectos tienen el conocimiento del vocabulario y las propiedades estadísticas del idioma en el reconocimiento de palabras cuando se controlan la inteligencia no verbal, la memoria de trabajo y la velocidad de procesamiento de los oyentes? y b) ¿varían estos efectos según los diferentes niveles de alteración del ruido? Se plantea la hipótesis de que los efectos del vocabulario se producen porque el oyente está aplicando conocimientos léxicos y fonotácticos para resolver la señal de habla ambigua, y que estos efectos facilitadores son sensibles al nivel de alteración del ruido presente.
Método
Participantes
La aprobación del estudio se obtuvo del Comité de Ética Humana de la University of Canterbury. Se inscribieron ciento tres participantes (58 mujeres y 45 hombres). Todos eran hablantes nativos de inglés neozelandés y tenían entre 18 y 33 años (Medad = 21,53 años, DT = 3,06). Notificaron que no tenían ningún problema de lenguaje, de aprendizaje ni cognitivo y no mostraron pruebas de deterioro cognitivo en la Evaluación Cognitiva de Montreal (Nasreddine et al., 2005). Este experimento consta de dos componentes principales: a) medidas individuales de vocabulario, cognición y audiometría de tonos puros, y b) una tarea de percepción del habla. Cada uno de estos componentes se describe en las secciones siguientes.
Mediciones individuales del participante
Cada participante realizó una serie de evaluaciones que tenían como objetivo evaluar el papel de las diferencias individuales en su percepción del habla en presencia de ruido. Estas tareas incluían evaluaciones del vocabulario receptivo, la memoria de trabajo, la inteligencia no verbal, la velocidad de procesamiento y la audiometría de tonos puros.
Conocimiento del vocabulario
El vocabulario se evaluó mediante la Tarea de vocabulario en imágenes de Peabody, cuarta edición (PPVT-IV; Dunn y Dunn, 2007). La PPVT es una medida estandarizada de vocabulario receptivo que se utiliza habitualmente para evaluar la capacidad verbal (p. ej., Alamsaputra, Kohnert, Munson y Reichle, 2006; Benard et al., 2014; McAuliffe et al., 2013). El test consistía en 19 conjuntos de 12 ítems y se realizó de acuerdo con procedimientos de test estándar.
Memoria de trabajo
La memoria de trabajo se evaluó mediante el subtest de Retención de dígitos (Digit Span, DS) de la Escala de inteligencia de Wechsler para adultos, cuarta edición (WAIS-IV; Wechsler, Coalson y Raiford, 2008) y una tarea de retención de lectura (RSPAN) adaptada de Tompkins, Bloise, Timko y Baumgaertner (1994). La sección DS comprende tres tareas en las que se evalúa la DS en progresión, en regresión y en secuenciación. La tarea de RSPAN se incluyó como una medida de la memoria de trabajo verbal. Esta tarea, con su mayor énfasis en el lenguaje, se seleccionó para complementar la tarea de DS, ya que se suele correlacionar con la recepción del habla (Akeroyd, 2008). Se pedía a los participantes que leyeran oraciones en voz alta, que dijeran si la oración era «verdadera» o «falsa», y que recordaran la última palabra de la oración. Lo realizaban para todas las oraciones del conjunto hasta que aparecía una «X» en la pantalla, que indicaba que debían recordar todas las palabras finales de las oraciones que pudieran del conjunto en cuestión. El evaluador presentaba la siguiente oración inmediatamente después de que el participante indicara la veracidad de la oración, para controlar el tiempo que tardaba en realizar la tarea y reducir la posibilidad de que utilizase estrategias de aprendizaje (Friedman y Miyake, 2004).
Inteligencia no verbal
Se incluyeron dos subtests de WAIS-IV (Wechsler et al., 2008), Construcción con cubos y Matriz de razonamiento, para determinar la inteligencia no verbal de los participantes (Tamati, Gilbert y Pisoni, 2013). La tarea de Construcción con cubos implicaba reproducir una imagen con cubos rojos y blancos en un intervalo de tiempo. En la subprueba de Matriz de razonamiento, el participante seleccionaba la respuesta que completaba la matriz o serie entre cinco opciones.
Velocidad de procesamiento
Se evaluó la velocidad de procesamiento para tener en cuenta las diferencias individuales en la capacidad de realizar operaciones sencillas de una manera eficiente (Kaufman et al., 2010). En estudios anteriores de percepción del habla (Benard et al., 2014; Desjardins y Doherty, 2013; Neger, Rietveld y Janse, 2014) se han empleado medidas de velocidad de procesamiento de WAIS (Wechsler et al., 2008). Para medir la velocidad de procesamiento se utilizaron dos subtests de «lápiz y papel» del WAIS-IV, Búsqueda de símbolos y Claves. Ambas tareas se administraron de acuerdo con los protocolos WAIS-IV. En el subtest de Búsqueda de símbolos se requería que los participantes buscasen símbolos de un grupo objetivo dentro de un grupo de búsqueda en un intervalo de tiempo. En el subtest de Codificación, los participantes debían copiar símbolos emparejados con números en un intervalo de tiempo.
Audiometría de tonos puros
Todos los participantes presentaron umbrales conductuales de tonos puros por conducción aérea dentro de los límites normales bilateralmente. En concreto, todos los umbrales fueron inferiores o iguales a 20 dB HL. Los umbrales de tonos puros se midieron en frecuencias de octava de 0,25-8 kHz utilizando un audiómetro de dos canales GSI 61 con auriculares supraaurales Telephonics TDH-50P en una cabina insonorizada. La agudeza auditiva se cuantificó para el análisis de datos con un promedio derivado de un promedio de tonos puros de cuatro frecuencias de estos umbrales por conducción aérea, en las frecuencias de 500, 1000, 2000 y 4000 Hz. Este promedio se calculó a partir del oído que presentaba los umbrales promedio más bajos, denominándose medición del promedio de tonos puros del mejor oído.
Tarea de percepción del habla
En las secciones anteriores se han descrito las mediciones de vocabulario, cognitivas y de audiometría de tonos puros utilizadas en este estudio; la tarea de percepción del habla se detallará en las siguientes secciones.
Estímulos de percepción del habla
Los estímulos del habla consistían en 128 frases semánticamente anómalas (véase el Apéndice). Las 128 frases tenían contrastes de acentuación alterna (64 fuerte-débil y 64 débil-fuerte), según estudios previos de este laboratorio (McAuliffe et al., 2013). Cada frase tenía una longitud de seis sílabas y constaba entre tres y cinco palabras. Este estudio se centra en la identificación de las palabras de contenido por parte de los participantes y las 128 frases no contenían ninguna duplicación de estas palabras. Se obtuvieron mediciones de frecuencia léxica y similitud fonológica del English Lexicon Project (ELP; Balota et al., 2007) para cada una de las 361 palabras de contenido de las frases. En este estudio se utilizaron dos medidas facilitadas por el ELP: las normas de frecuencia logarítmica del hiperespacio análogo al lenguaje (Lund y Burgess, 1996) como medida de frecuencia de las palabras y la distancia fonológica de Levenshtein (DFL) como medida de similitud fonológica.
La frecuencia léxica media de las 361 palabras de contenido fue de 9,91 (DT = 1,42, rango = 5,49-13,58). Se eligió la DFL para medir la similitud fonológica, dado que proporciona una medida continua y puede incorporar palabras sin vecinos fonológicos (denominados ermitaños léxicos). La DFL de una palabra individual se calcula en primer lugar midiendo la distancia de Levenshtein (DL) entre la transcripción fonológica de la palabra objetivo y la transcripción fonológica del resto de las palabras del ELP. A continuación, se calcula la DL media de los 20 vecinos fonológicos más cercanos de la palabra objetivo. Por lo tanto, la DFL de una palabra es el promedio de las 20 palabras con la DL más corta en relación con la fonología de la palabra objetivo. Las palabras con DFL más pequeñas tienen más similitudes fonológicas con otras palabras. La DFL media de las 361 palabras de contenido fue de 1,78 (DT = 1,42, rango = 1-3,85).
Se calculó una medida adicional, la probabilidad fonotáctica, utilizando datos de frecuencia de tipo del recopilatorio CELEX (Baayen, Piepenbrock y Gulikers, 1995). Esta medida se basó en la probabilidad de transición de los constituyentes trifonos de la palabra. Se añadió un símbolo al principio y al final de cada palabra para representar sus límites. Por lo tanto, el componente inicial de tres fonemas de una palabra consistía en una combinación de «inicio, primer fonema y segundo fonema» y su componente final consistía en «penúltimo fonema, fonema final y término». La probabilidad de la palabra se calculó sumando cada una de estas probabilidades de transición transformadas logarítmicamente. A continuación, las puntuaciones fonotácticas se normalizaron mediante la longitud de la palabra (en fonemas). La probabilidad fonotáctica media fue de 3,64 (DT = 0,37, rango = -2,69 a 4,92).
Procedimientos de grabación de estímulos
Las 128 frases fueron pronunciadas por ocho personas sanas de habla inglesa neozelandesa (cuatro hombres y cuatro mujeres). Una vez sentados en el interior de una cabina insonorizada, se les indicó que leyeran dos veces cada frase que aparecía en la pantalla de un ordenador en voz alta y normal. Antes de leer las frases, escuchaban cuatro de las frases pronunciadas por otro hablante con el fin de que copiaran la velocidad del habla. Las grabaciones de audio digital monoaural (frecuencia de muestreo de 44,1 kHz, cuantificación de 16 bits) se captaban directamente en una tarjeta de memoria flash compacta a través de un micrófono de escritorio Earthworks M30 situado lateralmente a 30 cm del hablante y acoplado a una grabadora estéreo portátil TASCAM HD-P2.
Selección de estímulos
En primer lugar, la grabación de cada hablante se segmentaba manualmente en archivos individuales para cada frase utilizando MATLAB. El mejor ejemplo (es decir, el más natural) de cada frase se seleccionaba para su utilización en la tarea de percepción del habla. Si no existía ninguna diferencia perceptible, se seleccionaba el primer ejemplo de cada frase. A continuación, las grabaciones de audio seleccionadas se mezclaban con ruido adaptado a los espectros de habla promedio a largo plazo de frases pronunciadas por el mismo hablante para obtener diferentes niveles de degradación (relaciones señal/ruido [SNR]), según Sinex (2013). El nivel de habla era siempre de 65 dBA y el nivel de ruido era variado, según Gilbert, Tamati y Pisoni (2013).
Selección de los niveles de degradación
Se realizó un breve estudio piloto para confirmar las SNR y obtener una variedad de puntuaciones de precisión de la transcripción. Los participantes fueron cinco adultos que notificaron no tener ninguna dificultad auditiva. Cada participante escuchaba las 128 frases (aleatorizadas y compensadas tal como se describe en la siguiente sección) divididas en 32 frases en cuatro SNR seleccionadas a partir de 14 SNR que oscilaban entre -7 y +6 dB SNR. De estas 14 SNR, se eligieron cuatro (SNR -5, -2, +1 y +4 dB) para el experimento final de percepción del habla, dado que se obtenía en promedio entre un 28 % y un 83 % de palabras correctas por puntuaciones de frases. Estas SNR se seleccionaron para permitir la investigación sistemática del nivel de SNR en la precisión de las palabras.
Compensación y aleatorización de los estímulos del habla
Se generó para cada oyente una lista de estímulos del habla, que contenía cada una de las 128 frases, divididas en cuatro bloques compensados de 32 frases para cada una de las cuatro SNR. Las listas se equilibraron de manera que, en cada SNR, los oyentes escuchaban cuatro frases pronunciadas por cada uno de los ocho hablantes (cuatro mujeres y cuatro hombres). En cada SNR, las frases de cada hablante se equilibraban para que incluyesen una frecuencia media de palabras más alta y otra de frecuencia media más baja para cada patrón de acentuación (fuerte-débil y débil-fuerte). Además, la frecuencia media de la frase y su longitud se equilibraban para cada hablante por grupo de patrón de acentuación, así como para los patrones de acentuación y los hablantes. Las listas se generaban y elegían por selección aleatoria y se descartaban si no cumplían los criterios de equilibrio. Se obtuvieron 4.096 combinaciones únicas de frase (128), hablante (ocho) y SNR (cuatro). Se presentaron en total tres mil cuatrocientos setenta y nueve de estas combinaciones.
Procedimiento
Los participantes asistieron a dos sesiones de entre 60 y 90 minutos de duración. Cada sesión incluía la mitad de las tareas de cognición y vocabulario, y la mitad de la tarea de percepción del habla. Se compensó el orden de las tareas de cognición y vocabulario y la tarea de percepción del habla. El orden de la audiometría de tonos puro también se compensó entre los participantes. Las tareas se agruparon para que incluyesen tareas similares y todos los subtests WAIS-IV se administraron en el mismo orden, según los protocolos WAIS-IV (Wechsler et al., 2008).
Experimento de percepción del habla
El experimento de percepción del habla se realizó en una cabina insonorizada. Los participantes permanecían sentados con un altavoz situado a un acimut de 0° y a una distancia de 0,5 m. Al comienzo de cada sesión, la salida del sistema de sonido se medía con un tono de calibración de 1000 Hz y un medidor de nivel de sonido (Reed ST-805 Compact Digital). La ganancia del sistema se ajustaba para que el nivel del habla fuera de 65 dBA en el nivel de la cabeza del participante. Los estímulos del habla se enviaban al altavoz mediante una tarjeta de sonido externa (THX TruStudio PRO) y un amplificador (Crown D-75A). A los participantes se les indicó que oirían frases en inglés que eran gramaticalmente correctas pero que no tenían sentido. Se les advirtió que algunas frases serían más fáciles de entender que otras y se les animó a que tratasen de adivinarlas si no estaban seguros. Se les indicó que repitieran la frase y sus respuestas habladas se grababan para su posterior transcripción con una grabadora digital Sony IC. Si no estaban seguros de alguna palabra, se les pidió que dijeran «something» (algo) como relleno de la palabra en cuestión. Se les mostraron 10 ejemplos ortográficos de los tipos de frases que oirían y se reprodujeron cinco grabaciones de audio de frases de ejemplo mezcladas con ruido a una SNR +6 dB para que se familiarizasen con los estímulos. Cada frase se presentaba una vez seguida de 5 s de silencio durante los cuales los participantes podían responder. Durante la primera sesión, los participantes escuchaban la primera mitad de su lista asignada: dos bloques SNR de 32 frases. En la segunda sesión, escuchaban los dos bloques SNR restantes de 32 frases.
Transcripción de los datos de análisis
El evaluador transcribía ortográficamente cada una de las respuestas del participante. Las transcripciones se realizaron en minúscula, la ortografía fue la del inglés neozelandés y, en el caso de todas las palabras o no palabras cuya pronunciación no estaba clara a partir de la ortografía, la transcripción ortográfica se acompañó de una transcripción fonética con el fin de facilitar la claridad para otros investigadores. Cuando aparecía la palabra «something» se transcribía como «X». Para reducir el sesgo del transcriptor y mejorar la fiabilidad de la transcripción, un segundo transcriptor, que desconocía la primera transcripción, transcribía también las respuestas. A continuación, las dos transcripciones se verificaban automáticamente para detectar coincidencias idénticas. Seguidamente, el segundo transcriptor revisaba las discrepancias en busca de errores ortográficos, los corregía y marcaba las discrepancias restantes para una verificación de consenso. Un tercer investigador realizaba la verificación de consenso, que implicaba escuchar las respuestas discrepantes y seleccionar cuál de las dos transcripciones era la correcta. El verificador de consenso generaba el archivo de transcripción final para su puntuación y análisis estadístico.
Variable independiente: precisión de las palabras
La precisión de las palabras de contenido en las frases se puntuó automáticamente a través de un script de MATLAB. Para todos los hablantes y SNR, el script verificaba si la palabra en la transcripción de la frase coincidía exactamente con una palabra de la frase objetivo. Las palabras correctas recibían una puntuación de 1 y las palabras incorrectas una puntuación de 0. En total, se analizaron 37.183 palabras como correctas/incorrectas (103 participantes x 361 palabras de contenido único por participante).
Resultados
El objetivo principal de este artículo fue determinar los efectos del conocimiento del vocabulario y las propiedades estadísticas de las palabras en el desempeño del reconocimiento del habla. Para abordar esta cuestión, se expuso a los participantes a una variedad de estímulos en diferentes niveles de alteración del ruido. Se utilizaron puntuaciones en bruto de la PPVT para indexar el conocimiento del vocabulario. Para controlar el efecto de diferentes factores cognitivos, se crearon puntuaciones compuestas de la memoria de trabajo, la inteligencia no verbal y la velocidad de procesamiento de los participantes para utilizarlas como predictores en la identificación de palabras. Se calculó una puntuación compuesta de la memoria de trabajo utilizando las puntuaciones brutas de las tareas de Retención de dígitos y Retención de lectura. Las puntuaciones en bruto se dividieron entre la puntuación máxima posible y, a continuación, se sumaron. Las puntuaciones compuestas restantes de la inteligencia no verbal y la velocidad de procesamiento se calcularon de la misma manera utilizando los subtests descritos en la sección Método.
La media, la desviación típica y el rango de puntuaciones de las mediciones del conocimiento del vocabulario, la memoria de trabajo, la inteligencia no verbal, la velocidad de procesamiento y el promedio de tonos puros del mejor oído se muestran en la Tabla 1. Las cinco mediciones demostraron una variación considerable y no se identificaron efectos de suelo o techo en las medidas de vocabulario y cognitivas. Las cinco mediciones se escalaron y se centraron en su media para poder comparar sus efectos directamente en los modelos estadísticos. Para tener en cuenta la influencia de las variables basadas en palabras en la precisión del oyente, se examinaron otras tres variables léxicas: DFL, frecuencia léxica y probabilidad fonotáctica. Estas variables también se centraron y escalaron antes del análisis.
Antes de evaluar el desempeño del participante en diferentes SNR, establecimos un modelo principal para probar los efectos de cada variable en la precisión general de la identificación de palabras de los participantes en todos los estímulos. En este modelo se examinó un total de nueve efectos predictores: las cinco variables basadas en el oyente, tres variables basadas en palabras y las SNR presentadas en cada ensayo. Si bien la SNR se probó en solo cuatro niveles, se trató como una variable numérica, debido a la distancia numérica idéntica entre cada SNR. Antes de realizar el análisis inicial, probamos la multicolinealidad entre nuestras variables utilizando factores de inflación variable. Todos los valores fueron < 2. Los datos se analizaron utilizando modelos binomiales de efectos mixtos a través de la función glmer implementada en R. Se empleó una función logit binomial para tener en cuenta la variable dependiente de la precisión de la palabra (0 = incorrecta, 1 = correcta). Los modelos se ajustaron al criterio de la probabilidad máxima. Se incluyeron en el modelo intercepciones aleatorias para cada oyente, hablante, frase y palabra objetivo. Esta fue la estructura de efecto aleatorio máximo respaldada por los datos y se justificó adicionalmente a través de la comparación de modelos.
Resultados del modelo primario
Los resultados del modelo se presentan en la Tabla 2. El modelo indica que el conocimiento del vocabulario (b = 0,051, ET = 0,023, p = 0,026) y la memoria de trabajo (b = 0,060, ET = 0,021, p = 0,005) tuvieron un efecto significativo en la probabilidad de que el oyente identificase correctamente las palabras. Tal como se preveía, los participantes con puntuaciones más altas en conocimiento del vocabulario y memoria de trabajo tendían a mostrar una mayor precisión en la identificación de palabras. Este resultado se mantuvo al controlar su inteligencia no verbal. Los efectos de la velocidad de procesamiento, la inteligencia no verbal y la agudeza auditiva no fueron estadísticamente significativos en este modelo.
Los factores léxicos tuvieron un gran efecto en la precisión del reconocimiento de palabras, y las mediciones de la DFL y la frecuencia de las palabras explicaron los altos niveles de variación en el modelo. De hecho, la DFL (b = 0,376, ET = 0,050, p < 0,001) y la frecuencia de las palabras (b = 0,305, ET = 0,052, p < 0,001) tuvieron un efecto significativamente mayor que cualquiera de las variables basadas en el oyente, lo que indica que una frecuencia de palabras más alta y una densidad de vecindad fonológica menor son particularmente beneficiosas en el reconocimiento de palabras en presencia de ruido. Resulta curioso que el efecto del cambio de 1 DT en la DFL fue aproximadamente igual al efecto de un cambio en el nivel de la SNR (b = 0,381, ET = 0,005, p < 0,001), mientras que la probabilidad fonotáctica no explicaba la varianza estadísticamente significativa adicional en las respuestas de los participantes.
Cambios en los efectos del oyente y el lenguaje en las SNR
Según lo cuantificado por el modelo primario, la precisión en la identificación de palabras varió considerablemente entre las SNR. La variación en la precisión promedio del oyente en las cuatro condiciones de SNR se muestra en la Figura 1. Se planteó la hipótesis de que el conocimiento del vocabulario y los efectos facilitadores de la frecuencia léxica y la información fonotáctica podrían explicar una mayor varianza en la precisión de la identificación de palabras en niveles específicos de alteración del ruido. Para evaluar si hubo diferencias estadísticamente significativas en estos efectos en diferentes SNR, se analizaron varias interacciones. En primer lugar, convertimos la SNR en una variable categórica. Se analizaron cuatro términos de interacción, basados en los principales efectos observados en el modelo primario. Se añadieron al modelo interacciones entre la SNR y la puntuación de vocabulario, así como entre la SNR y la memoria de trabajo, además de interacciones entre la SNR y la DFL, y la SNR y la frecuencia de palabras. Los cuatro términos de interacción se añadieron conjuntamente en el modelo descrito en la Tabla 2 para evaluar colectivamente sus efectos.
Las puntuaciones de vocabulario demostraron una interacción estadísticamente significativa con la SNR. Específicamente, se observó que la precisión de las palabras en la SNR 1 fue significativamente mayor, en el caso de los participantes con puntuaciones de vocabulario altas, cuando se comparó con la precisión de las palabras en la SNR -5 (b = 0,08, ET = 0,038, p = 0,03). No se apreciaron diferencias estadísticamente significativas en el efecto de la memoria de trabajo en diferentes SNR. La DFL tuvo una interacción estadísticamente significativa con la SNR, con un efecto menor en la precisión de las palabras en la SNR 4, en comparación con la SNR -5 (b = -0,11, ET = 0,044, p = 0,014). Por el contrario, la frecuencia de las palabras tuvo un efecto significativamente mayor en la SNR 4, en comparación con la SNR -5 (b = 0,12, ET = 0,045, p = 0,009).
Para calcular y comparar con mayor precisión la magnitud del efecto de las variables en diferentes SNR, modelamos por separado predictores de precisión de las palabras para cada una de las cuatro SNR, lo que permitió la comparación directa de las magnitudes de efecto relevantes en las condiciones de SNR. No obstante, debido a que la inclusión de estos modelos requirió pruebas post hoc repetidas del oyente y predictores basados en el léxico, los valores de p notificados se deben interpretar con precaución y no se deben utilizar para atribuir una significación estadística a ningún factor individual. Los datos se analizaron utilizando modelos binomiales de efectos mixtos mediante la función glmer implementada en R. Para cada modelo se utilizó la misma estructura de efecto aleatorio descrita en el modelo primario.
Modelo uno: SNR -5 dB
En este modelo se evaluó la magnitud de los efectos basados en el oyente y el léxico con una SNR -5 dB. En este nivel de alteración del ruido, los participantes identificaron correctamente un promedio del 20 % de las palabras de contenido presentadas. Los resultados del modelo se presentan en la Tabla 3. Los coeficientes de regresión de las Tablas 2 a 6 proporcionan las probabilidades logarítmicas de un cambio en la variable independiente. La magnitud de cada coeficiente estandarizado corresponde a un cambio de 1 DT en la variable independiente. En las secciones siguientes se exponen estos coeficientes para informar de las ratios de probabilidades y permitir una interpretación más fácil de las magnitudes de los efectos.
La densidad de vecindad fonológica tuvo el mayor efecto en la precisión de la identificación de las palabras, dado que un aumento de 1 DT en la DFL incrementaba las probabilidades de identificar una palabra en un factor de 1,49. El efecto de la frecuencia de las palabras fue comparativamente más débil, ya que un aumento de 1 DT en la frecuencia de las palabras incrementaba las probabilidades de identificar una palabra en un factor de 1,34. El modelo no ofreció pruebas sólidas de efectos basados en el oyente en la precisión de la identificación de palabras.
Modelo dos: SNR —2 dB
En este modelo se evaluó la magnitud de los efectos basados en el oyente y el léxico con una SNR -2 dB. En este nivel de alteración del ruido, los participantes identificaron correctamente un promedio del 45 % de las palabras de contenido presentadas. Los resultados del modelo se presentan en la Tabla 4. De nuevo, la DFL tuvo el mayor efecto en la precisión de la identificación de las palabras, dado que un aumento de 1 DT en la DFL incrementaba las probabilidades de identificar una palabra en un factor de 1,50. El efecto de la frecuencia de las palabras fue también similar al del modelo SNR -5 dB, ya que un aumento de 1 DT en la frecuencia de las palabras incrementaba las probabilidades de identificar una palabra en un factor de 1,34. El modelo no ofreció pruebas de efectos específicos basados en el oyente en la precisión de la identificación de palabras, si bien los coeficientes del vocabulario y la memoria de trabajo fueron mayores que los indicados en el modelo anterior.
Modelo tres: SNR 1 dB
En este modelo se evaluó la magnitud de los efectos basados en el oyente y el léxico con una SNR 1 dB. En este nivel de alteración del ruido, los participantes identificaron correctamente un promedio del 67 % de las palabras de contenido presentadas. Los resultados del modelo se presentan en la Tabla 5. La densidad de vecindad fonológica mantuvo el mayor efecto en la precisión de identificación de las palabras, si bien el efecto se redujo ligeramente en comparación con los dos modelos anteriores. Un aumento de 1 DT en la DFL incrementaba las probabilidades de identificar una palabra en un factor de 1,45. Por el contrario, el efecto de la frecuencia de las palabras fue mayor que en los modelos anteriores, ya que un aumento de 1 DT en la frecuencia de las palabras incrementaba las probabilidades de identificar una palabra en un factor de 1,39. Los efectos del oyente fueron más destacados en esta condición de SNR. Un aumento de 1 DT en las puntuaciones de vocabulario incrementaba las probabilidades de identificar una palabra en un factor de 1,08, mientras que un aumento de 1 DT en las puntuaciones de memoria de trabajo incrementaba las probabilidades de identificación correcta de una palabra en un factor de 1,09.
Modelo cuatro: SNR 4 dB
En este modelo se evaluó la magnitud de los efectos basados en el oyente y el léxico con una SNR 4 dB. En este nivel de alteración del ruido, los participantes identificaron correctamente un promedio del 81 % de las palabras de contenido presentadas. Los resultados del modelo se presentan en la Tabla 6. A diferencia de los modelos anteriores, la frecuencia de las palabras tuvo el mayor efecto en la precisión de los oyentes. Un aumento de 1 DT en la frecuencia de las palabras incrementaba las probabilidades de identificación correcta de palabras en un factor de 1,48. El efecto de la densidad de vecindad fonológica se redujo aún más en comparación con los modelos anteriores, ya que un aumento de 1 DT en la DFL incrementaba las probabilidades de identificar una palabra en un factor de 1,41. El modelo no ofreció pruebas de efectos basados en el oyente en la precisión de la identificación de palabras, y los coeficientes del conocimiento del vocabulario y la memoria de trabajo se redujeron en comparación con el modelo anterior de SNR 1 dB. Los efectos relativos de las puntuaciones del conocimiento del vocabulario y la memoria de trabajo en cada uno de los cuatro modelos se resumen en la Figura 2.
Discusión
En este estudio se examinaron los efectos del conocimiento del idioma en el procesamiento del habla en hablantes nativos de inglés jóvenes y sanos. Específicamente, nos interesaba conocer cómo la fortaleza de las características basadas en el oyente (p. ej., agudeza auditiva, conocimiento del vocabulario, memoria de trabajo) y los factores léxicos (p. ej., DFL, frecuencia léxica) podría cambiar en diferentes niveles de alteración del ruido.
En primer lugar, el objetivo de este estudio era establecer el efecto del conocimiento del vocabulario y el conocimiento lingüístico implícito en la precisión de la identificación de palabras cuando se controlan factores cognitivos como la memoria de trabajo y la inteligencia no verbal. Los resultados del análisis primario, que incluía los cuatro niveles de alteración de la SNR, revelaron que unas puntuaciones mayores tanto en conocimiento del vocabulario como en memoria de trabajo se asociaban con una identificación de palabras más precisa. Además, estos hallazgos no se debieron a diferencias en la inteligencia no verbal entre los participantes. Por el contrario, los hallazgos fueron congruentes con los de estudios anteriores en los que se notificaron los efectos facilitadores de un vocabulario más amplio y una memoria de trabajo superior en el reconocimiento de palabras (Ingvalson et al., 2017; McLaughlin et al., 2018). Resulta posible que estos dos factores individuales actúen conjuntamente, es decir, las personas con una memoria de trabajo mayor retienen una mayor cantidad de detalles fonéticos mientras tratan de resolver la señal ambigua utilizando información sintáctica, léxica y fonológica (Rönnberg et al., 2013). Si una persona cuenta con una mayor experiencia lingüística, es posible que pueda utilizar esta información con una mayor precisión y con una mayor velocidad de acceso léxico, por lo que percibiría correctamente un mayor número de palabras.
Si bien estos hallazgos fueron estadísticamente significativos, eran relativamente sutiles en comparación con la fortaleza de los efectos de las variables léxicas: la DFL y la frecuencia de las palabras. Los efectos significativos de la DFL y la frecuencia de las palabras son congruentes con el modelo de activación de vecindad, que establece que la percepción del habla se ve afectada por la cantidad de palabras en el léxico de una persona que son fonéticamente similares al estímulo de la palabra objetivo. El modelo de activación de vecindad establece además que la frecuencia relativa de estas palabras es importante; es más difícil identificar una palabra objetivo poco habitual cuando sus vecinas fonéticas aparecen con mayor frecuencia en el idioma. Por lo tanto, los efectos de la frecuencia y la similitud fonética pueden alterar tanto la velocidad como la precisión del reconocimiento de palabras (Luce y Pisoni, 1998). Es probable que esta teoría explique la importancia relativa de la frecuencia de las palabras y la DFL en todos nuestros modelos de reconocimiento de palabras.
Resulta curioso que, si bien la DFL ejerció un gran efecto en el reconocimiento de palabras, no se apreció ninguna influencia significativa de la probabilidad fonotáctica en la precisión del reconocimiento de palabras. Se podría argumentar que los patrones fonotácticos de alta probabilidad ocurren generalmente en vecindades fonológicas más densas y, por lo tanto, el gran efecto de la competencia léxica ha oscurecido cualquier efecto facilitador de la predictibilidad fonotáctica en nuestros modelos. Sin embargo, en nuestros estímulos elegidos, después de normalizar la longitud de las palabras, la probabilidad fonotáctica no se correlacionó significativamente con nuestra medición de la densidad de vecindad fonológica (que tendía a ser menor en palabras más largas). Por lo tanto, es probable que este efecto simplemente tenga una relación débil con el reconocimiento de palabras en comparación con las mediciones de frecuencia de las palabras y la DFL.
El segundo objetivo del estudio era determinar si el oyente y las variables lingüísticas diferían en la fortaleza de sus efectos en diferentes niveles de degradación de la señal. Se anticipó que las variables individuales de los oyentes tendrían el mayor efecto en los rangos medios de inteligibilidad de la señal, donde podrían haber aprovechado su vocabulario o conocimiento lingüístico para «reconstruir» los componentes de la señal degradada. Respaldando esta teoría, en un examen de los efectos de interacción en el modelo primario, se encontraron pruebas de un efecto significativamente mayor del vocabulario en SNR 1, en comparación con SNR -5. Para medir y comparar directamente todas las magnitudes del efecto, se crearon cuatro modelos diferentes en las condiciones de SNR. Los resultados del análisis indicaron que el conocimiento del vocabulario de una persona tenía su mayor influencia en el reconocimiento de palabras en una SNR 1 dB, donde podía identificar con precisión un promedio del 67 % de las palabras correctamente. Los datos también indicaron que, a medida que aumentaba el nivel de ruido en la señal, estos efectos se reducían progresivamente (entre SNR 1 dB, SNR -2 dB y SNR -5 dB). Estos hallazgos respaldan nuestra hipótesis de que el conocimiento del vocabulario de una persona tendría el mayor efecto en el reconocimiento de palabras cuando una señal tenía una degradación moderada (en este caso, cuando aproximadamente el 67 % de las palabras se reconocía con precisión), es decir, cuando algunos fragmentos de información acústica o léxica estaban disponibles (Cooke, 2006; Cooke et al., 2008). A medida que disminuía la cantidad de información disponible para el oyente, y los fragmentos de la señal se reducían o no estaban disponibles, disminuía cualquier efecto facilitador del conocimiento del vocabulario. De manera similar, cuando la señal era más fácil de entender (con un 80 % de precisión en el reconocimiento de palabras), los efectos del conocimiento del vocabulario eran mínimos. Esto puede indicar que las condiciones de escucha se encontraban en un nivel en el que el conocimiento general de las palabras, en lugar del conocimiento implícito de las propiedades fonéticas y estadísticas del idioma, facilitaba la segmentación léxica y el reconocimiento asistido (Mattys et al., 2005).
El hecho de que el conocimiento del vocabulario y la memoria de trabajo demostraran el mayor efecto en el reconocimiento de palabras en la misma SNR aporta pruebas de que estos efectos pueden facilitar la percepción del habla de una manera complementaria. No obstante, teniendo en cuenta que solo se observaron pequeños cambios en los efectos de la memoria de trabajo en cada SNR (sin diferencias estadísticamente significativas entre las condiciones), el mayor efecto de la memoria de trabajo en la SNR 1 se debe interpretar con precaución. Se plantea la hipótesis de que una persona necesita la memoria de trabajo para retener detalles específicos de la señal acústica (Rönnberg et al., 2013), mientras que el conocimiento específico del idioma le permite aprovechar estas pistas acústicas basadas en el conocimiento implícito de la distribución de las palabras y las características fonéticas de su idioma (Cutler et al., 2004, 2008). Nuestros hallazgos sugieren que estos factores individuales pueden influir en el reconocimiento del habla en los oyentes nativos, lo que puede ser particularmente cierto cuando la señal se encuentra moderadamente degradada; sin embargo, se requiere un análisis de datos a mayor escala para probar esta hipótesis.
El alcance con el que los participantes pudieron utilizar información léxica y fonética también se vio afectado por las diferentes SNR. La frecuencia de las palabras fue una pista importante en la identificación de palabras en todas las SNR. No obstante, el efecto de la frecuencia pareció disminuir con SNR más bajas, lo que refleja quizá el punto en el que desaparece la identificación precisa de palabras de alta frecuencia. Resulta curioso que los efectos de la DFL no reflejaron los de la frecuencia de palabras. La información fonológica facilitada por la medición de la DFL fue un determinante importante en la identificación precisa de palabras en todas las SNR, pero concretamente en los niveles más bajos de SNR -5 y -2. Por lo tanto, da la impresión de que determinadas pistas fonológicas o fonéticas para el reconocimiento de palabras se pueden utilizar con éxito incluso cuando la alteración de la señal es máxima.
En resumen, en este estudio se confirmaron las conclusiones de informes anteriores acerca de que el conocimiento del vocabulario y la memoria de trabajo ejercían un efecto en el reconocimiento de palabras por parte de oyentes jóvenes y sanos. Además, los efectos del conocimiento del vocabulario y la memoria de trabajo de las personas tuvieron la mayor influencia en el procesamiento del habla en la misma SNR, lo que puede indicar que tienen funciones complementarias en el reconocimiento de palabras. Ambos efectos seguían estando presentes cuando se controlaba la inteligencia no verbal y la velocidad de procesamiento general. Se plantea la hipótesis de que tanto el conocimiento basado en el idioma como la memoria de trabajo son especialmente importantes en niveles moderados de alteración de la señal, cuando se requiere que los oyentes realicen inferencias basadas en fragmentos de información acústica y léxica. Este estudio está limitado por la participación de hablantes jóvenes y sanos. Debido al rango limitado de puntuaciones de umbral de tonos puros en esta población, no se encontraron relaciones significativas entre la agudeza auditiva y el reconocimiento de palabras en presencia de ruido. Se necesitan más estudios de investigación para evaluar en profundidad cómo la pérdida auditiva puede influir en la capacidad de las personas de utilizar el conocimiento del vocabulario y aprovechar las pistas basadas en el idioma en diferentes niveles de alteración del ruido. Los efectos facilitadores de la experiencia y el conocimiento del idioma pueden ser de particular interés en la población de mayor edad. Las funciones cognitivas como la memoria, la velocidad de procesamiento y la inhibición de las interferencias suelen deteriorarse con la edad (Wingfield, Tun y McCoy, 2005). Por el contrario, las experiencias con nuestra lengua materna continúan aumentando. Por lo tanto, es posible que el conocimiento basado en el idioma continúe mejorando aspectos del procesamiento del habla con el paso del tiempo, compensando la disminución de la agudeza auditiva que sucede con la edad.
Agradecimientos
Agradecemos la subvención de la Royal Society of New Zealand Marsden Fund (UOC1303) otorgada a Megan McAuliffe y Donal Sinex. Queremos agradecer a los hablantes y oyentes que participaron en el estudio, a Amanda Lee y Morgana Mountfort-Davies por la coordinación del laboratorio y la gestión de los participantes, y a los asistentes de investigación que fueron fundamentales en la realización de este trabajo.
Bibliografía
Akeroyd, M. A. (2008). Are individual differences in speech reception related to individual differences in cognitive ability? A survey of twenty experimental studies with normal and hearing-impaired adults. International Journal of Audiology, 47(Supl. 2), S53-S71.
Alamsaputra, D. M., Kohnert, K. J., Munson, B., & Reichle, J. (2006). Synthesized speech intelligibility among native speakers and non-native speakers of English. Augmentative and Alternative Communication, 22(4), 258-268.
Baayen, R. H., Piepenbrock, R., & Gulikers, L. (1995). The CELEX lexical database (release 2). Philadelphia: Linguistic Data Consortium, University of Pennsylvania.
Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B.,… Treiman, R. (2007). The English lexicon project. Behavior Research Methods, 39(3), 445-459.
Banks, B., Gowen, E., Munro, K. J., & Adank, P. (2015). Cognitive predictors of perceptual adaptation to accented speech. The Journal of the Acoustical Society of America, 137(4), 2015-2024.
Başkent, D. (2012). Effect of speech degradation on top-down repair: Phonemic restoration with simulations of cochlear implants and combined electric-acoustic stimulation. Journal of the Association for Research in Otolaryngology, 13(5), 683-692.
Benard, M. R., Mensink, J. S., & Başkent, D. (2014). Individual differences in top-down restoration of interrupted speech: Links to linguistic and cognitive abilities. The Journal of the Acoustical Society of America, 135(2), EL88-EL94.
Bent, T., Baese-Berk, M., Borrie, S. A., & McKee, M. (2016). Individual differences in the perception of regional, nonnative, and disordered speech varieties. The Journal of the Acoustical Society of America, 140(5), 3775-3786.
Cooke, M. (2006). A glimpsing model of speech perception in noise. The Journal of the Acoustical Society of America, 119(3), 1562-1573.
Cooke, M., Garcia Lecumberri, M. L., & Barker, J. (2008). The foreign language cocktail party problem: Energetic and informational masking effects in non-native speech perception. The Journal of the Acoustical Society of America, 123(1), 414-427.
Cutler, A., Garcia Lecumberri, M. L., & Cooke, M. (2008). Consonant identification in noise by native and non-native listeners: Effects of local context. The Journal of the Acoustical Society of America, 124(2), 1264-1268.
Cutler, A., Weber, A., Smits, R., & Cooper, N. (2004). Patterns of English phoneme confusions by native and non-native listeners. The Journal of the Acoustical Society of America, 116(6), 3668-3678.
Desjardins, J. L., & Doherty, K. A. (2013). Age-related changes in listening effort for various types of masker noises. Ear and Hearing, 34(3), 261-272.
Dunn, D. M., & Dunn, L. M. (2007). Peabody Picture Vocabulary Test: Manual. Minneapolis, MN: Pearson.
Friedman, N. P., & Miyake, A. (2004). The reading span test and its predictive power for reading comprehension ability. Journal of Memory and Language, 51(1), 136-158.
Gilbert, J. L., Tamati, T. N., & Pisoni, D. B. (2013). Development, reliability, and validity of PRESTO: A new high-variability sentence recognition test. Journal of the American Academy of Audiology, 24(1), 26-36.
Humes, L. E. (2007). The contributions of audibility and cognitive factors to the benefit provided by amplified speech to older adults. Journal of the American Academy of Audiology, 18(7), 590-603.
Herrmann, D. J., & Harwood, J. R. (1980). More evidence for the existence of separate semantic and episodic stores in long-term memory. Journal of Experimental Psychology: Human Learning and Memory, 6(5), 467-478.
Ingvalson, E. M., Lansford, K. L., Fedorova, V., & Fernandez, G. (2017). Receptive vocabulary, cognitive flexibility, and inhibitory control differentially predict older and younger adults’ success perceiving speech by talkers with dysarthria. Journal of Speech, Language, and Hearing Research, 60(12), 3632-3641.
Kaufman, S. B., DeYoung, C. G., Gray, J. R., Jimenez, L., Brown, J., & Mackintosh, N. (2010). Implicit learning as an ability. Cognition, 116(3), 321-340.
Luce, P. A., & Pisoni, D. B. (1998). Recognizing spoken words: The neighborhood activation model. Ear and Hearing, 19(1), 1-36.
Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2), 203-208.
Lyxell, B., & Rönnberg, J. (1992). The relationship between verbal ability and sentence-based speechreading. Scandinavian Audiology, 21(2), 67-72.
Mattys, S. L., White, L., & Melhorn, J. F. (2005). Integration of multiple speech segmentation cues: A hierarchical framework. Journal of Experimental Psychology: General, 134(4), 477.
Mayo, L. H., Florentine, M., & Buus, S. (1997). Age of second-language acquisition and perception of speech in noise. Journal of Speech, Language, and Hearing Research, 40(3), 686-693.
McAuliffe, M. J., Gibson, E. M., Kerr, S. E., Anderson, T., & LaShell, P. J. (2013). Vocabulary influences older and younger listeners’ processing of dysarthric speech. The Journal of the Acoustical Society of America, 134(2), 1358-1368.
McLaughlin, D. J., Baese-Berk, M. M., Bent, T., Borrie, S. A., & Van Engen, K. J. (2018). Coping with adversity: Individual differences in the perception of noisy and accented speech. Attention, Perception, & Psychophysics, 80, 1559-1570.
Meador, D., Flege, J. E., & MacKay, I. R. (2000). Factors affecting the recognition of words in a second language. Bilingualism: Language and Cognition, 3(1), 55-67.
Nasreddine, Z. S., Phillips, N. A., Bédirian, V., Charbonneau, S., Whitehead, V., Collin, I.,… Chertkow, H. (2005). The Montreal Cognitive Assessment, MoCA: A brief screening tool for mild cognitive impairment. Journal of the American Geriatrics Society, 53(4), 695-699.
Neger, T. M., Rietveld, T., & Janse, E. (2014). Relationship between perceptual learning in speech and statistical learning in younger and older adults. Frontiers in Human Neuroscience, 8, 628.
Plomin, R., & Spinath, F. M. (2002). Genetics and general cognitive ability (g). Trends in Cognitive Sciences, 6(4), 169-176.
Rogers, C. L., Lister, J. J., Febo, D. M., Besing, J. M., & Abrams, H. B. (2006). Effects of bilingualism, noise, and reverberation on speech perception by listeners with normal hearing. Applied Psycholinguistics, 27(3), 465-485.
Rönnberg, J., Lunner, T., Zekveld, A., Sörqvist, P., Danielsson, H., Lyxell, B., … Rudner, M. (2013). The Ease of Language Understanding (ELU) model: Theoretical, empirical, and clinical advances. Frontiers in Systems Neuroscience, 7, 31.
Sinex, D. G. (2013). Recognition of speech in noise after application of time-frequency masks: Dependence on frequency and threshold parameters. The Journal of the Acoustical Society of America, 133(4), 2390-2396.
Sohoglu, E., Peelle, J. E., Carlyon, R. P., & Davis, M. H. (2012). Predictive top-down integration of prior knowledge during speech perception. Journal of Neuroscience, 32(25), 8443-8453.
Tamati, T. N., Gilbert, J. L., & Pisoni, D. B. (2013). Some factors underlying individual differences in speech recognition on PRESTO: A first report. Journal of the American Academy of Audiology, 24(7), 616-634.
Tompkins, C. A., Bloise, C. G., Timko, M. L., & Baumgaertner, A. (1994). Working memory and inference revision in brain-damaged and normally aging adults. Journal of Speech and Hearing Research, 37(4), 896-912.
Wechsler, D., Coalson, D., & Raiford, S. (2008). Wechsler Adult Intelligence Scale-Fourth Edition (WAIS-IV). Technical and interpretative manual. San Antonio, TX: Pearson.
Wingfield, A., Tun, P. A., & McCoy, S. L. (2005). Hearing loss in older adulthood: What it is and how it interacts with cognitive performance. Current Directions in Psychological Science
Traducido con autorización del artículo “Efectos del vocabulario y el conocimiento lingüístico implícito en el reconocimiento del habla en condiciones de escucha adversas”, por Annalise Fletcher, Megan McAuliffe, Sarah Kerr y Donal Sinex (American Journal of Audiology, vol. 28, 742-755, Octubre 2019, http://aja.pubs.asha.org/journal.aspx)). Este material ha sido originalmente desarrollado y es propiedad de la American Speech-Language-Hearing Association, Rockville, MD, U.S.A., www.asha.org. Todos los derechos reservados. La calidad y precisión de la traducción es únicamente responsabilidad de AG BELL INTERNATIONAL.
La American Speech-Language-Hearing Association (ASHA) no justifica o garantiza la precisión, la totalidad, la disponibilidad, el uso comercial, la adecuación a un objetivo particular o que no se infringe el contenido de este artículo y renuncia a cualquier responsabilidad directa o indirecta, especial, incidental, punitiva o daños consecuentes que puedan surgir del uso o de la imposibilidad de usar el contenido de este artículo.
Translated, with permission, from “Effects of Vocabulary and Implicit Linguistic Knowledge on Speech Recognition in Adverse Listening Conditions”, by Annalise Fletcher, Megan McAuliffe, Sarah Kerr and Donal Sinex (American Journal of Audiology, vol. 28, 742-755, October 2019, http://aja.pubs.asha.org/journal.aspx). This material was originally developed and is copyrighted by the American Speech-Language-Hearing Association, Rockville, MD, U.S.A., www.asha.org. All rights are reserved. Accuracy and appropriateness of the translation are the sole responsibility of AG BELL INTERNATIONAL.
The American Speech-Language-Hearing Association (ASHA) does not warrant or guarantee the accuracy, completeness, availability, merchantability, fitness for a particular purpose, or noninfringement of the content of this article and disclaims responsibility for any damages arising out of its use. Description of or reference to products or publications in this article, neither constitutes nor implies a guarantee, endorsement, or support of claims made of that product, publication, or service. In no event shall ASHA be liable for any indirect, special, incidental, punitive, or consequential damages arising out of the use of or the inability to use the article content.
Intervenciones audiológicas basadas en Internet: novedades para los clínicos
Eldré W. Beukes y Vinaya Manchaiah
Resumen
Objetivo
Los avances en las tecnologías digitales e informáticas han creado oportunidades para las innovaciones en la prestación de atención médica de forma remota. El objetivo de este artículo es proporcionar a los profesionales de la audiología un resumen de la literatura relativa a las intervenciones audiológicas existentes basadas en Internet (IBI). Los objetivos específicos son: a) ofrecer una visión general de la gama de IBI audiológicos para adultos con pérdida auditiva, trastornos del equilibrio y acúfenos, b) identificar las características incluidas en estos IBI y los posibles beneficios; y c) determinar las dificultades y los retos relacionados con la implementación y el uso de IBI audiológicos.
Método
Los artículos relevantes se identificaron a través de una revisión de la literatura realizada en la base de datos PubMed y en la «literatura gris». Se resumió la información relevante de estas fuentes, como el tipo de intervención y los resultados principales.
Resultados
Se identificó una variedad de IBI en cuya mayoría se abordaba la angustia que generan los acúfenos. Las IBI relativas a la pérdida auditiva se han aplicado en diferentes etapas del itinerario de un paciente. Entre las IBI no guiadas para las dificultades vestibulares se incluyen la autoayuda para la enfermedad de Ménière y la rehabilitación vestibular. En la mayoría de las IBI para acúfenos se facilita la terapia cognitivo-conductual. En general, las IBI muestran beneficios en términos de resultados y accesibilidad. Entre las barreras se encuentran la incertidumbre en torno a la rentabilidad, el nivel óptimo de apoyo y la mejora del compromiso con respecto a la intervención.
Conclusiones
Las aplicaciones de telesalud se están expandiendo en la audiología y las IBI se han desarrollado para proporcionar rehabilitación auditiva, rehabilitación vestibular e intervenciones en acúfenos. Las IBI tienen el potencial de ofrecer servicios accesibles y asequibles. Se requiere realizar un mayor trabajo para desarrollar aún más estas intervenciones y optimizar los resultados.
La pérdida auditiva, los trastornos vestibulares y los acúfenos son algunas de las discapacidades más predominantes en todo el mundo. Alrededor del 15 % de la población mundial presenta algún grado de pérdida auditiva (Olusanya, Neumann y Saunders, 2014), siendo la pérdida superior a 20 dB la segunda discapacidad más frecuente (Vos et al., 2015). Se ha notificado que la prevalencia de vértigos es aproximadamente del 20-30 % entre los adultos (Agrawal, Carey, Della Santina, Schubert y Minor, 2009; Benecke, Agus, Goodall, Kuessner y Strupp, 2013) y al menos el 10 % de la población adulta padece acúfenos (Bhatt, Lin y Bhattacharyya, 2016; Shargorodsky, Curhan y Farwell, 2010). A menudo, las afecciones relacionadas con la audición pueden no presentarse de una forma aislada, ya que la pérdida auditiva es una de las causas más frecuentes del desarrollo de acúfenos (Nondahl et al., 2011) y los acúfenos suelen presentarse acompañados de hiperacusia (Baguley y Andersson, 2008). En determinadas patologías pueden coexistir ataques de vértigo, pérdida auditiva y acúfenos, como es el caso de la enfermedad de Ménière (Nakashima et al., 2016). Por lo tanto, las afecciones relacionadas con la audición contribuyen a la carga económica social y sanitaria. El coste mundial anual de las personas con una pérdida auditiva no tratada representa 750.000 millones USD (Chadha, Cieza y Krug, 2018) y un mayor coste de atención médica durante un periodo de 10 años en comparación con el coste de las personas sin pérdida auditiva (Reed et al., 2018). El coste anual de las intervenciones de acúfenos en el Reino Unido se calculó en 750 millones £ (960 millones USD) en total y el coste social anual relacionado con los acúfenos se estimó en 2.700 millones £ (3.500 millones USD) (Stockdale et al., 2017). En Estados Unidos, la carga económica anual de los trastornos vestibulares unilaterales y bilaterales era de 3.531- a 13.019 USD por paciente (Sun, Ward, Semenov, Carey y Della Santina, 2014).
En la mayoría de los casos, las dificultades relacionadas con la audición, como la pérdida auditiva, los acúfenos y la discapacidad vestibular, pueden precisar apoyo a largo plazo, lo que implica en gran medida ofrecer una rehabilitación extensa que consta de varios componentes interrelacionados, que incluyen el uso de amplificación, la modificación conductual y el apoyo psicológico (Fuller et al., 2017). Si bien la provisión de audífonos e implantes cocleares es fundamental para mejorar los resultados de las personas con una pérdida auditiva (Barker, Mackenzie, Elliott, Jones y de Lusignan, 2016), estos dispositivos no pueden restaurar la audición natural y puede seguir existiendo un esfuerzo auditivo (Peelle y Wingfield, 2016). La adopción de la amplificación está influenciada por numerosos factores, como la prestación de un apoyo y una rehabilitación adicionales (Ng y Loke, 2015), que son cruciales debido al impacto negativo que las dificultades relacionadas con la audición pueden tener en las actividades cotidianas y la calidad de vida (Miura et al., 2017; Nordvik et al., 2018), lo que a menudo se traduce en aislamiento social y una reducción de la función cognitiva, además de ansiedad y depresión (Benecke et al., 2013; Ciorba, Bianchini, Pelucchi y Pastore, 2012; Hall et al., 2018; Langguth, 2011). Si bien este apoyo sería idóneo, la provisión de esta rehabilitación extensa es complicada considerando que numerosos sistemas sanitarios se enfrentan a presiones crecientes y recursos limitados. A pesar de los beneficios demostrados, no existen servicios audiológicos disponibles para ofrecer esta rehabilitación a una gran parte de la población mundial (Swanepoel y Hall, 2010) y sigue habiendo una escasez de audiólogos en todo el mundo (Mulwafu, Ensink, Kuper y Fagan, 2017; Windmill y Freeman, 2013). Se estima que, en los países más desarrollados, existe un audiólogo por cada 20.000 personas. Esta proporción disminuye a un audiólogo por cada 0,5-6,25 millones de personas en los países menos desarrollados (Goulios y Patuzzi, 2008). Incluso en países con una amplia atención sanitaria, como el Reino Unido, no se dispone fácilmente de servicios audiológicos especializados, especialmente en regiones geográficas remotas (Hoare, Broomhead, Stockdale y Kennedy, 2015). La falta de recursos y de profesionales debidamente capacitados con habilidades especializadas para abordar afecciones audiológicas complejas son barreras adicionales en la prestación de prácticas basadas en la evidencia (Hall et al., 2011). Por lo tanto, el reto estriba en superar estas restricciones en la prestación de la rehabilitación audiológica. Otro desafío es la planificación de la creciente demanda de servicios a medida que aumenta la proporción de personas mayores (Vos et al., 2015; Organización Mundial de la Salud, 2013) y la prevalencia de afecciones relacionadas con la audición que generalmente aumenta con la edad (Bainbridge y Wallhagen, 2014; Jönsson, Sixt, Landahl y Rosenhall, 2004; McCormack, Edmondson-Jones, Somerset y Hall, 2016). Una planificación futura para garantizar la disponibilidad de los recursos es esencial.
Los avances en las tecnologías digitales e informáticas han permitido innovaciones en los modelos de prestación de servicios de atención médica. Una innovación que ha tenido un gran progreso en la última década es la telesalud, que se refiere a la prestación de atención médica de forma remota mediante tecnologías digitales y de telecomunicaciones (Capobianco, 2015). Se están desarrollando aplicaciones generalizadas de telesalud debido a su potencial para ofrecer apoyo a poblaciones remotas, mejorando de esta forma la accesibilidad a la atención médica a un coste reducido (Andersson y Titov, 2014). La telesalud puede facilitar el acceso a la atención clínica a las personas con dificultades para acceder a la atención presencial. Entre los motivos de estas dificultades se encuentran la lejanía de los consultorios, las dificultades de transporte, los problemas relacionados con la salud, la pérdida de ingresos al ausentarse del trabajo o el estigma asociado con la visita a profesionales de la salud (Cuijpers, van Straten y Andersson, 2008). En el campo de la audiología se han desarrollado varias soluciones de teleaudiología con fines de detección, diagnóstico, pediatría, programación remota y rehabilitación (Krupinksi, 2015; McCarthy, Leigh y Arthur-Kelly, 2018; Paglialonga, Nielsen, Ingo, Barr y Laplante-Lévesque, 2018; Swanepoel y Hall, 2010; Tao et al., 2018). Las formas de ofrecer estas soluciones varían desde plataformas físicas (como aplicaciones basadas en PC, DVD; Vreeburg, Diekstra y Hosman, 2018) hasta intervenciones basadas en Internet (IBI; Carlbring, Andersson, Cuijpers, Riper y Hedman-Lagerlöf, 2018) y dispositivos de salud móviles, como aplicaciones para teléfonos inteligentes (Akter & Ray, 2010). Teniendo en cuenta que Internet es una herramienta tan potente, numerosas intervenciones de autoayuda en telesalud se basan en Internet (Reavley y Jorm, 2011). Una IBI se ha definido principalmente como «un programa de intervención de autoayuda que se realiza mediante un programa prescriptivo en línea operado a través de un sitio web y utilizado por usuarios que buscan atención relacionada con la salud física y mental. El propio programa de intervención intenta crear cambios positivos y/o mejorar/potenciar el conocimiento, la toma de conciencia y la comprensión mediante el suministro de material relacionado con la salud y el uso de componentes interactivos basados en Internet» (Barak, Klein y Proudfoot, 2009, pág. 5 re). Las intervenciones en Internet son independientes del apoyo profesional (no orientado) u ofrecen algún tipo de apoyo (orientado). La orientación es un mecanismo que permite que las personas obtengan información «externa» sobre sí mismas y su progreso (Barak et al., 2009). La orientación puede ser sincrónica (p. ej., chats en tiempo real), asincrónica (es decir, que no tiene lugar en tiempo real, como cuando se usa el correo electrónico) o un enfoque en el que se combinan varios medios. En una revisión sistemática se indica que los resultados de las intervenciones orientadas son más favorables que los de las intervenciones no orientadas (Baumeister, Reichler, Munzinger y Lin, 2014). El uso rutinario de aplicaciones teleaudiológicas de detección y diagnóstico se ha implementado más ampliamente que las IBI. En una revisión sistemática se observó que el 79 % de los artículos identificados relativos a la teleaudiología relacionada con la audición trataban de la identificación de la pérdida auditiva (Molini-Avejonas, Rondon-Melo, Amato y Samelli, 2015). Debido a la importancia de la rehabilitación en el ámbito audiológico, es importante facilitar el acceso a la rehabilitación. Internet es un recurso valioso para realizar este tipo de intervenciones y las personas con discapacidad auditiva lo utilizan con frecuencia. Los estudios realizados en Suecia, Reino Unido y Canadá indican un mayor uso de Internet por parte de las personas con discapacidad auditiva que por parte de la población general (Gonsalves y Pichora-Fuller, 2008; Henshaw, Clark, Kang y Ferguson, 2012; Thorén, Öberg, Wänström, Andersson y Lunner, 2013). El fomento de una implementación más amplia de las IBI es una manera de mejorar el acceso a la rehabilitación audiológica. Una mayor familiarización con estas intervenciones y las implicaciones en la práctica clínica puede ayudar a adaptar las opciones de la rehabilitación teleaudiológica. El objetivo general de este artículo es facilitar a los profesionales de la audiología un resumen de la literatura relativa a las IBI audiológicas existentes. Los objetivos específicos son: a) ofrecer una visión general de la gama de IBI audiológicas para adultos con pérdida auditiva, trastornos del equilibrio y acúfenos, b) identificar las características de estas IBI y los posibles beneficios y c) determinar las dificultades y los retos relacionados con la implementación y el uso de IBI audiológicas.
Método
En línea con los objetivos de este artículo de resumir la literatura existente sobre IBI, se realizó una revisión preliminar de la literatura. Sin embargo, es preciso destacar que no se trata de una revisión formal ni sistemática y, por lo tanto, es posible que no se incluyan todos los estudios realizados en este ámbito. El enfoque de esta revisión preliminar fue identificar estudios experimentales en los que se hubiera evaluado el uso de IBI relacionadas con la autoayuda centrados en adultos (≥ 18 años) con pérdida auditiva, trastornos vestibulares y acúfenos. La base de datos PubMed, junto con la búsqueda en la «literatura gris», como Google Scholar, se utilizó para identificar los tipos de intervenciones en Internet disponibles. Para centrar el alcance de esta revisión en las intervenciones de autoayuda, no se incluyeron las intervenciones dirigidas a la programación remota, los seguimientos de la implantación coclear ni las adaptaciones de audífonos. En cuanto a los estudios experimentales, también se excluyeron los estudios centrados únicamente en el desarrollo, las experiencias, el análisis cualitativo o los procesos involucrados en tales intervenciones. Los datos que serían relevantes para los profesionales de la audiología se obtuvieron de los estudios en los que se describían las intervenciones en Internet. Los datos incluían: a) el país en el que tuvo lugar la intervención, b) el tipo de intervención en Internet (entrenamiento auditivo, rehabilitación), c) las características adicionales de la intervención, d) la orientación en línea, e) la magnitud del efecto en la principal medida de resultado y (f) los principales hallazgos.
Resultados
Gama de IBI audiológicas
IBI para la pérdida auditiva
Las IBI para la pérdida auditiva han adoptado un enfoque variado (véase la Tabla 1). Se han aplicado en diferentes etapas del itinerario del paciente (preadaptación, nuevos y experimentados usuarios de audífonos, y usuarios con una discapacidad auditiva significativa independientemente del uso de la amplificación). Es interesante destacar que en todos los estudios se prestó este apoyo, de forma asincrónica en línea o a través de un enfoque combinado complementando la atención clínica presencial con este tipo de intervención. Por lo tanto, las IBI se pueden utilizar como reemplazo y/o complemento de la atención sanitaria habitual. Algunas de estas intervenciones se han desarrollado con la participación de los usuarios del servicio (p. ej., Ferguson, Brandeth, Brassington y Wharrad, 2015).
En un estudio se investigó la eficacia de una intervención de asesoramiento previo a la adaptación de audífonos basada en Internet (Manchaiah, Rönnberg, Andersson y Lunner, 2014). En el caso de esta intervención, el compromiso con el tratamiento fue bajo y se observaron elevadas tasas de abandono. Internet se ha utilizado de una manera combinada junto con el apoyo de asesoramiento presencial en usuarios de audífonos por primera vez en tres estudios (Brännström et al., 2016; Ferguson, Brandreth, Brassington, Leighton y Wharrad, 2016; Ferguson et al., 2015). Brännström et al. (2016) encontraron que, con la rehabilitación auditiva basada en Internet, se consigue una reducción significativa en la discapacidad auditiva autoevaluada después de la intervención. Ferguson et al. (2015, 2016) facilitaron familiarización con los audífonos durante aproximadamente 60 minutos a través de DVD, PC o Internet y observaron que, si bien mejoró el conocimiento sobre los problemas prácticos y psicosociales, la discapacidad auditiva autoevaluada no disminuía después de visualizar la información. Internet también se ha utilizado con usuarios de audífonos con experiencia. Thorén et al. (2011, 2014) encontraron que la discapacidad auditiva autoevaluada disminuía después de facilitar formación de rehabilitación orientada en línea en el caso de usuarios de audífonos con experiencia. En este estudio, recibir o no recibir orientación no parecía tener ningún efecto en el resultado. El único estudio de eficacia fue el de Malmberg, Lunner, Kähäri y Andersdson (2017), en el que se indicaba que la realización de rehabilitación auditiva basada en Internet, en el caso de usuarios suecos de audífonos, mejoraba las habilidades de comunicación. Además, Internet se ha utilizado para reducir la angustia psicológica de las personas con problemas auditivos (Molander et al., 2018). En este estudio se utilizó la Terapia de Aceptación y Compromiso (TAC), que se centra en disminuir la evitación experimental al aceptar la existencia de pensamientos y emociones negativos (Hayes, Luoma, Bond, Masuda y Lilis, 2006). Es evidente el potencial de la incorporación de Internet en diferentes etapas del recorrido del paciente para reducir los efectos de la pérdida auditiva. Antes de la implementación, es necesario seguir trabajando para mejorar los resultados de estas intervenciones. Se requieren más estudios de eficacia para evaluar los resultados en las poblaciones clínicas.
IBI para trastornos vestibulares
Existen dos IBI no orientadas para dificultades vestibulares (véase la Tabla 2). En un estudio realizado en Finlandia por Pyykkö, Manchaiah, Levo, Kentala y Juhola (2017) se investigó una intervención de autoayuda basada en Internet para el tratamiento de la enfermedad de Ménière en un ensayo abierto de un solo grupo. Se notificaron mejoras en la superación postraumática y la calidad de vida general relacionada con la salud. En un estudio de eficacia aleatorizado y controlado, realizado en el Reino Unido por Geraghty et al. (2017), se observó que la rehabilitación vestibular basada en Internet reducía los mareos y las discapacidades asociadas en 296 pacientes de edad avanzada. Si bien este cuerpo de investigación existente es alentador, las IBI no se han investigado prácticamente en este ámbito. Debido a la prevalencia de las discapacidades vestibulares, existe una necesidad inmediata de desarrollar más IBI para los trastornos vestibulares, así como estudios de investigación sobre la eficacia y la efectividad de estas intervenciones.
IBI para acúfenos
Existe más literatura publicada sobre intervenciones en Internet para los acúfenos que para cualquier otra dificultad relacionada con la audición. Las primeras intervenciones de acúfenos basadas en Internet se iniciaron a finales de la década de 1990 en Suecia (Andersson, Strömgren, Ström y Lyttkens, 2002). El fundamento de este estudio fue aumentar la disponibilidad de atención para los acúfenos basada en la evidencia. La terapia cognitivo-conductual (TCC) es una intervención psicológica para los acúfenos, dirigida a alterar las respuestas inadaptativas frente a los acúfenos mediante modificaciones conductuales. Como se observó una mayor evidencia de efectividad en la reducción de la angustia por acúfenos (Hesser, Weise, Westin y Andersson, 2011), se desarrolló una intervención de TCC basada en Internet (TCCI). Desde este desarrollo, se ha evaluado la eficacia de la TCCI en la reducción de la angustia por acúfenos en Suecia, Alemania, Australia y el Reino Unido (véase la Tabla 3). Los usuarios del servicio participaron parcialmente en el desarrollo de la intervención en el Reino Unido (Beukes et al., 2016). Debido a la escasez de psicólogos clínicos que faciliten TCC para los acúfenos, un audiólogo facilitó orientación para la intervención desarrollada en el Reino Unido (Beukes, Andersson, Allen, Manchaiah y Baguley, 2018; Beukes, Baguley, Allen, Manchaiah y Andersson, 2018). A pesar de no disponer de una cualificación de TCC, los resultados fueron similares a los resultados de los ensayos realizados por psicólogos clínicos que facilitaban orientación. En general, la magnitud de los efectos han sido mayores en estudios posteriores en los que se han incorporado el uso de características de Internet actualizadas y diseños metodológicos más estrictos (Weise, Kleinstäuber y Andersson, 2016). En otros estudios en los que participaron grupos de control activos también se indica que los resultados del uso de la TCCI para los acúfenos son similares a los de la atención basada en grupos (p. ej., Jasper et al., 2014; Kaldo et al., 2008) y la TAC basada en Internet (Hesser et al., 2012). Además, la eficacia de la TCCI ha sido evidente en comparación con los resultados de la atención individualizada y presencial de los acúfenos (Beukes, Andersson, et al., 2018) y la TCC basada en grupos que facilita rehabilitación a diferentes grupos de pacientes individualmente (Kaldo et al., 2013; Kaldo-Sandström, Larsen y Andersson, 2004). Los resultados se mantuvieron hasta un año después de la intervención (Beukes, Allen, Baguley, Manchaiah y Andersson, 2018; Hesser et al., 2012; Kaldo et al., 2008; Weise et al., 2016). Además, se ha demostrado que los efectos de la intervención reducen las dificultades relacionadas con los acúfenos, como el insomnio, la ansiedad, la depresión y la disminución de la calidad de vida (Beukes, Andersson, et al., 2018; Beukes, Baguley, et al., 2018; Hesser et al., 2012; Weise et al., 2016). Dado que las intervenciones basadas en Internet para los acúfenos indican una reducción a largo plazo de la angustia por acúfenos y las comorbilidades relacionadas, tienen el potencial de implementarse de una manera más amplia para mejorar la accesibilidad a la atención de los acúfenos basada en la evidencia.
Si bien han evolucionado un gran número de estrategias de tratamiento, muchas carecen de apoyo empírico. Las intervenciones psicológicas, como la TCC, ofrecen actualmente la mayor evidencia de eficacia en la reducción de la angustia por acúfenos (Hesser et al., 2011; Martinez-Devesa, Perera, Theodoulou y Waddell, 2010).
Características, ventajas y retos de las IBI
Las características y los beneficios de las IBI identificados tanto para los pacientes como para los servicios, junto con los retos relacionados con la prestación de IBI, se resumen en las Tabla 4A y 4B. En general, estas intervenciones muestran potencial para reducir la discapacidad relacionada con la audición y los vértigos, la angustia por acúfenos y las comorbilidades como la ansiedad y la depresión, y para mantener estos efectos (cuando se evalúan, 1 año después de la intervención). Ofrecen una intervención accesible con la capacidad de supervisar el compromiso y la evolución. Entre las incertidumbres que rodean a las IBI se incluyen una falta de claridad con respecto a la rentabilidad, ya que no se ha realizado un análisis del coste-utilidad. Entre otras incertidumbres se encuentran el nivel de apoyo óptimo y la mejora del compromiso de la intervención, que pueden ser bajos.
Discusión
Gama de IBI
Se ha probado una variedad de IBI para la rehabilitación auditiva y vestibular, así como para abordar la angustia por acúfenos, en ensayos de eficacia y efectividad. En la mayoría de los ensayos se han abordado los acúfenos utilizando la TCCI. Se ha aplicado una serie de intervenciones diferentes a las personas con pérdida auditiva en diferentes etapas de su ruta de tratamiento, lo que indica la extensa rehabilitación que requiere esta población: antes de que comience el tratamiento, después de la adaptación de los audífonos y tras adquirir experiencia en el uso de audífonos. Las IBI son una manera de facilitar esta rehabilitación extensa con recursos limitados. Una mayor uniformidad en la intervención desarrollada puede fomentar aún más el uso de IBI en el caso de la pérdida auditiva. El área con menor desarrollo de IBI fue la de discapacidad vestibular. Las personas con trastornos vestibulares suelen tener acceso a una extensa rehabilitación vestibular. Estas intervenciones también se pueden adaptar al tipo de dificultades vestibulares que presenten. Será beneficioso seguir trabajando en esta área de las IBI para las dificultades vestibulares. En los estudios incluidos se han encontrado muy pocos ensayos de efectividad. Únicamente se encontró una IBI para la pérdida auditiva (Malmberg et al., 2017), una IBI para la rehabilitación vestibular (Geraghty et al., 2017) y tres IBI para los acúfenos (Beukes, Andersson, et al., 2018; Kaldo et al., 2013; Kaldo-Sandström et al., 2004). Se requieren más ensayos de efectividad, así como estudios en los que se formulen modelos, para incluir estos estudios en la atención clínica habitual.
Características de las intervenciones en Internet
Un gran número de las intervenciones poseía un marco teórico sólido y se basaba en principios de la TCC o la TAC. Con estos componentes se abordaban problemas cotidianos, como la dificultad para dormir y concentrarse (Beukes et al., 2016). También se añadía un elemento de personalización, ya que algunos módulos se seleccionaban solo si era evidente la existencia de un problema en esa área. Se incorporaban características conocidas por aumentar el éxito de las IBI, como son la formación del paciente y las maneras de fomentar la autoeficacia, la autogestión y la inclusión de un compañero de comunicación frecuente para promover el apoyo social y la autoadaptación (Preminger y Rothpletz, 2016). Ninguna de las intervenciones actuales implicaba explícitamente a los compañeros de comunicación, lo que indica la necesidad de incluir esta característica en el trabajo posterior a desarrollar.
Si bien las IBI son en gran parte intervenciones de autoayuda, se puede incorporar la opción de apoyo profesional (intervención orientada), como fue el caso de la mayoría de las intervenciones. El modo de comunicación fue asincrónico (es decir, comunicación fuera de línea entre los profesionales sanitarios y los pacientes, como el correo electrónico) o una combinación de ambos métodos (enfoque combinado). Se incorporaron elementos de orientación sincrónica (es decir, comunicación en tiempo real entre los profesionales sanitarios y los pacientes) mediante la inclusión de llamadas telefónicas iniciales y finales. Las intervenciones más recientes se pueden adaptar a diferentes tamaños de pantalla y son, por lo tanto, accesibles desde ordenadores o dispositivos móviles (p. ej., Beukes, Baguley, et al., 2018). En algunas existía la opción de visualización en línea, en DVD o mediante una aplicación de PC (Ferguson et al., 2015).
Desde el punto de vista del desarrollo de servicios, existen características que pueden agilizar los procesos. Una característica se refiere a que las medidas de evaluación y/o las medidas del cuestionario notificadas por el paciente se pueden incorporar en la intervención (Vlaescu, Alasjö, Miloff, Carlbring y Andersson, 2016), lo que ofrece la oportunidad de administrar diversas áreas como la intensidad de los síntomas, la calidad de vida, la ansiedad y la depresión. De esta manera, los pacientes se pueden tratar de una manera más holística.
Retos
Si bien existe una tendencia hacia la prestación de servicios de atención médica que permitan la autogestión (Hood y Friend, 2011), el logro de la participación activa en las IBI es un reto (Pryce, Hall, Laplante-Lévesque y Clark, 2016; Rolfe y Gardner, 2016). El comromiso fue especialmente bajo en el caso de una IBI de asesoramiento previo a la adaptación de audífonos (Manchaiah et al., 2014) y una IBI para acúfenos ofrecidas en Australia (Abbott et al., 2009). El bajo compromiso se puede atribuir en parte a que las intervenciones no se adaptaron a los pacientes seleccionados de la población (p. ej., trabajadores industriales para el ensayo de acúfenos). Es alentador que muchas de las IBI indicaban una participación de los usuarios del servicio en los procesos de desarrollo (véase Beukes et al., 2016) y que otras se encuentren en desarrollo (véase Ferguson, Leighton, Brandreth y Wharrad, 2018; Nielsen, Rotger-Griful, Kanstrup y Laplante-Lévesque, 2018; Thorén, Pedersen y Jørnæs, 2016). Estos desarrollos pueden facilitar la creación de soluciones de IBI centradas en el paciente y adaptadas a poblaciones específicas. En las intervenciones que se utilicen en las IBI se debe considerar detenidamente la inclusión de características de diseño que mejoren los resultados y la participación activa, como las facilitadas por Morrison, Yardley, Powell y Michie (2012) y Yardley et al. (2016).
No todas las intervenciones revisadas obtuvieron resultados favorables. Es importante identificar los factores que pueden haber contribuido a obtener estos resultados. Un método consiste en realizar una evaluación de la evolución en paralelo para considerar la influencia de factores como la dosis de tratamiento administrada (integridad), la dosis de tratamiento recibida (exposición), la fidelidad al tratamiento, la adherencia y el mantenimiento del tratamiento, la satisfacción y el beneficio percibido (Beukes, Manchaiah, Baguley, Allen y Andersson, 2017). A continuación, se pueden abordar los factores identificados. Las barreras técnicas pueden ser una barrera que impida la participación activa (Beukes et al., 2016). Asegurarse de que la oferta de estrategias personalizadas de rehabilitación de las IBI no sea un reto técnico, especialmente para una población de edad avanzada, es un aspecto importante, pero plantea varios retos (Nielsen et al., 2018). Es importante considerar el nivel de competencia en Internet de la población objetivo, ya que puede influir en la participación y en los resultados. También se debe garantizar la accesibilidad de la información proporcionada en términos de facilidad de lectura con respecto a los niveles de exhaustividad (Aldridge, 2004). La accesibilidad en términos de nivel de lectura también es importante. En las directrices del Departamento de Salud y Servicios Humanos estadounidense y de la American Medical Association se recomienda que los materiales de salud se redacten en un lenguaje sencillo en un nivel de lectura de sexto curso o inferior. La legibilidad de los informes solo se ha notificado recientemente (p. ej., Beukes et al., 2016). La priorización del acceso en términos de legibilidad es importante, dado que se ha notificado que la información de atención médica relacionada con la audición en línea está por encima de los niveles de curso recomendado (Laplante-Lévesque y Thorén, 2015; Manchaiah et al., 2018).
Implicaciones para los profesionales de la audiología
La aplicación teleaudiológica proporcionada por un proveedor cualificado, desarrollada principalmente para pacientes con un acceso limitado a la atención médica, validada por su eficacia y rentabilidad, y con resultados equivalentes a los logrados mediante prácticas presenciales cuenta con el apoyo de la American Academy of Audiology y la American Speech-Language-Hearing Association. En la actualidad, se ha identificado una baja aceptación clínica de la teleaudiología (Eikelboom y Swanepoel, 2016), a pesar de una actitud positiva en cuanto a la aceptación de la teleaudiología por parte de los profesionales (Eikelboom y Swanepoel, 2016; Ravi, Gunjawate, Yerraguntla y Driscoll, 2018; Singh, Pichora-Fuller, Malkowski, Boretzki y Launer, 2014). La falta de educación y formación sobre las IBI facilitadas en los programas de grado actuales podría contribuir en parte a la baja adopción clínica de la teleaudiología. La prestación de orientación en línea con respecto a la prestación en un entorno clínico es diferente y no existe una formación estandarizada para facilitar la teleaudiología. Una formación adicional sobre la aplicación de la teleaudiología a los alumnos y los profesionales de la audiología es crucial para lograr una mayor adopción de las IBI. Existen factores adicionales que pueden obstaculizar el uso de las IBI, como problemas de licencia relacionados con la manera en que se proporcionan las IBI. En algunos estados estadounidenses se requiere una consulta presencial antes de ofrecer una rehabilitación basada en Internet. Las compañías de seguros no siempre reconocen las IBI como un servicio reembolsable. Para su aceptación por parte de las compañías de seguros será necesario demostrar las ventajas evidentes de rentabilidad de las IBI. Además, será necesario diseñar modelos de desarrollo de servicios que proporcionen tanto rehabilitación mediante IBI como atención presencial. La identificación de los pacientes más adecuados para la IBI sigue siendo un reto. Para algunos pacientes, la complejidad de su trastorno les puede impedir acceder a una IBI. Hasta la fecha no se han identificado predictores de resultados procedentes de ensayos controlados con respecto a variables demográficas y clínicas (p. ej., Andersson, 2016; Beukes, Allen, et al., 2018; Kaldo-Sandström et al., 2004). Pueden existir variables que todavía no se hayan considerado y que permitan identificar a los pacientes que sean más adecuados para las IBI. A las personas a las que les sea complicado acudir a una clínica porque trabajen a tiempo completo, por que tienen dificultades de transporte o porque los entornos clínicos les generen ansiedad, han valorado la oportunidad de recibir atención médica en línea (Beukes, Manchaiah, et al., 2018).
Las IBI audiológicas pueden experimentar un mayor desarrollo. En determinadas zonas existe la necesidad de extender la aplicación de IBI a poblaciones más amplias, como las de ancianos o las de veteranos militares. El apoyo social a las personas con dificultades auditivas es importante. La disponibilidad de grupos de apoyo en línea, además de familiares y amigos, ha indicado beneficios (p. ej., Cummings, Sproull y Kiesler, 2002). Un análisis temático de los foros de discusión en línea sobre los acúfenos ha indicado los beneficios de estos foros en términos de compartir conocimientos y experiencias, contar con apoyo e identificar estrategias de afrontamiento adicionales (Ainscough, Smith, Greenwell y Hoare, 2018). También se identificaron consecuencias menos favorables relacionadas con estas intervenciones, como son los mensajes negativos, la falta de comunicación, la sobrecarga de información y los consejos contradictorios. Se requiere una mayor investigación sobre el valor de estos grupos de forma aislada y con apoyo intervencionista.
Limitaciones y direcciones futuras
En este artículo presentamos una visión general de las IBI en el ámbito de la audiología. La principal limitación de este estudio es el alcance y la profundidad limitados de la búsqueda bibliográfica, ya que solo hemos utilizado una base de datos para la búsqueda. Por lo tanto, es preciso destacar que este artículo puede no incluir todos los estudios en este ámbito. Debido a la variedad de estudios identificados, es necesaria una revisión sistemática. Además, en este artículo, presentamos los estudios de investigación en este ámbito. No obstante, nuestros conocimientos son limitados en cuanto al lugar y la clase de servicios de teleaudiología que se ofrecen en los diferentes países. Resultaría de utilidad realizar un estudio de tipo encuesta para comprender la manera en que se aplica la teleaudiología en la práctica.
Conclusiones
En los últimos años se han desarrollado numerosas IBIs audiológicas que se centran en la pérdida auditiva, los trastornos vestibulares y los acúfenos. Se necesitan maneras eficaces de incorporarlas en la prestación de atención de salud auditiva habitual. Estos modelos solo se pueden desarrollar cuando los clínicos, los investigadores, las organizaciones profesionales (p. ej., la American Academy of Audiology y la American Speech-Language-Hearing Association), las organizaciones de pacientes (p. ej., Hearing Loss Association of America) y otras partes interesadas trabajen conjuntamente para fomentar la accesibilidad de la rehabilitación audiológica.
Recursos adicionales
Recomendamos
Teleaudiology Model Considerations
Mark Krumm, American Journal of Audiology, 2014
The Role of Patient-Site Facilitators in Teleaudiology: A Scoping Review
Laura Coco et al., American Journal of Audiology, 2020
Use and Mediating Effect of Interactive Design Features in Audiology Rehabilitation and Self-Management Internet-Based Interventions
Kate Greenwell et al., American Journal of Audiology, 2016
Understanding User Reactions and Interactions with an Internet-Based Intervention for Tinnitus Self-Management: Mixed-Methods Evaluation
Kate Greenwell et al., American Journal of Audiology, 2019
The Application of Intervention Coding Methodology to Describe the Tinnitus E-Programme, an Internet-Delivered Self-Help Intervention for Tinnitus
Kate Greenwell et al., American Journal of Audiology, 2015
A Guided Internet-Based Intervention for Chronic Pain
Jennifer Perry et al., Medscape
Sudden Deafness, Part 1: Diagnosis and Treatment
Maurice H. Miller et al., Medscape
Web-based CBT equally effective as face-to-face care for tinnitus
Healio
Chemotherapy-Induced Hearing Loss Affects Cognition in Pediatric Brain Tumor Survivors
The ASCO Post et al., CNS Cancers, 2015
LIRA-PRIME: a randomized trial in primary care settings of liraglutide versus OAD for glycemic control in patients with T2D. Zoghbi M.
Presentado en EASD 2020. Patrocinado por Novo Nordisk.