Un modelo de arranque conceptual en la cognición humana.

Naturaleza Comportamiento humano (2023)Citar este artículo

Detalles de métricas

Para abordar un problema difícil, a menudo es aconsejable reutilizar y recombinar el conocimiento existente. Esta capacidad de arranque nos permite desarrollar conceptos mentales ricos a pesar de los recursos cognitivos limitados. Aquí presentamos un modelo computacional de arranque conceptual. Este modelo utiliza un repertorio conceptual dinámico que puede almacenar en caché y luego reutilizar elementos de conocimientos anteriores según principios, modelando el aprendizaje como una serie de generalizaciones compositivas. Este modelo predice conceptos aprendidos sistemáticamente diferentes cuando la misma evidencia se procesa en diferentes órdenes, sin suposiciones adicionales sobre creencias previas o conocimientos previos. A lo largo de cuatro experimentos de comportamiento (n total = 570), demostramos fuertes efectos de orden curricular y de senderos conceptuales del jardín que se parecen mucho a las predicciones de nuestro modelo y difieren de los de relatos alternativos. En conjunto, este trabajo ofrece una explicación computacional de cómo las experiencias pasadas dan forma a futuros descubrimientos conceptuales y muestra la importancia del diseño curricular en las inferencias de conceptos inductivos humanos.

Las personas tienen una capacidad notable para desarrollar conceptos ricos y complejos a pesar de sus capacidades cognitivas limitadas. Por un lado, existe abundante evidencia de que las personas son razonadores limitados1,2,3,4,5, consideran un conjunto bastante pequeño de opciones mentales a la vez6,7,8,9,10 y generalmente se desvían de la búsqueda exhaustiva en grandes áreas. espacios de hipótesis11,12,13,14,15. Por otro lado, estos razonadores limitados pueden desarrollar sistemas conceptuales ricamente estructurados16,17,18, producir explicaciones sofisticadas19,20,21 e impulsar teorías científicas complejas22. ¿Cómo pueden las personas crear y comprender conceptos tan complejos que parecen estar tan fuera de su alcance?

Newton dio una famosa respuesta a esta pregunta: “Si he visto más lejos, es estando sobre los hombros de gigantes”23. Esto refleja la intuición de que las personas están limitadas pero bendecidas con la capacidad no sólo de aprender de los demás, sino también de ampliar y reutilizar el conocimiento existente para crear ideas nuevas y más poderosas. Esta capacidad se considera una piedra angular del desarrollo cognitivo24. Por ejemplo, al construir a partir de conceptos atómicos de números pequeños uno, dos, tres y contar, los niños pequeños parecen avanzar hacia conceptos numéricos más generales y abstractos, como las relaciones sucesoras y la línea infinita de números reales25. A través del arranque, no es necesario redescubrir el conocimiento existente adquirido con tanto esfuerzo cada vez que se utiliza, lo que ahorra al alumno tiempo y esfuerzo en la construcción de nuevos conceptos que se basan en conceptos antiguos. Gracias a una representación tan eficaz del conocimiento existente, las personas pueden llegar a constructos mentales ricos de forma incremental26,27,28 y desarrollar una jerarquía de conceptos de forma natural a través de niveles de reutilización anidada18.

Si bien el bootstrapping es una idea clave en las teorías del aprendizaje y el desarrollo24, tanto los estudios conductuales que examinan el bootstrapping directamente como los modelos cognitivos que articulan sus mecanismos son relativamente raros. Piantadosi et al.25 fueron pioneros en una línea de investigación que postulaba el bootstrapping en un marco de aprendizaje de conceptos bayesiano. Sin embargo, se centraron en el descubrimiento de una función recursiva en el aprendizaje de conceptos numéricos y dejaron abierta la tarea de examinar el bootstrapping como modelo general de inferencia inductiva en línea. Dechter et al. 29 formalizaron la idea de que un alumno artificial puede comenzar resolviendo problemas de búsqueda simples y luego reutilizar algunas de las soluciones para avanzar en problemas más complejos. Este enfoque luego se convirtió en el aprendizaje de biblioteca bayesiano, una clase de modelos destinados a la extracción de funcionalidades compartidas de una colección de programas30,31. Estos modelos han resuelto con éxito una variedad de tareas y se ha demostrado que capturan aspectos de la cognición humana32,33. Sin embargo, estos trabajos están dirigidos principalmente a aprender bibliotecas óptimas o resolver problemas de prueba desafiantes en lugar de explicar cómo las limitaciones de recursos interactúan con los mecanismos de arranque, y cómo la explotación de tales interacciones puede explicar los patrones humanos de errores de razonamiento, así como también los éxitos.

Aquí proporcionamos un modelo computacional de cómo las personas arrancan y proponemos un mecanismo algorítmico que produce progresivamente conceptos ricos, incluso con recursos cognitivos limitados. Al tratar la forma en que las personas construyen conceptos como un problema computacional, modelamos el bootstrapping como un algoritmo de aprendizaje a nivel de proceso34 que efectivamente almacena en caché conceptos aprendidos previamente y los reutiliza para conceptos más complejos a través de una representación basada en principios. Para lograr esto, ampliamos los marcos de aprendizaje de conceptos bayesianos estándar con una biblioteca de conceptos dinámica que puede enriquecerse con el tiempo, impulsada por una formalización extraída de gramáticas adaptadoras35,36. Luego diseñamos experimentos basados en este modelo para probar y medir cómo las personas construyen conceptos complejos y cómo este proceso se adapta al orden en que las personas encuentran o piensan en la evidencia. Comparamos esta cuenta de aprendizaje bootstrap con una variedad de modelos alternativos de aprendizaje de conceptos y demostramos cómo un mecanismo de caché y reutilización proporciona una explicación de las limitaciones inferenciales humanas, así como también cómo nos permite alcanzar conceptos que inicialmente están fuera de nuestro alcance. bajo condiciones facilitadoras.

Considere la tarea de generalización y aprendizaje causal representada en la Fig. 1a. Un objeto agente A (llamado 'huevo mágico' en nuestros experimentos) se mueve hacia un objeto receptor R (llamado 'palo') y, al tocarse entre sí, el objeto agente A provoca cambios en el número de segmentos en el objeto receptor R, produciendo lo que llamamos el objeto resultado R'. Aquí un objeto agente tiene dos características numéricas (un número de franjas y un número de puntos) y se pide a las personas que formulen hipótesis sobre la naturaleza de la relación causal entre los objetos agente y receptor y el resultado, o formalmente, el contenido de la función f( raya(A), punto(A), segmento(R)) que produce el segmento(R'). Sin ambigüedad, acortamos esto a R' ← f(franja(A), punto(A), R).

a, Ejemplo de interacción causal con (1) objetos agente causal (izquierda, círculo) y receptor (derecha); (2) el agente A se mueve hacia la derecha hacia el destinatario R; y (3) al tocarlo, el receptor R cambia a su forma resultante R'. El marcador translúcido se utiliza aquí sólo para ilustrar la animación. Resumen de esta animación (4), con fondo gris que muestra al agente A y al receptor R antes de la interacción causal, y fondo blanco que representa al agente A y el resultado R' después de la interacción causal. b, Esquema del modelo de aprendizaje bootstrap. Los árboles representan programas conceptuales de ejemplo. c, Ejemplo de trayectorias de aprendizaje de arranque en seis observaciones (consulte el texto principal para obtener una explicación).

A pesar de su aparente simplicidad, esta tarea captura un desafío clave del aprendizaje de conceptos: el espacio de hipótesis potenciales es infinito. Por ejemplo, podría ser que el objeto A agregue dos segmentos al destinatario R, es decir, R' ← R + 2; o quizás A duplica el número de segmentos de R, es decir, R' ← 2 × R; o cada franja de A es un multiplicador, es decir, R' ← franja(A) × R. El espacio de hipótesis causales potenciales es ilimitado. Se puede utilizar un modelo generativo para expresar este espacio infinito utilizando un pequeño conjunto de bloques de construcción37. En este caso, considere una gramática probabilística libre de contexto G con primitivas raya(A), punto(A), R, enteros pequeños 0, 1, 2, 3 y operaciones +, − y ×. Las primitivas raya(A), mancha(A) y R devuelven los valores numéricos correspondientes. Operaciones como + vinculan dos valores numéricos y devuelven un valor numérico después de la operación correspondiente. La gramática G toma muestras recursivas de estas primitivas para construir conceptos (funciones). Específicamente, cada operación primitiva como + puede vincular primitivas numéricas o invocar otra combinación de operaciones, formando funciones anidadas como stripe(A) × (R − 1). Por lo tanto, la gramática G cubre un espacio infinito de conceptos potenciales y puede usarse para asignar una distribución de probabilidad sobre este espacio (Métodos). Para un concepto z, su probabilidad a priori viene dada por PG(z). A medida que los alumnos recopilan datos D, pueden comprobar qué probabilidad hay de que el concepto z produzca datos D, lo que se conoce como probabilidad P(D|z). Según la regla de Bayes, los alumnos son informados por el posterior P(z|D) ∝ P(D|z) × PG(z). Si bien el cálculo directo de este posterior no es factible porque el término de normalización implica infinito, existen muchos métodos para aproximar este cálculo14,37,38,39.

Nos basamos en este marco de aprendizaje de conceptos simbólico bayesiano para modelar el arranque conceptual. Específicamente utilizamos gramáticas adaptadoras (AG)36 como nuestra gramática generativa para asignar probabilidades previas. Una gramática adaptadora, por diseño, aprende asignaciones probabilísticas entre subpartes de una estructura, capturando la intuición de que cuando algunos conceptos van juntos con frecuencia, tiene sentido esperar que todo el conjunto sea común en el futuro. Tal mecanismo de almacenar en caché conjuntos de conceptos y reutilizarlos como un todo relaja el supuesto de libre contexto de la gramática libre de contexto G presentada anteriormente, y captura la esencia del aprendizaje bootstrap: la reutilización efectiva de conceptos aprendidos sin la necesidad de redescubrirlos cada vez. tiempo en que se utiliza. Liang et al.35 amplían las gramáticas adaptadoras con lógica combinatoria, ofreciendo un algoritmo para programas de aprendizaje que se beneficia del intercambio y la reutilización de subprogramas de aprendizaje. Aquí adaptamos el algoritmo de Liang et al.35 para examinar este mecanismo de caché y uso como un modelo a nivel de proceso de arranque conceptual bajo restricciones de recursos. Específicamente, en lugar de tomar muestras de un conjunto fijo de primitivas, introducimos una biblioteca de conceptos latentes que se puede actualizar dinámicamente. La biblioteca de conceptos L contiene conceptos primitivos, así como conjuntos de conceptos almacenados en caché, ponderados por la utilidad que ha tenido un conjunto (ver más abajo). Los alumnos generan conceptos utilizando el contenido de la biblioteca L, y la gramática del adaptador AG define la probabilidad de que la biblioteca L genere el concepto z (Métodos). Esta probabilidad conjunta P(z, L) proporciona una PAG(z|L) previa. Luego podemos combinar la probabilidad P(D|z) con esta anterior, produciendo la posterior P(z|D, L).

Por lo tanto, el objetivo de la inferencia es inferir la biblioteca latente L que mejor puede explicar los datos de aprendizaje D. Siguiendo trabajos previos que sugieren que los estudiantes humanos hacen inferencias tomando muestras de un posterior aproximado en lugar de rastrear todo el espacio posterior de posibilidades12, utilizamos métodos conocidos para muestreo de procesos de Pitman-Yor40 de modo que, condicionados a la biblioteca L en cualquier momento dado, los estudiantes puedan hacer inferencias apropiadas sobre las probabilidades de diferentes explicaciones para eventos nuevos o destacados. En particular, utilizamos el muestreo de Gibbs (Métodos), un método Monte Carlo de cadena de Markov, sobre la distribución conjunta de conceptos y bibliotecas. En cada iteración del muestreo de Gibbs, tomamos muestras de un concepto de esta distribución z ~ PAG(z|L) y los combinamos con la función de verosimilitud para determinar los conceptos favorecidos por los datos. Luego tomamos muestras de hasta tres conceptos favoritos y los agregamos, así como sus subpartes, a la biblioteca L (almacenamiento en caché; Fig. 1b), produciendo la muestra de biblioteca L'. Tenga en cuenta que en la siguiente iteración, cuando se toma el muestreo de PAG(z|L'), esos contenidos agregados se usan como si fueran primitivos (reutilización; Fig. 1b) y, por lo tanto, el alumno puede componer combinaciones sofisticadas con bastante pocos pasos de composición ( Métodos).

Esta idea de una biblioteca de conceptos dinámica es especialmente poderosa cuando tomamos en cuenta las limitaciones de recursos. Tomando las seis observaciones en la Fig. 1c, por ejemplo, el concepto de verdad fundamental implica diferentes poderes causales (operaciones matemáticas) por característica del agente. Por lo tanto, tratar de determinar un concepto consistente con las seis observaciones es un problema desafiante. Sin embargo, si uno observa los primeros tres pares que involucran solo rayas (cuadro bordeado por líneas continuas, Fig. 1c), el alumno puede descubrir que las rayas pueden multiplicar segmentos, R' ← raya(A) × R. Con esta idea en mente y ahora mirando los seis pares, el alumno puede lograr construir un concepto anidado R' ← (franja(A) × R) – punto(A) que explica todas las observaciones reutilizando el concepto anterior como un subconcepto. Si intercambiamos el orden de presentación y primero le mostramos al alumno los últimos tres pares en la Fig. 1c (cuadro con borde discontinuo), el espacio del concepto potencial podría abrumar al alumno y, sin haber almacenado en caché ningún subconcepto útil, el conjunto de observación completo podría ser igual de confuso. Según nuestro modelo de aprendizaje bootstrap, los alumnos individuales podrían desarrollar una biblioteca de conceptos L* que sea el resultado de dos episodios secuenciales de búsqueda posterior y almacenamiento en caché. Siempre que la primera fase de búsqueda lleve al alumno a almacenar en caché la franja de bloques de construcción crucial (A) × R, es probable que la segunda fase de búsqueda resulte en el descubrimiento y almacenamiento en caché de la verdad fundamental, haciendo que este concepto esté directamente disponible cuando los alumnos intenten hacer generalizaciones. y conjeturas explícitas.

Nuestro modelo de aprendizaje bootstrap predice que una búsqueda exitosa de un concepto objetivo complejo depende en gran medida de tener buenas abstracciones aprendidas previamente. Probamos las predicciones de estos modelos utilizando una tarea de generalización y aprendizaje causal de dos fases. En la Fase I, los alumnos observan tres pares de objetos y sus interacciones causales (en orden fijo, como se ilustra en la Fig. 2a), escriben su función causal supuesta y hacen predicciones de generalización sobre ocho pares de objetos nuevos que aparecen en orden aleatorio. Inmediatamente después, en la Fase II, los alumnos observan otros tres pares de objetos y sus interacciones causales (con los tres pares anteriores aún visibles arriba), proporcionan una suposición actualizada para dar cuenta de los seis pares y luego hacen predicciones de generalización nuevamente sobre los mismos ocho pares. como antes, en un nuevo orden aleatorio (Métodos).

a, Plan de estudios en el Experimento 1. El Experimento 2 es una característica que contrarresta esto (Información complementaria). Los cuadros de texto debajo de cada fase son conceptos causales compatibles con datos; Los cuadros de texto transparentes son conceptos favorecidos por el modelo, y los cuadros sombreados para conceptos alternativos igualmente complejos y consistentes con los datos. b, Precisión de generalización de los participantes (coincidencia con la verdad fundamental) en los Experimentos 1 y 2. Los diagramas de caja muestran medianas con líneas principales, el primer y tercer cuantil como límites del cuadro, los valores más pequeños dentro de 1,5 veces por debajo del primer cuantil como mínimos, los valores más grandes dentro de 1,5 veces por encima del tercer cuantil como máximo, y bigotes que se extienden entre los límites de la caja y esos valores; La marca de puntos rojos significa. c, Autoinformes codificados en los Experimentos 1 y 2 (ver Métodos para el esquema de codificación). Para cada plan de estudios, barras izquierdas para la Fase I y barras derechas para la Fase II. d, Diseño de planes de estudio en el Experimento 3. El Experimento 4 es una característica que contrarresta esto y está disponible en Información complementaria. e, Coincidencia de los participantes con la verdad fundamental en los Experimentos 3 y 4. f, Autoinformes codificados en los Experimentos 3 y 4.

El experimento 1 (n = 165) examinó tres planes de estudio. La construcción y deconstrucción del plan de estudios fueron como se describe en la Fig. 1c y se analizó anteriormente. Además, incluimos un plan de estudios combinado que comparte la misma Fase I que en la construcción, pero en la Fase II mantiene la franja (A) = 1 en todo momento (Fig. 2a), lo que hace ambiguo acerca de cómo la franja (A) × R y R - mancha ( A) deben combinarse. Si las personas procesan la Fase II con el subconcepto almacenado en caché de la Fase I, esperaríamos ver R' ← raya(A) × R – mancha(A) con más frecuencia que R' ← raya(A) × (R –spot(A) ). En el Experimento 2 de seguimiento (n = 165), invertimos los roles de las franjas y las manchas del objeto agente (Métodos e información complementaria). Si bien todos los resultados clave se replican sólidamente en el Experimento 2, aquí informamos los resultados colapsados por plan de estudios en el análisis para simplificar. En primer lugar, observamos una diferencia significativa en la precisión de la generalización de la Fase II, definida como "coincidencia con la verdad fundamental", entre los planes de estudio constructivos y desconstruidos. (Estrictamente hablando, no hay respuestas incorrectas para las tareas de generalización porque todas son pares novedosos fuera de distribución, de modo que cualquier predicción de generalización es justificable bajo algún concepto inferido). Como se ilustra en la Fig. 2b, los participantes bajo el constructo currículo lograron una precisión de 44,7 ± 38,3%, significativamente mayor que aquellos con el plan de estudios deconstruido de sólo 22,6 ± 27,5% (t(1,717) = 8,13, P < 0,001, d de Cohen = 0,4, intervalo de confianza (IC) del 95% [0,14, 0,24 ], probabilidad de precisión 1/17 = 5,88%). Las grandes desviaciones estándar aquí implican una diferencia individual generalizada en las generalizaciones causales, lo que demuestra la apertura y la creatividad en la forma en que las personas conceptualizan las relaciones causales. Esta diferencia individual cristaliza al observar los autoinformes de los participantes (Fig. 2c). Para las conjeturas autoinformadas de la Fase II, el 37,8% de los participantes en el plan de estudios constructivo se clasificaron como que describían la verdad fundamental (Fig. 2c), mientras que en la condición de deconstrucción solo el 6% lo hizo (prueba de Wilcoxon z = −5,75, P <0,001, 95 % IC [0, 0,0003], tamaño del efecto = 0,5). Una mirada más cercana a esos autoinformes reveló que, para aquellos que indujeron que una característica se multiplicara en la Fase I, el 79% posteriormente aterrizó en la verdad en el terreno en la Fase II, lo que muestra una clara trayectoria de aprendizaje inicial. Recuerde que al final de la Fase II, tanto en los currículos de construcción como en los de deconstrucción, los participantes habían visto información de aprendizaje idéntica (Fig. 2a) y, por lo tanto, esta diferencia sustancial en el rendimiento del aprendizaje final es coherente con nuestra afirmación principal de que las personas reutilizan subconceptos para componer otros más complejos. . La simple observación de evidencia que favorezca un concepto objetivo no es suficiente para inducir este concepto.

Las bajas coincidencias con la verdad fundamental en los autoinformes en el plan de estudios deconstruido también reflejan un fuerte efecto de sendero en el jardín41. Codificamos los autoinformes de los participantes según si el contenido coincide con la verdad fundamental, describe una operación como multiplicación, resta o suma y es incierto o involucra patrones de razonamiento complejos basados en condicionales, posiciones de características o cantidades relativas (Métodos). En particular, al 89% de los participantes bajo la condición de deconstrucción se les ocurrieron conjeturas clasificadas como 'complejas' en la Fase I. Por ejemplo, un participante escribió: “Si hay más rayas que puntos, la longitud del palo se reduce. Si hay rayas y puntos iguales, entonces el palo permanece igual. Si hay más puntos que rayas, el palo aumenta de longitud”. Esta es una proporción significativamente mayor que la regla compleja informada en el constructo Fase I (31,7%, prueba de Wilcoxon z = −8,76, P <0,001, IC del 95% [−1, −1], tamaño del efecto = 0,8). La longitud promedio de las conjeturas de la Fase I para el plan de estudios deconstruido fue de 168 ± 145 caracteres, también significativamente más larga que las respuestas en los 112 ± 68,1 caracteres del plan de estudios de constructo (t(168,09) = −3,76, P <0,001, d de Cohen = 0,5, 95% IC [-85,65, -26,72]). Estas conjeturas iniciales más largas y complejas parecieron influir en la segunda fase del experimento. En la Fase II de deconstrucción, después de ver los ejemplos más simples, el 50% de los informantes de conceptos complejos se apegaron a sus conjeturas complejas iniciales o las embellecieron aún más, lo que resultó en un 48,7% de conceptos causales autoinformados complicados en la Fase II. Además, sólo el 24,8% de los participantes en la Fase II del currículo deconstructo describieron que una característica se multiplica, cifra significativamente menor que el 40,2% de los participantes del currículo de constructo después de la Fase I (prueba de Wilcoxon z = −2,46, P = 0,01, IC del 95% [0 , 0,0001], tamaño del efecto = 0,3). Estos resultados muestran que las personas frecuentemente caen presa de trampas de aprendizaje en las que ejemplos complejos iniciales les impiden llegar a la verdad fundamental13,42. Nuevamente, este patrón es consistente con la hipótesis de que los participantes reutilizan sus propias ideas de la Fase I para iniciar el aprendizaje en la Fase II.

Finalmente, los participantes bajo la condición combinada favorecieron abrumadoramente la verdad sobre el terreno sobre la alternativa, a pesar de que éstas eran igualmente complejas y compatibles con los datos. En los autoinformes de la Fase II, el 24,5% de los participantes bajo la condición combinada informaron la verdad fundamental, y solo uno informó el concepto alternativo (0,94%; Fig. 2c). Entre estos reporteros de la verdad sobre el terreno de la Fase II, el 92,31% concluyó que una característica se multiplica en la Fase I, alineándose con nuestras predicciones de que las personas reutilizan el concepto aprendido de la Fase I como un primitivo en la Fase II. Curiosamente, la precisión de la generalización de la Fase II del plan de estudios combinado (41,7 ± 38,5%) no difirió significativamente de la del plan de estudios constructivo (44,7 ± 38,3%, t(1.702) = 1,25, P = 0,2). Además, categorizamos a un participante como respondiendo de acuerdo con la verdad fundamental o el concepto alternativo si más de seis de las ocho predicciones de generalización coincidían con el concepto correspondiente. Aquí, 31 participantes respondieron según la verdad fundamental (29%) y sólo uno según el concepto alternativo (0,01%, χ2(1) = 28,1, P < 0,001, V de Cramer = 0,94), lo que sugiere que la tendencia del caché y La reutilización conduce a favorecer sistemáticamente ciertos conceptos sobre alternativas del mismo nivel de precisión y complejidad.

Los resultados del plan de estudios combinado parecen respaldar la idea de que las personas reutilizan construcciones previas como primitivos conceptuales. Sin embargo, también podría ser compatible con la idea de que la gente simplemente "pegó" los dos subconceptos de forma aditiva, es decir, (franja(A) × R) + (− punto(A)) es lógicamente equivalente a la verdad básica. Además, esta función de 'multiplicar primero' encaja más naturalmente con el orden convencional de las operaciones matemáticas en las que la multiplicación se realiza antes que la suma en ausencia de paréntesis. Para aclarar estas preocupaciones, diseñamos un nuevo plan de estudios, denominado flip, que intercambia la Fase I y la Fase II de la combinación (Fig. 2d). En este plan de estudios invertido, si las personas reutilizan el concepto que infirieron en la Fase I como una primitiva conceptual en la Fase II, deberían concluir R' ← raya(A) × (R – punto(A), la alternativa consistente con los datos no favorecida por la condición de combinación. Si las personas, en cambio, usan la suma como su modo de composición predeterminado o dominante, entonces en la Fase II del cambio esperaríamos que siguieran favoreciendo la verdad fundamental original. El Experimento 3 (n = 120) probó este plan de estudios invertido, junto con el combine el plan de estudios como en el Experimento 1, utilizando material exactamente como se muestra en la Fig. 2d. El Experimento 4 (n = 120) invirtió los poderes causales entre las características de franjas y manchas, pero por lo demás replicó el Experimento 3 (Métodos e información complementaria).

Descubrimos que las personas de hecho favorecían la verdad fundamental con menos frecuencia en el plan de estudios invertido (Fig. 2e, f). La precisión de la generalización, definida aquí como coincidencia con la verdad fundamental original, para los participantes en la Fase II fue 35,2 ± 34,3%, mientras que los participantes en la combinación lograron 44 ± 41,8% (t(1.881,9) = 3,93, P < 0,001, d de Cohen = 0,2 , IC del 95 % [0,04; 0,13]). Además, sólo el 8,7% de los participantes en el plan de estudios invertido informaron la verdad sobre el terreno en la Fase II, en comparación con el 25,4% en la condición combinada (prueba de Wilcoxon z = −3,46, P <0,001, IC del 95% [0, 0,0001], tamaño del efecto). = 0,3). Estos resultados están en línea con nuestro hallazgo anterior de que construir, almacenar en caché y luego reutilizar el subconcepto clave es crucial para adquirir el concepto objetivo complejo.

Sin embargo, un examen más detenido sugiere que la caída en la síntesis de datos reales, a su vez, no se debió principalmente a que se recurriera a lo contrario. La precisión de la generalización de los participantes en términos de coincidencia con el concepto alternativo fue del 28,8 ± 17,3%, inferior al nivel de acuerdo con las predicciones de la verdad fundamental original. Como se ilustra en la Fig. 2f, cinco participantes en la Fase II informaron el concepto alternativo (2,08%) en comparación con el 16,7% que adivinó la verdad fundamental (χ2 (1) = 27,2, P <0,001, V de Cramer = 0,8). Esto sugiere que la forma compositiva aditiva sigue siendo un sesgo inductivo bastante prevalente e interactúa con el aprendizaje secuencial de arranque en tareas de razonamiento por fases. Dicho de otra manera, las personas pueden elegir qué fase dividir según su sesgo inductivo sobre la forma compositiva, y esto podría anular el orden en el que realmente se presentó la evidencia en los experimentos.

En nuestra interfaz experimental, al final de la Fase II, los seis pares de ejemplos de aprendizaje estaban disponibles en la pantalla y los participantes podían desplazarse libremente hacia arriba y hacia abajo para volver a visitar los pares anteriores. Esta revisión podría inducir órdenes de almacenamiento en caché y reutilización diferentes de las diseñadas por los experimentadores. De hecho, dado que alentamos a los participantes a sintetizar relaciones causales que puedan explicar los seis pares, esto puede, en consecuencia, alentar revisiones deliberadas. Al revisar la evidencia, en el currículo invertido, un fuerte sesgo inductivo en la forma de composición aditiva podría llevar a preferir la verdad fundamental a la alternativa. En los planes de estudio de deconstrucción en los Experimentos 1 y 2, algunos participantes pueden haber revisado la Fase I después de observar la Fase II y, por lo tanto, descubrieron la verdad fundamental en consecuencia, lo que se refleja en el ligero aumento en la precisión de la generalización de la Fase II en comparación con la Fase I en deconstrucción (Fig. 2b). .

Ahora examinamos predicciones y simulaciones de una variedad de modelos computacionales, comparando su capacidad para reproducir los patrones de generalización de los participantes. Primero, consideramos un modelo de aprendizaje bootstrap basado en gramáticas adaptadoras AG como se describe en Formalización. Model AG primero procesa los ejemplos de aprendizaje de la Fase I, adquiere una biblioteca actualizada y luego procesa las Fases I y II junto con la biblioteca actualizada. A continuación, para tener en cuenta el hecho de que los participantes pudieron desplazarse hacia arriba y hacia abajo y volver a acceder a la Fase I después de razonar sobre la Fase II, consideramos una variante de AG, gramática adaptadora con reprocesamiento (AGR). Este modelo mezcla predicciones \({\hat{y}}_{\to }\) de la Fase I a II, y predicciones \({\hat{y}}_{\leftarrow }\) de la Fase II a I, con un parámetro de peso θ ∈ [0, 1], adquiriendo una predicción mixta \({\hat{y}}_{r}\propto \theta \times {\hat{y}}_{\to }+(1 -\theta )\times {\hat{y}}_{\leftarrow }\). Los valores de los hiperparámetros en los modelos AG y AGR fueron los mismos que en Liang et al.35. De las bibliotecas posteriores estimadas, podemos recopilar una gran cantidad de conceptos generados. Dado que aquí los conceptos son funciones que especifican R' para cualquier par de objetos agente-receptor, la evaluación de estos conceptos en nuevos pares de objetos y la marginación de estas predicciones dan una distribución de R' para nuevos pares de objetos (Métodos).

A modo de comparación, examinamos un modelo de "reglas racionales" (RR) basado en Goodman et al.37. Este modelo asume las mismas primitivas conceptuales que los modelos de gramática adaptadora, pero utiliza una gramática probabilística libre de contexto para conceptos anteriores, como lo especifica la gramática G en Formalización (ver también Métodos). Debido a que evaluamos modelos usando generalizaciones, también implementamos varios modelos subsimbólicos capaces de generalización pero no de conjeturas de reglas explícitas. Aquí incluimos un modelo de categorización basado en similitud (Similarity)43, un modelo de regresión lineal (LinReg) y un modelo de regresión multinomial (Multinom). Además, consideramos un modelo de regresión de proceso gaussiano (GpReg) con núcleos de funciones de base radial (uno por característica), porque estos modelos exhiben un rendimiento similar al humano en el aprendizaje de funciones y generalizaciones de pocas tomas44,45. Para los modelos de categorización y regresión, se ajustaron parámetros a los ejemplos de aprendizaje que predicen R' usando stripe(A), spot(A) y R. Luego hicimos predicciones sobre los nuevos objetos con esos modelos ajustados y evaluamos las predicciones del modelo en términos de su probabilidad logarítmica (LL) de producir predicciones de los participantes (Métodos).

La Figura 3a muestra la mejora de cada modelo con respecto a un modelo de referencia de selección aleatoria, Δmodel = LLmodel − LLrandom. El modelo AGR logra la mayor mejora, con los tres modelos simbólicos bayesianos (AGR, AG y RR) superando fácilmente a los modelos basados en similitud o de regresión. Con los parámetros del modelo ajustados, la Fig. 3b traza la precisión de la generalización en cada fase para cada plan de estudios entre el modelo y las personas. De acuerdo con los ajustes generales del modelo, AGR predice mejor el desempeño de las personas en todos los casos y los modelos no simbólicos no coinciden con las predicciones de las personas.

a, Mejora del ajuste del modelo (probabilidad logarítmica total) con respecto a la línea de base aleatoria (y = 0), escala logarítmica. b, Precisión de generalización según plan de estudios y fase. eje x, predicciones del modelo; eje y, predicciones de la gente; las bandas de error indican IC del 95%. c, Precisión de generalización entre las predicciones de los participantes (barras negras, valores medios ± SEM) y cuatro modelos simbólicos; n(construir) = 107, n(deconstruir) = 117, n(combinar) = 220, n(flip) = 126.

En particular, si bien el modelo RR puede aprender que algunas primitivas son más comunes o útiles que otras, no puede descubrir ni reutilizar conceptos, como se ilustra en la figura 3a. Además, trazamos las precisiones de generalización para los modelos AGR, AG y RR frente a los datos de comportamiento en la Fig. 3c, lo que muestra que el modelo RR no logra reproducir los efectos del orden del currículo entre los currículos construidos y deconstruidos. Esto se debe a que es probable que el modelo RR haya llegado a la verdad sobre el terreno después de ver todos los datos, incluso para el currículo deconstruido, y por lo tanto se desvía de la forma en que las personas procesan las fases de la información. El modelo AG, por otro lado, es derrotado por la trampa del aprendizaje porque muchas personas no mostraron ninguna mejora en la precisión en la Fase II en relación con la Fase I. El modelo AGR mezcla el modelo AG con algo de reprocesamiento y, por lo tanto, es capaz de capturar la modesta mejora de los participantes en la deconstrucción. Generalizaciones de la fase II. Además, el modelo RR logra una precisión menor que la de la Fase II combinada porque asigna tanta probabilidad posterior a la verdad fundamental prevista como a las alternativas consistentes equivalentes.

La Figura 4 muestra las predicciones del modelo AGR que mejor se ajusta en cada tarea de generalización, y los datos de los participantes muestran una coincidencia cercana. Observamos una discrepancia interesante en la tarea de generalización 1, que preguntaba sobre un agente sin manchas ni rayas: mientras que muchos participantes predijeron la desaparición de segmentos, porque R' ← raya(A) × R y 0 × 3 = 0, muchos participantes también predijo que el número resultante de segmentos seguiría siendo el mismo. Esto podría deberse a que los participantes concluyeron que la ausencia de características significaba que no sucedería nada. El trabajo futuro podría investigar cómo razona la gente sobre este tipo de casos extremos.

Se muestran filas de paneles para las fases experimentales y columnas para las condiciones. En cada panel, el eje x indica el número previsto de segmentos (0 a 16) y las tareas del eje y ordenadas para el análisis.

En general, los modelos de gramática adaptadora AG y AGR proporcionaron una explicación mucho mejor de los patrones de comportamiento de las personas en los experimentos que los otros modelos que consideramos. De manera más general, esto significa que tanto los efectos del orden curricular como del sendero del jardín exhibidos por las personas pueden explicarse como consecuencias de un mecanismo de almacenamiento en caché y reutilización que expande el alcance de un sistema de aprendizaje limitado. Fundamentalmente, estos fenómenos no pueden explicarse ni mediante un modelo simbólico bayesiano estándar listo para usar ni mediante modelos familiares de categorización subsimbólica, lo que demuestra que un mecanismo de caché y reutilización es fundamental para la inferencia inductiva similar a la humana sobre conceptos compositivos.

Proponemos una formalización del aprendizaje bootstrap que potencia los marcos de aprendizaje de conceptos simbólicos bayesianos con un mecanismo eficaz de caché y reutilización. Este modelo reemplaza un conjunto fijo de primitivas conceptuales con una biblioteca de conceptos dinámica habilitada por gramáticas adaptadoras, lo que facilita el descubrimiento incremental de conceptos complejos bajo planes de estudio útiles a pesar de los recursos computacionales finitos. Mostramos cómo los conceptos compositivos evolucionan a medida que los estudiantes cognitivamente limitados parten de conclusiones anteriores sobre lotes de datos, y cómo este proceso da lugar a interpretaciones sistemáticamente diferentes de la misma evidencia dependiendo del orden en que se procesa. Al ser un modelo simbólico bayesiano, nuestro enfoque tiene en cuenta tanto los conceptos causales que las personas sintetizaron como las predicciones de generalización que hicieron.

Las personas a menudo exhiben una dependencia general de la trayectoria en su progresión de ideas46. Mostramos que esto se produce de forma natural cuando un alumno autónomo progresa en un espacio de conceptos compositivos, construyendo ideas complejas "pieza por pieza" con recursos cognitivos limitados. Fundamentalmente, nos centramos en cómo la reutilización de conceptos anteriores impulsa el descubrimiento de conceptos compositivos más complejos utilizando la inferencia basada en muestreo. Esto se basa en otras aproximaciones basadas en muestreo a modelos racionales7 que demuestran cómo la memoria y las limitaciones computacionales crean hipótesis focales en las primeras etapas del aprendizaje y perjudican la capacidad del alumno para acomodar los datos que encuentra más adelante13,38. Yendo más allá de este trabajo anterior, mostramos cómo las personas superan sus limitaciones inferenciales inmediatas mediante la reutilización y composición de descubrimientos anteriores a través de una biblioteca de conceptos en evolución. Nuestra propuesta también se relaciona con la observación47 de que la inferencia amortizada puede explicar cómo la resolución de una subconsulta mejora el rendimiento en la resolución de consultas anidadas complejas. Si bien nuestro modelo instancia la reutilización en un espacio compositivo almacenando en caché bloques de construcción conceptuales en una biblioteca de conceptos latentes, existe la posibilidad de explorar la conexión entre nuestra formalización con la inferencia amortizada en términos de cómo la reutilización del cálculo parcial podría dar forma a la aproximación del posterior completo.

También ofrecemos explicaciones adicionales a nivel de proceso sobre por qué y cómo las personas a menudo desarrollan comprensiones diversas de la misma evidencia. Se sabe que las personas desarrollan interpretaciones sesgadas de las características48 y caen fácilmente en diversas trampas de aprendizaje en la generalización basada en categorías relacionadas con la atención selectiva o suposiciones sobre estocasticidad y similitud42. Jern et al.49 argumentaron que diferentes evaluaciones de la misma evidencia se deben a diferentes creencias previas sostenidas por las personas. Tian et al.33 corroboraron la premisa de que, equipadas con diferentes bibliotecas de conceptos, las personas pueden derivar diferentes soluciones al mismo conjunto de problemas. Nuestra formalización, sin embargo, demuestra que pueden surgir conceptualizaciones marcadamente diferentes de la misma evidencia entre estudiantes con los mismos mecanismos de aprendizaje e incluso los mismos antecedentes, desviándose sistemáticamente de un enfoque normativo del aprendizaje bibliotecario. Tenga en cuenta que nuestros experimentos probaron el aprendizaje causal y la generalización en entornos abstractos en lugar de opiniones subjetivas como las actitudes políticas y, por lo tanto, sirven como un recordatorio amistoso de que no se garantiza que prevalezca una interpretación objetiva, incluso entre conocedores capaces que examinan los mismos datos.

Esta interacción entre nuestros conceptos en evolución y nuestra trayectoria a través del entorno que buscan reflejar se presta a varias direcciones futuras interesantes. Culbertson y Schuler50 revisaron el desempeño de los niños en el aprendizaje artificial del lenguaje y enfatizaron que el aprendizaje está estrechamente limitado por limitaciones cognitivas. Además, descubrimos que los sesgos inductivos, como los relacionados con las formas de composición que identificamos en los Experimentos 3 y 4, dan forma al orden en que las personas procesan la información. Es decir, en lugar de receptores pasivos de información, parece mucho más plausible que las personas tengan sesgos inductivos de atención y acción que moldean cómo seleccionan qué subconjunto de una situación compleja procesar primero, y luego construir sobre eso para darle sentido al panorama completo. . El trabajo futuro puede ampliar nuestro marco a escenarios de aprendizaje activo para estudiar tales comportamientos de búsqueda de información y patrones de diseño curricular autodirigido en el dominio del aprendizaje de conceptos51. Además, el almacenamiento en caché y la reutilización son una forma útil de refactorizar representaciones. Liang et al.35 introdujeron un método de refactorización de subárboles para el descubrimiento de subestructuras compartidas, proporcionando extensiones futuras naturales para estudiar la refactorización como un algoritmo de inferencia cognitiva involucrado en el desarrollo de conceptos52.

Investigaciones recientes en neurociencia están comenzando a desentrañar cómo el cerebro puede realizar cálculos bayesianos no paramétricos e inferencias causales latentes53, y han descubierto similitudes representacionales entre las redes neuronales artificiales y la actividad cerebral54,55. En este sentido, la evidencia neuronal de la reutilización de vías computacionales entre tareas56 parecería respaldar nuestra tesis y enriquecer aún más nuestra comprensión de cómo el cerebro desarrolla sus sistemas conceptuales y modelos mundiales. Un desafío para el marco simbólico adoptado aquí proviene del hecho de que nuestras representaciones conceptuales están íntimamente ligadas con sus características y consecuencias sensoriomotoras encarnadas57. Esperamos modelos más integrados que capturen cómo las operaciones simbólicas de composición y almacenamiento en caché interactúan con representaciones tan profundamente incorporadas.

Nuestro trabajo actual tiene varias limitaciones que el trabajo futuro podría abordar. Por ejemplo, asumimos una función de verosimilitud determinista, pero ésta no maneja eficientemente conceptos vagos como que el palo disminuye o aumenta. Una gramática y una probabilidad capaces de capturar conceptos que limitan las generalizaciones en lugar de predecirlas de manera única podrían capturar una gama más amplia de conjeturas y predicciones de las personas. Debido a que, por simplicidad, no incluimos primitivas conceptuales para los condicionales, nuestro modelo no pudo expresar todos los autoinformes de "divide y vencerás" que las personas hacían cuando intentaban dar sentido a información abrumadoramente compleja. Esta sería una extensión sencilla, que se puede lograr comenzando con primitivas más básicas o asumiendo un concepto base if-else. Piantadosi58 argumentó que las primitivas básicas en la lógica combinatoria son suficientes para fundamentar cualquier representación y cálculo mental computable por una máquina de Turing. Usamos términos básicos similares al lenguaje natural simplemente por conveniencia computacional y expresiva, y todas las primitivas básicas y conceptos aprendidos que asumimos se pueden descomponer en bases lógicas únicamente combinatorias. Además, existen muchas opciones además de la lógica combinatoria para formalizar nuestras tareas. Si consideramos los objetos variables A y R como primitivos codificados, por ejemplo, una formalización lógica de primer orden podría haber sido suficiente. Sin embargo, preferimos la lógica combinatoria por su conveniencia y flexibilidad en el enrutamiento de variables, porque esto hace que sea más fácil compartir y reutilizar cualquier programa generado. Una limitación adicional de nuestro modelo actual es que no maneja el olvido de forma predeterminada, una característica crítica de la memoria y el aprendizaje humanos59,60,61. Para extender nuestra formalización al modelo de aprendizaje permanente, sería importante incorporar un mecanismo a través del cual los conceptos se olviden, ya sea por decadencia o por sobrescritura o superación62.

En resumen, defendemos el papel central del aprendizaje bootstrap en la inferencia inductiva humana y proponemos una explicación computacional del bootstrapping conceptual a nivel de proceso. Nuestro trabajo presenta el caché y la reutilización como un algoritmo de inferencia cognitiva clave y aclara la importancia del análisis activo de la información para los razonadores limitados que se enfrentan a un entorno complejo. Nuestros hallazgos enfatizan la importancia del diseño curricular en la enseñanza y de facilitar la comunicación de teorías científicas. Esperamos que este trabajo inspire no solo las ciencias sociales y cognitivas, sino también el desarrollo de algoritmos de aprendizaje artificial más eficientes en datos y similares a los humanos.

Todos los experimentos se realizaron con la aprobación ética del Comité de Ética en Investigación en Psicología de la Universidad de Edimburgo (ref. no. 3231819/1). La preinscripción para cada experimento está disponible en https://osf.io/9awhj/. Todos los participantes dieron su consentimiento informado antes de realizar los experimentos.

Se reclutó a un total de 165 participantes (118 mujeres, edad media (Medad) = 31,8 ± 9,9) de Prolific Academic, según un análisis de poder para tres condiciones entre sujetos que buscaban al menos un poder de 0,95 para detectar un tamaño mediano (≈ 0,35 ) efecto fijo. Los participantes recibieron un pago base de £1,25 y bonificaciones basadas en el desempeño (el pago más alto, £1,93). La tarea tuvo una duración de 9,69 ± 4,47 min. Ningún participante fue excluido del análisis.

El objeto agente A se visualizó como un círculo que se movió desde la izquierda de la pantalla y chocó con el destinatario R (Fig. 1a). Un variado en cuanto a su número de franjas y manchas colocadas aleatoriamente; R tomó la forma de un palo formado por varios segmentos en forma de cubo. Durante el aprendizaje, todos los valores de las características estaban entre 0 y 3. La regla que utilizamos para determinar el número final de segmentos del destinatario fue R' ← raya(A) × R – mancha(A). Los materiales de aprendizaje fueron como se muestra en la Fig. 2a. Para tareas de generalización se podría seleccionar un número de segmento arbitrario (0-16), lo que sitúa un nivel mínimo de rendimiento nominal con los ojos cerrados en 1/17 = 5,88%. Los ensayos de generalización se seleccionaron mediante una búsqueda codiciosa que minimiza la entropía para seleccionar un conjunto que distinga bien entre un conjunto de hipótesis favorecidas por el modelo AG (Información complementaria). Hay demostraciones en vivo disponibles en https://bramleylab.ppls.ed.ac.uk/experiments/bootstrapping/p/welcome.html y preinscripción en https://osf.io/ud7jc.

Cada participante fue asignado aleatoriamente a una de las tres condiciones de aprendizaje: construir, deconstruir o combinar. Después de leer las instrucciones y aprobar una prueba de comprensión, los participantes pasaron por la Fase I del experimento seguida de la Fase II. En cada fase, un participante probó tres ejemplos de aprendizaje en la fase correspondiente como se muestra en la Fig. 2a, cada uno de los cuales aparece secuencialmente y ordenado en la Fig. 2a. Los participantes observaron las interacciones causales animadas haciendo clic en un botón de "prueba". Una vez probado, se agregó a la pantalla un resumen visual del ejemplo de aprendizaje, incluido el estado inicial y final del destinatario, que permaneció visible hasta el final del experimento. Después de la etapa de aprendizaje, se pidió a los participantes que escribieran sus conjeturas sobre las relaciones causales subyacentes y que hicieran predicciones de generalización para ocho pares de objetos novedosos. Los ensayos de generalización aparecieron secuencialmente. Una vez hecha una predicción, esa prueba era reemplazada por la siguiente. Los pares de objetos de generalización en las Fases I y II fueron los mismos, pero sus órdenes de presentación fueron aleatorios para cada participante y en cada fase.

El Experimento 2 es una replicación con características contrapesadas del Experimento 1 utilizando la regla verdadera R' ← punto(A) × R – raya(A). Otros 165 participantes (118 mujeres, mago = 33,8 ± 10,1) que no participaron en el Experimento 1 fueron reclutados de Prolific Academic. La tarea tuvo una duración de 9,8 ± 5,2 min. Ningún participante fue excluido del análisis. La escala de pago (pago más alto £ 1,95) y el procedimiento fueron idénticos a los del Experimento 1. Los estímulos y el registro previo están disponibles en https://osf.io/k5dc3 y en Información complementaria. Realizamos un análisis de varianza bidireccional para analizar el efecto del contrapeso de características y el diseño curricular en la precisión de la generalización de la Fase II. Si bien ambos factores tuvieron efectos principales significativos (diseño curricular, F(2, 2) = 9,2, P < 0,001; contrapeso de características, F(1, 2) = 8,5, P < 0,001), no hubo interacción significativa (F(2 , 324) = 0,15, P = 0,9). Esto indica que las personas pueden estar tratando las características de rayas y manchas de manera diferente, pero esta diferencia no interfiere notablemente con nuestros resultados para el diseño curricular.

El Experimento 3 reclutó a otros 120 participantes (72 mujeres, Mago = 35,4 ± 10,9) para probar los planes de estudio combinados y volteados en la Fig. 2d. Inicialmente reclutamos 165 ÷ 3 × 2 = 110 participantes para igualar el tamaño del grupo en los Experimentos 1 y 2, pero nos enfrentamos a un desequilibrio entre los dos planes de estudio (combinar, 47; invertir, 63) debido al generador de números aleatorios utilizado por el experimento. para asignar participantes. Para igualar las muestras, reclutamos a diez participantes más en Prolific Academic el mismo día, todos para el plan de estudios combinado, y nos aseguramos de que este lote adicional no incluyera participantes de los Experimentos 1 y 2 y el Experimento 3 actual. Los 120 participantes fueron pagado en la misma escala que en los Experimentos 1 y 2 (pago más alto £ 1,85). La tarea tuvo una duración de 10,7 ± 4,5 min. Por lo demás, el procedimiento fue idéntico a los Experimentos 1 y 2. Ningún participante fue excluido del análisis. La preinscripción para este experimento está disponible en https://osf.io/mfxa6 y los estímulos completos están disponibles en Información complementaria.

El Experimento 4 fue una replicación con contrapeso de características del Experimento 3. Reclutamos a otros 120 participantes (76 mujeres, Mago = 34,0 ± 12,6) de Prolific Academic y que no habían participado en los Experimentos 1 a 3. Aquí, los roles de las características de franjas y manchas se invirtieron como en la Fig. 2d. A los participantes se les pagó en la misma escala que en los Experimentos 1 a 3 (el pago más alto fue £1,83). La tarea tuvo una duración de 9,2 ± 4,4 min. El procedimiento fue idéntico al de los Experimentos 1 a 3. Ningún participante fue excluido del análisis. La preinscripción está disponible en https://osf.io/swde5. Como se indicó anteriormente, el análisis bidireccional de la varianza en el contrapeso de características y el diseño curricular que predice la precisión de la generalización de la Fase II reveló efectos principales en ambos factores (contrapeso de características, F(1, 1) = 15,12, P < 0,001; diseño curricular, F(1, 1) = 11,1, P = 0,001), pero sin interacción (F(1, 236) = 0,77, P = 0,4). Si bien la gente trata las características de rayas y manchas de manera diferente, nuestros resultados para el diseño curricular son válidos para ambos experimentos.

Dos codificadores clasificaron los autoinformes de los participantes de forma independiente. El primer codificador categorizó todas las respuestas gratuitas y luego se comparó el 15% de los autoinformes categorizados con los del segundo codificador. El nivel de acuerdo fue del 97,6%.

Identificamos ocho códigos. (1) Verdad fundamental: equivalente a la relación causal de la verdad fundamental en cada experimento; por ejemplo, “se multiplica la longitud por el número de líneas y luego se resta el número de puntos” (Participante 43, Experimento 1). (2) Alternativa: equivalente a la relación causal alternativa en cada experimento; por ejemplo, “a los segmentos se les resta los puntos por su número y se multiplica el número de líneas por el número de segmentos” (Participante 461, Experimento 3). (3) Comp: poco claro o implícito sobre cómo se deben combinar dos conceptos subcausales; por ejemplo, “las líneas multiplican los segmentos y los puntos los restan” (Participante 451, Experimento 3). (4) Agregar 2: agregue dos segmentos al objeto receptor bajo el supuesto de que no sucede nada si el valor de característica del objeto agente es 1 (franja en los Experimentos 1 y 3, y puntos en los Experimentos 2 y 4); por ejemplo, “agrega dos gajos al palito sólo si hay dos o más rayas en el huevo” (Participante 35, Experimento 1). (5) Mult: una característica del objeto agente multiplica el objeto destinatario; por ejemplo, “el número de franjas multiplica el número de segmentos” (Participante 59, Experimento 1). (6) Resta: una característica del objeto agente es un sustractor del objeto receptor; por ejemplo, “de cada mancha del huevo se quita un palito” (Participante 100, Experimento 1). (7) Complejo: describir los estímulos sin generalizar una regla, o reportar una regla diferente para cada observación; por ejemplo, “tres puntos significa que los palos desaparecen, dos puntos significa dos palos y un punto significa agregar otro palo” (Participante 161, Experimento 1); “si hay más líneas que puntos aumentará de tamaño pero si hay más puntos que líneas disminuirá de tamaño; un número igual de puntos y líneas no producirá ningún cambio” (Participante 134, Experimento 1). (8) Incierto: no saber, inseguro o confundido acerca de los estímulos de aprendizaje; por ejemplo, "¡No tengo ni idea!" (Participante 57, Experimento 1).

Para visualizar y analizar datos utilizamos R v.4.1.1 (para análisis estadístico paramétrico) y los siguientes paquetes: rstatix v.0.7.2 (para análisis estadístico no paramétrico y configuración predeterminada), tidyverse v.1.3.1, ggplot2 v.3.3.5, ggpubr v.0.4.0 y ggridges v.0.5.3. Los diagramas de flujo de Sankey que se muestran en la Fig. 2 se generaron utilizando Python v.3.9.1 y el paquete pySankey v.0.0.1, instalado desde https://github.com/anazalea/pySankey.

AG(t,X)

Requerir: Escriba τ = t0 → … → tk

Requerir: variables X = {x0,…, xn}

Muestra λ ~ U(0, 1)

si λ ≤ λ1 entonces ⊳Construir nueva hipótesis

zL ~ {z|t(z)salida = tk} ⊳Muestrear un término, por ejemplo, mult

r~r|X| ⊳Muestrear un enrutador, por ejemplo, SC

yo ← |t(zL)| ⊳ Hacer crecer las sucursales de RHS

mientras i > 0, hazlo

X' = r(X) ⊳Obtener variables enrutadas

\({\tau}^{{\prime} }=t({X}^{{\prime} })\to t{({{\it{z}_{{\mathrm{L}}}} })}_{i-1}\) ⊳Obtener restricciones de tipo

AG (r', X') ⊳Componer recursivamente

yo ← yo − 1

terminar mientras

else ⊳Obtener hipótesis existentes

Retorna *z ∈ Cτ con probabilidad λ2

terminara si

Debido a que la gramática del adaptador AG espera la reutilización modular de fragmentos de programas, formalizamos los programas en lógica combinatoria63. Esto resuelve el problema de vinculación de variables en la generación de programas funcionales64 y está respaldado por un trabajo reciente de Piantadosi58 que sostiene que la lógica combinatoria proporciona un sistema de codificación unificado de bajo nivel para las representaciones mentales humanas. Comenzamos definiendo un conjunto básico de términos y tipos relevantes para la tarea. Esta elección es por conveniencia explicativa y no socava la capacidad de nuestro método para desarrollar nuevos tipos y nuevos términos básicos. En lógica combinatoria, cada término z se trata como una función y está restringido por su tipo de dominio de entrada y tipo de codominio de salida, escrito en la forma tinput → toutput, con asociación correcta por convención. Aquí establecemos de forma predeterminada que el último tipo tn en un tipo t1 → … → tn sea el tipo de salida. Dejando que los objetos agente y destinatario sean variables de tipo obj, consideramos los términos básicos getSpot, getStripe y getSegment, cada uno de tipo obj → int, el término setSegment, de tipo obj → int → obj, y los términos add, sub y mult, cada uno de tipo entero → entero → entero. El término getSpotobj→int toma un objeto como entrada y devuelve el número entero de puntos en este objeto. El término addint→int→int toma dos números enteros como entrada y devuelve su suma como salida; y lo mismo para los demás términos anteriores. Además, consideramos cuatro números enteros primitivos 0, 1, 2 y 3, porque estas son las cantidades que aparecen en los ejemplos de aprendizaje. Convenientemente, usamos t(z) para leer el tipo de término z. Por ejemplo, t(getSpot) devuelve obj → int. Además, la lógica combinatoria utiliza términos de enrutador como B, C, S e I para la vinculación de variables. Para una estructura en forma de árbol [enrutador, zL, zR], el enrutador B envía la variable x primero al lado derecho zR (RHS), y el resultado de esto luego se envía al lado izquierdo zL(LHS). En otras palabras, [B, zL, zR](x) se ejecuta como zL(zR(x)). De manera similar, el enrutador C envía x a la izquierda y luego a la derecha, el enrutador S envía x a ambos lados y el enrutador I es una función de identidad que devuelve una entrada tal como está. Para n variables de entrada concatenamos n enrutadores en el orden correspondiente.

Empleamos una recursividad de cola para componer términos, como en Dechter et al.29, para satisfacer eficientemente las restricciones de tipo. Como se demuestra en el Algoritmo 1, para un tipo de objetivo dado τ = to → …tk, y un conjunto de variables de entrada X = {x0, …, xn}, con probabilidad λ1 (ver ecuación (1)) ingresa al paso de construcción, y con probabilidad λ2 (ver ecuación (1)) devuelve un término con tipo τ y agrega este término devuelto al caché (de ahí el Retorno* en el Algoritmo 1). El paso de construcción comienza muestreando un término del lado izquierdo, LHS, cuyo tipo de salida es el mismo que el tipo de salida de τ, toutput(τ), que es tk porque por defecto el último elemento de un tipo es el retorno. tipo.

Siguiendo la notación de Liang et al.35, sea N el número de elementos distintos en una colección de programas C, y Mz el número de veces que el programa z ocurre en la colección C:

Los hiperparámetros α0 > 0 y 0 < d < 1 en la ecuación (1) controlan el grado de intercambio y reutilización. Debido a que λ1 es proporcional a α0 + Nd, cuanto más pequeños sean α0 y d, menos construcción y más compartir tendremos. De manera similar, debido a que λ2 es proporcional a Mz, cuanto más frecuentemente se almacena en caché un programa, mayor peso adquiere, independientemente de su complejidad interna. Esta definición de λ2 ejemplifica la idea de boostrapping: la complejidad de la generación anterior de un programa almacenado en caché queda anulada por su utilidad con respecto a la composición de conceptos futuros. En esencia, AG reutiliza programas almacenados en caché como si fueran primitivos conceptuales.

Para simplificar, inicialmente asumimos un a priori plano, de modo que los términos que comparten los mismos tipos tienen la misma probabilidad a priori. Según la cantidad de variables que se envían a esta etapa, |X|, luego muestrea un enrutador r de longitud correspondiente del conjunto de todos los enrutadores posibles r|X|. Nuevamente se supone que esto es una distribución uniforme. Por ejemplo, dos variables corresponden a 42 = 16 enrutadores {BB, BC, BS, BI,…}, y la probabilidad de muestrear cada enrutador es 1/16 = 0,0625. Luego, el enrutador r envía variables de entrada a las ramas. Ahora, el tipo de destino para el lado derecho del árbol está completamente especificado porque tiene todos los tipos de entrada (enrutados por r) y un tipo de salida requerido (para alimentar LHS). Por lo tanto, aplicamos el mismo procedimiento de forma iterativa para adquirir el subprograma RHS del lado derecho, devolviendo el programa final [r, LHS, RHS]. El programa construido [r, LHS, RHS] luego se agrega a la biblioteca de programas \(L\) (almacenamiento en caché). Tenga en cuenta que, después del almacenamiento en caché, el contador de un término z en la biblioteca L podría cambiar. Es decir, Mz en la ecuación (1) se actualiza y la preferencia por términos útiles desempeñará un papel en la generación futura de programas.

Dado este modelo probabilístico, enfrentamos el desafío de aproximar eficientemente una distribución posterior sobre programas latentes. Aquí utilizamos métodos conocidos para tomar muestras de los procesos de Pitman-Yor35,40 de modo que, condicionados a una biblioteca de programas en cualquier momento dado, los estudiantes puedan hacer inferencias apropiadas sobre las probabilidades de diferentes explicaciones para eventos nuevos o destacados. Esto se puede hacer a través del muestreo de Gibbs65: para la i-ésima iteración, condicionada a la biblioteca de la iteración anterior Li-1, tome una muestra de una biblioteca Li actualizada y agréguela a la colección de muestras.

Durante cada iteración del muestreo de Gibbs, al buscar programas consistentes con datos de aprendizaje, adoptamos una búsqueda de primer haz en amplitud bajo limitaciones de recursos. Debido a que el espacio de búsqueda crece exponencialmente a medida que aumenta la profundidad, planteamos la hipótesis de que es más probable que las personas busquen de forma superficial que profunda. Por lo tanto, dibujamos la profundidad de generación d ∝ e−bd, donde b es un parámetro que controla la pendiente de esta caída exponencial. Con la profundidad de generación d, primero enumeramos un conjunto de fotogramas, \({{{\mathcal{F}}}}\) donde, en lugar de aplicar el algoritmo 1 de forma recursiva, utilizamos marcadores de posición de programa escritos para LHS. Luego tomamos muestras de un marco de \({{{\mathcal{F}}}}\) según las probabilidades de generación de marcos. Luego se "despliega" el marco muestreado, reemplazando cada marcador de posición con un programa del tipo requerido de la biblioteca actual, lo que produce un conjunto de programas M completamente articulados. Si algún programa M* ⊆ M produce datos de aprendizaje con probabilidad 1, detenemos la búsqueda y probamos n = 3 programas para enriquecer la biblioteca; de lo contrario, tomamos muestra de otro cuadro de \({{{\mathcal{F}}}}\) y repetimos. Si ningún programa es perfectamente consistente con los datos después de verificar cada cuadro de \({{{\mathcal{F}}}}\), regresamos con un marcador de "No se encontró nada" y pasamos a la siguiente iteración. Debido a limitaciones de memoria, pudimos enumerar fotogramas hasta una profundidad d = 2, pero esto puede producir fácilmente conceptos profundamente anidados como resultado del almacenamiento en caché y la reutilización iterados. Realizamos una búsqueda en cuadrícula de números enteros del 0 al 10 para el parámetro b en e-bd además de otros procedimientos de ajuste de modelos. Cuando b = 0, las búsquedas en profundidad d = 1 y 2 son igualmente probables, y a medida que b aumenta, el modelo prefiere la profundidad d = 1. El b = 6 que mejor se ajusta, lo que implica una mayor preferencia por la profundidad d = 1 (ver Información complementaria para análisis adicional sobre la profundidad de la búsqueda).

Gracias al procedimiento integral de búsqueda, verificación y muestra, esperamos que nuestro muestreador de Gibbs se aproxime al verdadero posterior rápidamente y sin la necesidad de realizar un gran calentamiento. Debido a que el muestreo extensivo de Gibbs es computacionalmente costoso y tiene poco valor ejecutar más de un puñado de pasos, asumimos además que los estudiantes realizan muy poca búsqueda dentro de cada fase. Por lo tanto, aproximamos la distribución de bibliotecas a nivel de población ejecutando 1000 simulaciones para cadenas de longitud h. Durante el ajuste del modelo, comparamos simulaciones para longitudes h = 1, 2, 3, 4 y 5, y descubrimos que el modelo que mejor se ajusta se ejecuta en una cadena h = 2 (junto con el peso de profundidad b = 6), lo que sugiere un uso fuertemente limitado de recursos (consulte Información complementaria para obtener análisis adicionales sobre la longitud de la cadena).

Ejecutamos el procedimiento generativo de gramática AG utilizando las bibliotecas muestreadas para aproximar la distribución DistM sobre programas causales latentes, y hacemos predicciones de generalización sobre datos nuevos parcialmente observados D* = 〈A*, R*, ?〉, produciendo una distribución predicha DistP sobre generalizaciones. Debido a que comparamos nuestros modelos con los datos de comportamiento agregados, ejecutamos el proceso de generación 10,000 veces para obtener una predicción posterior de predicciones de generalización que sea razonablemente representativa de la población. Tenga en cuenta que estas implementaciones son necesarias para establecer una comparación justa entre los modelos y los datos agregados de los participantes. Si bien la generación de 10.000 hipótesis es ciertamente exigente desde el punto de vista computacional, esto no es necesario para un solo participante y solo nos permite aproximarnos a una distribución a nivel de población.

Siguiendo trabajos anteriores37,66,67, implementamos una gramática probabilística libre de contexto \({\mathbf{G}} =\{ {\mathrm{S}}, T,M,N, {\Theta} \}\) , donde S es el símbolo inicial, T un conjunto de reglas de producción, M un conjunto de símbolos no terminales {A, B, C, D}, N el conjunto de nodos terminales y Θ las probabilidades de producción. Para mantener una estrecha coincidencia con la biblioteca de conceptos inicial de la gramática del adaptador, consideramos las reglas de producción de la siguiente manera:

El símbolo de la tubería | representa 'o', lo que significa que el símbolo en el lado izquierdo del símbolo de flecha → puede transformarse en cualquiera de los símbolos en el lado derecho de →. Al igual que con los modelos de gramática adaptadora, asignamos probabilidades de producción previa uniformes: sea ΓI el conjunto de reglas de producción que comienzan con I, es decir, cualquier regla de producción γ ∈ ΓI es de la forma I → K, donde K puede ser cualquier símbolo. en gramática \(\bf G\), la probabilidad de producción para cada γ ∈ ΓI es \(\frac{1}{| {\Gamma }_{{\mathrm{I}}}| }\). Debido a que la gramática \(\bf G\) puede producir conceptos causales infinitamente complejos, fijamos una profundidad de generación de d = 40 en nuestra implementación para cubrir los conceptos de verdad fundamental. Si d se establece demasiado pequeño, como para la misma restricción que establecemos en los modelos AG, \(\bf G\) no puede llegar a la verdad fundamental por diseño y, por lo tanto, es menos útil en la comparación de modelos68. Al igual que en los modelos de gramática adaptadora, utilizamos una función de probabilidad determinista para evaluar cada concepto generado por la gramática \(\bf G\), esencialmente descartando todos los conceptos generados que no logran explicar toda la evidencia. Establecimos n = 100.000 para adquirir una buena cobertura de reglas hasta y más allá del grado de complejidad observado en las respuestas humanas. Las predicciones de generalización se realizan siguiendo el mismo procedimiento que los modelos de gramática adaptadora: aplicar las reglas posteriores aproximadas con los datos parcialmente observados D* = 〈A*, R*, ?〉 en tareas de generalización, y marginar sobre el R'* predicho como un predictivo posterior aproximado.

Sea dl un punto de datos de ejemplo de aprendizaje, que consta de un agente, un objeto destinatario y un objeto de resultado, y dg un punto de datos de tarea de generalización, que consta únicamente de un agente y un objeto destinatario. Sea stripe(x) el número de franjas del objeto x, y podemos medir la similitud entre el ejemplo de aprendizaje dl y la tarea de generalización dg en términos de franjas tomando la diferencia absoluta \(| | {\mathtt{stripes}}{( {\mathrm{A}})}_{{d}_{{\mathrm{l}}}}-{\mathtt{rayas}}{({\mathrm{A}})}_{{d}_ {{\mathrm{g}}}}| |\), denotado por δstripes(dl, dg). Teniendo en cuenta las tres características (rayas, manchas y segmentos), la diferencia de características Δ entre el ejemplo de aprendizaje dl y la tarea de generalización dg se puede medir mediante Δ(dl, dg) = a × δstripe(dl, dg) + b × δspot( dl, dg) + c × δsegmento(dl, dg). Con estas medidas podemos definir una puntuación de similitud.

de modo que cuanto más similares sean dl y dg (menor distancia Δ), mayor será la similitud \({\sigma }_{{{{\rm{sim}}}}}\). Cuando los dos puntos de datos comparten los mismos objetos de agente y destinatario, la puntuación de similitud \({\sigma }_{{{{\rm{sim}}}}}\) alcanza su valor máximo de 1. Al hacer predicciones de generalización, esto El modelo primero calcula la puntuación de similitud \({\sigma }_{{{{\rm{sim}}}}}\) entre la tarea de generalización actual gi con todos los ejemplos de aprendizaje disponibles {l1,…, lk}, lo que da como resultado \ ({\mathrm{S}}=\{{\sigma }_{{{{\rm{sim}}}}}({d}_{{{\mathrm{l}}}_{1}}, {d}_{{{\mathrm{g}}}_{i}}),\ldots ,{\sigma }_{{{{\rm{sim}}}}}({d}_{{{ \mathrm{l}}}_{k}},{d}_{{{\mathrm{g}}}_{i}})\}\). Ahora, para esta tarea de generalización gi, imita el resultado (\({d}_{{{\mathrm{l}}}_{k}}\)) con confianza \({\sigma }_{{{{\ rm{sim}}}}}({d}_{{{\mathrm{l}}}_{k}},{d}_{{{\mathrm{g}}}_{i}})\ ). Haciendo \(n={\mathtt{resultado}}({d}_{{{\mathrm{l}}}_{k}})\), la tarea gi predice \(p(n)={\mathtt{ resultado}}({d}_{{{\mathrm{l}}}_{k}})\times {\sigma }_{{{{\rm{sim}}}}}({d}_{ {{\mathrm{l}}}_{k}},{d}_{{{\mathrm{g}}}_{i}})\). La marginación de todos los valores posibles del segmento de resultados n proporciona la distribución sobre los valores del segmento de resultados predichos por la tarea gi.

Sea el número de franjas, puntos y segmentos en cada ejemplo de aprendizaje las variables independientes, y la longitud del palo resultante R' sea la variable dependiente. Ajustamos un modelo de regresión lineal después de cada fase del experimento con la fórmula

Hicimos predicciones de generalización utilizando parámetros ajustados y los valores de características de la tarea de generalización requerida. Redondeamos el número de segmento de resultado previsto a los dos enteros más cercanos para que coincida con el resultado de predicción requerido.

Tratamos cada valor de segmento de resultado potencial como un valor categórico (en lugar de continuo como en el caso de la regresión lineal) y ajustamos un modelo de regresión logística multinomial para predecir la probabilidad de cada valor de segmento de resultado usando la misma fórmula que la utilizada en la regresión lineal. modelo, con el paquete nnet (v.7.3) en R (v.4.1.1). Al ajustar el modelo, llamamos a la función pred para recopilar predicciones probabilísticas sobre los valores potenciales del segmento de resultados para cada prueba. Normalizamos esta predicción probabilística para garantizar que se trate de una distribución probabilística.

Al tratar cada ejemplo de aprendizaje como una entrada tridimensional (rayas, puntos y segmentos) con una salida unidimensional (segmentos de resultados), ajustamos un modelo de regresión de proceso gaussiano con núcleos de función de base radial, cada uno por característica xf:

Usamos el paquete GPy (v.1.10.0) en Python (v.3.9.1) para ajustar el modelo. Condicionando la entrada tridimensional para cada tarea de generalización, el modelo de regresión del proceso gaussiano ajustado genera una distribución gaussiana sobre longitudes potenciales de segmentos \({{{\mathcal{N}}}}(\mu ,{\sigma }^{2 })\). Luego agrupamos esta distribución sobre los posibles valores de segmentos discretos para compararlos con datos empíricos.

Utilizamos validación cruzada para evaluar modelos frente a datos de comportamiento en tareas de generalización en ajustes de probabilidad logarítmica. Para hacer esto, colapsamos los datos de los cuatro experimentos según el plan de estudios c, conservando cuántas personas (n) eligieron qué segmento número y ∈ [0, 16] en cada tarea i, lo que resultó en datos \({{{\mathcal{D} }}}=\{{n}_{ciy}\}\). Luego dejamos que cada modelo computacional genere una distribución Pci sobre todos los números de segmento posibles Y = {0, 1,…, 16} para la tarea i en el plan de estudios c. Debido a que muchas predicciones de modelos son estimaciones puntuales o se centran solo en unos pocos números de segmento, consideramos un parámetro de ruido de mano temblorosa \(h\in (0,\frac{1}{| Y| })\) tal que, para la distribución de probabilidad P(Y),

Básicamente, agregamos ruido h a cada variable aleatoria en el conjunto Y para evitar probabilidades 0. El denominador asegura que Ph(Y) sigue siendo una probabilidad. A diferencia de las funciones softmax, Ph(Y) se mantiene cerca de la forma de P(Y) cuando h es pequeña y, por lo tanto, mantiene mejor el grado de confianza "bruto" de cada modelo en esas una o dos predicciones. La probabilidad logarítmica de que un modelo produzca datos \(D\) viene dada por

Para cada ejecución de la validación cruzada, realizamos una prueba c del plan de estudios y ajustamos el parámetro de ruido h en los otros tres planes de estudio usando una estimación de máxima verosimilitud con la función optim en R. Tenga en cuenta que, para el modelo AGR, se requiere un parámetro de peso adicional λ se monta conjuntamente. Luego calculamos LLtest en el currículo ctest con los parámetros ajustados. La suma de LLtest para los cuatro planes de estudio sirve como el ajuste de probabilidad logarítmica total LL para el modelo. Como punto de referencia, elegir aleatoriamente produce \({\mathrm{L{L}}}_{{{{\rm{rand}}}}}=570\times 16\times \ln (\frac{1}{17 })=-25.838,91\) porque había 570 participantes, cada uno de los cuales completó 8 × 2 = 16 tareas y donde en cada tarea había 17 respuestas potenciales (longitudes finales de los palos, incluido 0) para elegir. Cualquier valor menor que LLrandom es una mejora con respecto a una línea de base con los ojos cerrados.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos informados en este estudio están disponibles en Open Science Framework (https://osf.io/9awhj/).

Las implementaciones de todos los modelos anteriores y sus análisis están disponibles gratuitamente en https://github.com/bramleyccslab/causal_bootstrapping y https://osf.io/9awhj/.

Newell, A. y Simon, HA Resolución de problemas humanos (Prentice-Hall, 1972).

Kahneman, D., Slovic, SP, Slovic, P. y Tversky, A. Juicio bajo incertidumbre: heurísticas y sesgos (Cambridge Univ. Press, 1982).

Van Rooij, I. La tesis de la cognición manejable. Cogn. Ciencia. 32, 939–984 (2008).

Artículo PubMed Google Scholar

Griffiths, TL, Lieder, F. & Goodman, ND Uso racional de recursos cognitivos: niveles de análisis entre lo computacional y lo algorítmico. Arriba. Cogn. Ciencia. 7, 217–229 (2015).

Artículo PubMed Google Scholar

Vul, E., Griffiths, T., Levy, R., Steyvers, M. y McKenzie, CR Modelos de procesos racionales. En Proc. 31ª Reunión Anual de la Sociedad de Ciencias Cognitivas (eds Taatgen, NA y Van Rijn, H.) 45–46 (2009).

Cowan, N. El número mágico 4 en la memoria a corto plazo: una reconsideración de la capacidad de almacenamiento mental. Comportamiento. Ciencia del cerebro. 24, 87-114 (2001).

Artículo CAS PubMed Google Scholar

Sanborn, AN, Griffiths, TL & Navarro, DJ Aproximaciones racionales a modelos racionales: algoritmos alternativos para el aprendizaje de categorías. Psicólogo. Rev. 117, 1144-1167 (2010).

Artículo PubMed Google Scholar

Sanborn, AN y Chater, N. Cerebros bayesianos sin probabilidades. Tendencias Cogn. Ciencia. 20, 883–893 (2016).

Artículo PubMed Google Scholar

Vul, E., Goodman, N., Griffiths, TL y Tenenbaum, JB ¿Uno y listo? Decisiones óptimas a partir de muy pocas muestras. Cogn. Ciencia. 38, 599–637 (2014).

Artículo PubMed Google Scholar

Bonawitz, E., Denison, S., Gopnik, A. y Griffiths, TL Ganar-quedarse, perder-muestra: un algoritmo secuencial simple para aproximar la inferencia bayesiana. Cogn. Psicólogo. 74, 35–65 (2014).

Artículo PubMed Google Scholar

Chater, N.La mente es plana: la ilusión de la profundidad mental y la mente improvisada (Penguin UK, 2018).

Bramley, NR, Dayan, P., Griffiths, TL y Lagnado, DA Formalizando el barco de Neurath: algoritmos aproximados para el aprendizaje causal en línea. Psicólogo. Rev. 124, 301 (2017).

Artículo PubMed Google Scholar

Gelpi, R., Prystawski, B., Lucas, CG y Buchsbaum, D. Revisión de hipótesis incrementales en el razonamiento causal a lo largo del desarrollo. En Proc. 42.a Conferencia Anual de la Sociedad de Ciencias Cognitivas (eds Denison, S., Mack, M., Xu, Y. & Armstrong, BC) 974–980 (2020).

Fränken, J.-P., Theodoropoulos, NC & Bramley, NR Algoritmos de adaptación en inferencia inductiva. Cogn. Psicólogo. Rev. 137, 101506 (2022).

Artículo PubMed Google Scholar

Acerbi, L., Vijayakumar, S. y Wolpert, DM Sobre los orígenes de la suboptimidad en la inferencia probabilística humana. Computación PLoS. Biol. 10, e1003661 (2014).

Artículo PubMed PubMed Central Google Scholar

Quine, WVO y Ullian, JS La red de creencias vol. 2 (Casa aleatoria, 1978).

Gopnik, A. y Meltzoff, AN Palabras, pensamientos y teorías (MIT Press, 1997).

Kemp, C. & Tenenbaum, JB El descubrimiento de la forma estructural. Proc. Acad. Nacional. Ciencia. Estados Unidos 105, 10687–10692 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Craik, KJW La naturaleza de la explicación vol. 445 (Archivo CUP, 1952).

Keil, FC Explicación y comprensión. Año. Rev. Psicólogo. 57, 227–254 (2006).

Artículo PubMed PubMed Central Google Scholar

Lombrozo, T. En Holyoak, KJ & Morrison, RG (eds) The Oxford Handbook of Thinking and Reasoning (Oxford Univ. Press, 2012).

Kuhn, TS La estructura de las revoluciones científicas vol. 111 (Prensa de la Universidad de Chicago, 1970).

Newton, I. Carta a Robert Hooke (colección Simon Gratz, 1675).

Carey, S. Bootstrapping y el origen de los conceptos. Dédalo 133, 59–68 (2004).

Artículo de Google Scholar

Piantadosi, ST, Tenenbaum, JB & Goodman, ND Bootstrapping en un lenguaje de pensamiento: un modelo formal de aprendizaje de conceptos numéricos. Cognición 123, 199–217 (2012).

Artículo PubMed Google Scholar

Gobet, F. y col. Mecanismos de fragmentación en el aprendizaje humano. Tendencias Cogn. Ciencia. 5, 236–243 (2001).

Klein, GA Fuentes de poder: cómo las personas toman decisiones (MIT Press, 2017).

Krueger, KA y Dayan, P. Conformación flexible: cómo ayuda aprender en pequeños pasos. Cognición 110, 380–394 (2009).

Artículo PubMed Google Scholar

Dechter, E., Malmaud, J., Adams, RP y Tenenbaum, JB Aprendizaje Bootstrap mediante el descubrimiento de conceptos modulares. En Vigésima Tercera Conferencia Internacional Conjunta sobre Inteligencia Artificial (ed. Francesca Ross) 1302–1309 (2013).

Ellis, K. DreamCoder: aumento del conocimiento generalizable e interpretable con el aprendizaje del programa bayesiano de vigilia y sueño. Filos. Trans. R Soc. Londres. A 381, 20220050 (2023).

Google Académico

Bowers, M. Síntesis de arriba hacia abajo para el aprendizaje bibliotecario. Proc. Programa ACM. Lang. 7, 1182-1213 (2023).

Artículo de Google Scholar

Wong, C. y col. Identificar bibliotecas de conceptos a partir del lenguaje sobre estructura de objetos. En Proc. 44ª Reunión Anual de la Sociedad de Ciencias Cognitivas (eds Culbertson, J., Rabagliati, H., Ramenzoni, V. & Perfors, A.) 2701–2708 (2022).

Tian, L., Ellis, K., Kryven, M. y Tenenbaum, J. Aprendizaje de estructuras abstractas para dibujar mediante inducción de programas motores eficientes. Adv. Inf. neuronal. Proceso. Sistema. 33, 2686–2697 (2020).

Google Académico

Marr, D. Visión: una investigación computacional sobre la representación humana y el procesamiento de información visual (MIT Press, 1982).

Liang, P., Jordan, MI y Klein, D. Programas de aprendizaje: un enfoque bayesiano jerárquico. En Proc. 27ª Conferencia Internacional sobre Aprendizaje Automático (ICML-10) (ed. Wrobel, S.) 639–646 (2010).

Johnson, M. y col. Gramáticas adaptadoras: un marco para especificar modelos bayesianos compositivos no paramétricos. Adv. Inf. neuronal. Proceso. Sistema. 19 (2007).

Goodman, ND, Tenenbaum, JB, Feldman, J. & Griffiths, TL Un análisis racional del aprendizaje de conceptos basado en reglas. Cogn. Ciencia. 32, 108-154 (2008).

Artículo PubMed Google Scholar

Thaker, P., Tenenbaum, JB & Gershman, SJ Aprendizaje en línea de conceptos simbólicos. J. Matemáticas. Psicólogo. 77, 10-20 (2017).

Artículo de Google Scholar

Piantadosi, ST, Tenenbaum, JB y Goodman, ND Los primitivos lógicos del pensamiento: fundamentos empíricos para los modelos cognitivos compositivos. Psicólogo. Rev. 123, 392–424 (2016).

Artículo PubMed Google Scholar

Pitman, J. & Yor, M. La distribución de Poisson-Dirichlet de dos parámetros derivada de un subordinado estable. Ana. Probablemente. 25, 855–900 (1997).

Artículo de Google Scholar

Bever, TG En Cognición y desarrollo del lenguaje (ed. Hayes, JR) 279–362 (John Wiley, 1970).

Rich, AS & Gureckis, TM Los límites del aprendizaje: exploración, generalización y desarrollo de trampas de aprendizaje. J. Exp. Psicólogo. Génesis 147, 1553-1570 (2018).

Artículo PubMed Google Scholar

Tversky, A. Características de similitud. Psicólogo. Rev. 84, 327–352 (1977).

Artículo de Google Scholar

Lucas, CG, Griffiths, TL, Williams, JJ y Kalish, ML Un modelo racional de aprendizaje funcional. Psicón. Toro. Rev. 22, 1193-1215 (2015).

Artículo PubMed Google Scholar

Wu, CM, Schulz, E., Speekenbrink, M., Nelson, JD y Meder, B. La generalización guía la exploración humana en vastos espacios de decisión. Nat. Tararear. Comportamiento. 2, 915–924 (2018).

Artículo PubMed Google Scholar

Mahoney, J. y Schensul, D. En El manual de Oxford de análisis político contextual (Oxford Univ. Press, 2006).

Gershman, S. & Goodman, N. Inferencia amortizada en razonamiento probabilístico. En Proc. 36ª Reunión Anual de la Sociedad de Ciencias Cognitivas (eds Bello, P., Guarini, M., McShane, M. & Scassellati, B.) 517–522 (2014).

Searcy, SR y Shafto, P. Inferencia cooperativa: características, objetos y colecciones. Psicólogo. Rev. 123, 510–533 (2016).

Artículo PubMed Google Scholar

Jern, A., Chang, K.-MK y Kemp, C. La polarización de creencias no siempre es irracional. Psicólogo. Rev. 121, 206–224 (2014).

Artículo PubMed Google Scholar

Culbertson, J. & Schuler, K. Aprendizaje de lenguaje artificial en niños. Año. Rev. Lingüista. 5, 353–373 (2019).

Artículo de Google Scholar

Bramley, NR & Xu, F. Inferencia inductiva activa en niños y adultos: una perspectiva constructivista. Cognición 238, 105471 (2023).

Artículo PubMed Google Scholar

Rule, JS, Tenenbaum, JB & Piantadosi, ST El niño como hacker. Tendencias Cogn. Ciencia. 24, 900–915 (2020).

Tomov, MS, Dorfman, HM y Gershman, SJ Cálculos neuronales subyacentes al aprendizaje de la estructura causal. J. Neurosci. 38, 7143–7157 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Sorscher, B., Ganguli, S. y Sompolinsky, H. La geometría representacional neuronal subyace al aprendizaje de conceptos en pocas tomas. Proc. Acad. Nacional. Ciencia. Estados Unidos 119, e2200800119 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Flesch, T., Juechems, K., Dumbalska, T., Saxe, A. y Summerfield, C. Representaciones ortogonales para un desempeño sólido de tareas dependientes del contexto en cerebros y redes neuronales. Neurona 110, 1258-1270 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Dasgupta, I. & Gershman, SJ La memoria como recurso computacional. Tendencias Cogn. Ciencia. 25, 240–251 (2021).

Artículo PubMed Google Scholar

Fernandino, L., Tong, J.-Q., Conant, LL, Humphries, CJ y Binder, JR Decodificación de la estructura de información subyacente a la representación neuronal de conceptos. Proc. Acad. Nacional. Ciencia. Estados Unidos 119, e2108091119 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Piantadosi, ST El origen computacional de la representación. Mentes Mach. (Dordr.) 31, 1–58 (2021).

Artículo PubMed Google Scholar

Della Sala, S. Olvidar (Psicología Press, 2010).

Nørby, S. ¿Por qué olvidar? Sobre el valor adaptativo de la pérdida de memoria. Perspectiva. Psicólogo. Ciencia. 10, 551–578 (2015).

Artículo PubMed Google Scholar

Gravitz, L. La parte olvidada de la memoria. Naturaleza 571, T12 (2019).

Artículo CAS PubMed Google Scholar

Brown, GD, Neath, I. y Chater, N. Un modelo de memoria de relación temporal. Psicólogo. Rev. 114, 539–576 (2007).

Artículo PubMed Google Scholar

Schönfinkel, M. Sobre los componentes básicos de la lógica matemática. Matemáticas Ann. 92, 305-316 (1924).

Crank, E. & Felleisen, M. Paso de parámetros y cálculo lambda. En Proc. 18º Simposio ACM SIGPLAN-SIGACT sobre principios de lenguajes de programación (eds De Meuter, W. & Guha, A.) 233–244 (1991).

Geman, S. & Geman, D. Relajación estocástica, distribuciones de Gibbs y restauración bayesiana de imágenes. Traducción IEEE. Patrón Anal. Mach. Intel. 6, 721–741 (1984).

Bramley, NR, Rothe, A., Tenenbaum, J., Xu, F. y Gureckis, T. Generación de hipótesis compositivas fundamentadas en casos específicos. En Proc. 40.a reunión anual de la Sociedad de Ciencias Cognitivas (eds Rogers, TT, Rau, M., Zhu, X. & Kalish, CW) 1390–1395 (2018).

Zhao, B., Lucas, CG & Bramley, NR ¿Cómo generalizan las personas las relaciones causales sobre los objetos? Una cuenta bayesiana no paramétrica. Computadora. Comportamiento cerebral. 5, 22–44 (2022).

Artículo PubMed Google Scholar

Zhao, B., Bramley, NR y Lucas, CG Potenciando la generalización causal: un modelo de arranque conceptual humano con gramáticas adaptadoras. En Proc. 44ª Reunión Anual de la Sociedad de Ciencias Cognitivas (eds Culbertson, J., Rabagliati, H., Ramenzoni, V. & Perfors, A.) 1819–1826 (2022).

Descargar referencias

Este trabajo fue apoyado por una subvención para nuevos investigadores de EPSRC (n.º EP/T033967/1) para NRB y CGL. Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito. Agradecemos a X. Zhu por su ayuda con la codificación de las respuestas de texto libre. También agradecemos a F. Mollica, T. Quillien, S. Valentin, C. Kemp, N. Goodman, E. Schulz y R. Hawkins por sus valiosos comentarios sobre el manuscrito.

Departamento de Psicología, Universidad de Edimburgo, Edimburgo, Reino Unido

Bonan Zhao y Neil R. Bramley

Escuela de Informática, Universidad de Edimburgo, Edimburgo, Reino Unido

Cristóbal Lucas

También puedes buscar este autor en PubMed Google Scholar.

BZ, NRB y CGL diseñaron los estudios. BZ y CGL idearon modelos tanto principales como alternativos. BZ y NRB diseñaron los experimentos. BZ implementó el modelo, recopiló datos, realizó análisis y redactó el manuscrito. NRB y CGL supervisaron todos los aspectos del proyecto. Todos los autores discutieron los resultados y revisaron el manuscrito.

Correspondencia a Bonan Zhao.

Los autores declaran no tener conflictos de intereses.

Nature Human Behavior agradece a Kevin Ellis, Ryan Smith y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Higos suplementarios. 1–4, discusión y Tablas 1–3.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Zhao, B., Lucas, CG y Bramley, NR Un modelo de arranque conceptual en la cognición humana. Comportamiento Nat Hum (2023). https://doi.org/10.1038/s41562-023-01719-1

Descargar cita

Recibido: 24 de enero de 2023

Aceptado: 08 de septiembre de 2023

Publicado: 16 de octubre de 2023

DOI: https://doi.org/10.1038/s41562-023-01719-1

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Noticias

Un modelo de arranque conceptual en la cognición humana.