Cursussen

Kan de computer concreetheid meten? Tekstbegrijpelijkheid en automatische taalanalyse van het Nederlands

Naam cursus

Kan de computer concreetheid meten? Tekstbegrijpelijkheid en automatische taalanalyse van het Nederlands

Universiteit

Punten/Credits

10

Cursusdatum

semester 2 (2014 -2015)

Inschrijfdatum

- 21/08/2015

Locatie

VU Amsterdam

Naam docent

Prof. Piek Vossen (VU) en Prof. Wilbert Spooren (Radboud universiteit)

E-mail contactpersoon

Doel van de cursus

Aan het einde van de cursus

  • ken je de actuele discussies rondom het onderzoek naar concreetheid en begrijpelijkheid van teksten;
  • kun je beredeneren wat de problemen zijn rondom automatische herkenning van concreetheid en begrijpelijkheid
  • ben je in staat onderzoekbare vragen te formuleren vanuit taalbeheersingsperspectief rondom begrijpelijkheid en concreetheid
  • ken je opzet en mogelijkheden van computationele lexicons m.h.o. concreetheidsonderzoek
  • kun je teksten uit corpora annoteren met behulp van computationele lexicons

Uitgebreide omschrijving

Wie begrijpelijk wil schrijven doet er goed aan concreet te zijn. Lezers willen graag concrete informatie lezen en onderzoek laat zien dat concrete teksten interessanter, meer motiverend en begrijpelijker gevonden worden dan abstracte teksten. Een vaak genoemde verklaring voor concreetheidseffecten is dat de voorstelbaarheid van concrete informatie de lezer helpt. Immers, van concrete woorden en zinnen kunnen we ons een goede voorstelling maken. Daardoor kunnen we concrete informatie makkelijker en beter opslaan in ons geheugen. Dat gemak vertaalt zich hierin dat concrete informatie interessanter en begrijpelijker wordt gevonden en beter onthouden. Concreet schrijven is dus heel belangrijk voor begrijpelijkheid. Toch zijn er weinig tot geen hulpmiddelen voor de schrijver om concreetheid te bereiken.

In deze cursus onderzoeken we wat er nodig is om de computer concreetheid van informatie te laten herkennen. Hierbij gaat het dus om het automatisch kunnen herkennen van concreetheid.

Aan de orde komen:

Februari -maart

1. begrijpelijkheid van taal (Wilbert Spooren) 2. concreetheid van taal (Wilbert Spooren)

April-mei

3. (computationele) lexicons (wordnet – framenet) en corpora (Piek Vossen) 4. het representeren en meten van concreet – abstract en perceptuele associaties (Piek Vossen)

Examen informatie

Werkstuk + dossier met annotatieopdrachten

E-reader met daarin o.a.

Deel 1 (februari-maart)

Douma, P. (1994). Wees zo concreet mogelijk. Schrijfadviseurs over concreet en abstract taalgebruik. Tijdschrift voor Taalbeheersing, 16(1), 16-31.

Graesser, A., McNamara, D. S., Louwerse, M., & Cai, Z. (2004). Coh-Metrix: Analysis of text on cohesion and language. Behavioral Research Methods, Instruments, and Computers, 36, 193-202.

Hout, van-Vervoorn, A. (1985). Voorstelbaarheidswaarden van Nederlandse woorden. Lisse: Swets & Zeitlinger.

Kraf, R., Sloot, K. van der, Pander Maat, H. Bosch, A. van den, Gompel, M. van, Kleijn, S., & Dekker, N. (2013). T-Scan Gebruikershandleiding versie 0.3. Ongepubliceerd manuscript.

Paivio, A., Yuille, J. C., & Madigan, S. A. (1968). Concreteness, imagery and meaningfulness values for 925 words. Journal of Experimental Psychology, 76(1, Part 2), 1-25.

Rosch, E. (1978). Principles of categorization, In Rosch, E. & Lloyd, B.B. (eds), Cognition and Categorization (pp. 27–48). Hillsdale: Lawrence Erlbaum Associates.

Sadoski, M., Goetz, E. T., & Rodriguez, M. (2000). Engaging texts: Effects of concreteness on comprehensibility, interest, and recall in four text types. Journal of Educational Psychology, 92, 85-95.

Sadoski, M., Goetz, E. T., Stricker, A. G., & Burdenski, Jr., T. K. (2003). New findings for concreteness and imagery effects in written composition. Reading and Writing: An Interdisciplinary Journal, 16, 443-453.

Sadoski, M. (1999). Theoretical, empirical, and practical considerations in designing informational text. Document Design, 1, 25-34.

 

Deel 2 (april-mei)

Cai, D., He, X., Li, Z., Ma, W. Y., & Wen, J. R. (2004) Hierarchical clustering of www image search results using visual, textual and link information. In Proceedings of the 12th annual ACM International Conference on Multimedia (pp. 952-959).

Budanitsky, A. & Hirst, G. (2001). Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures. Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistics. Pittsburgh

Datta, R., Joshi, D., Li. J., & Wang, J.C. (2008) Image Retrieval: Ideas, influences, and trends of the New Age. ACM Computing Surveys40 (2), article 5. Publication date: April 2008.

Devitt, A. & Vogel, C. (2004), The topology of WordNet: Some metrics. In Petr Sojka, Karel Pala, Pavel Smrž, Christiane Fellbaum, Piek Vossen (Eds.), GWC 2004, Proceedings (pp. 106–111). Masaryk University, Brno, 2003.

Esuli, A. & Sebastiani, F. (2007) PageRanking WordNet synsets: An application to opinion mining. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (pp. 424–431), Prague, June 2007.

Fellbaum, C. (Ed.) (1998). WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

Joho, H. and M. Sanderson. (2007). Document frequency and term specificity. In Proceedings of the Recherche d’Information Assistée par Ordinateur Conference (RIAO) (June 2007) .

Pedersen, T., S. Patwardhan, and J. Michelizzi (2010). Information Content Measures of Semantic Similarity Perform Better Without Sense-Tagged Text In: Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HLT 2010), June 1-6, 2010 (pp. 329-332). Los Angeles, CA.

Torralba, A., R. Fergus, W. T. Freeman, (2008), 80 million tiny images: a large dataset for non-parametric object and scene recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.

Tversky, B. (1985). Categories and parts. In C. Craig & T. Givon (Eds.), Noun classes and categorization (pp. 63-75). Philadelphia: John Benjamins Publishing.

Vossen, P, I. Maks, R. Segers, H. van der Vliet, M. Moens, K. Hofmann, E. Tjong Kim Sang and M. De Rijke (2012fc) “Cornetto: a lexical semantic database for Dutch”, In: P. Spyns & J. Odijk (eds): “Planning, producing and providing in the Low Countries Essential Speech and Language Technology Resources for Dutch”, Springer series Theory and Applications of Natural Language Processing ISSN: 2192-032X.

Voorwaarden

Werkvormen

Werkcollege

 

Data

Vrijdagochtend van 10.15 tot 13 u.

 

Studielast

  • College: 3 x 14 u.= 42 u
  • Toetsing: 28 u
  • Voorbereiding toetsing: 40 u
  • Bestudering literatuur: 80 u
  • Opdrachten: 90 u

Totaal: 280 u

 

Kosten

– Aanschaf literatuur: pro memorie (zoveel mogelijk wordt gebruik gemaakt van een e-reader)

 

Opmerkingen

– Je dient je laptop met internetverbinding (eduroam) mee te brengen naar het college.