пʼятницю, 2 квітня 2010 р.

Задача №1 розділ №6 "Learning to Classify Text"

Умова задачі: Read up on one of the language technologies mentioned in this section, such as
word sense disambiguation, semantic role labeling, question answering, machine
translation, or named entity recognition. Find out what type and quantity of annotated
data is required for developing such systems. Why do you think a large
amount of data is required?

Що потрібно зробити:
- прочитати про word sense disambiguation, semantic role labeling, question answering, machine translation, named entity recognition в підручнику починаючи зі сторінки 28;
- прочитати про word sense disambiguation, semantic role labeling, question answering, machine translation, named entity recognition в інших книжках (Jurafsky), інтернет ресурсах (Вікіпедія) тощо...
- обдумати, які дані (корпуси) необхідні для побудови (тренування) класифікатора для вирішення тої чи ншої задачі;
- аргументувати, який об'єм даних потрібний для успішного вирішення задачі.

4 коментарі:

  1. А чи можна буде потім розроблені студентами класифікатори якось прилаштувати для практичних задач, наприклад, для поліпшення якості категоризації статей у тій же Вікіпедії, або на основі аналізу історії правок виявляти потенційних, але досі не знешкоджених вандалів та не виправлені вандальні правки?

    Оскільки українська Вікіпедія містить понад 200 тисяч статей (на наступному тижні буде подолано відмітку), то підтримка якості та протидія шкідництву стають дедалі актуальнішими проблемами. Чи могли б молоді комп'ютерні лінгвісти зробити свій внесок у розвиток інтернет-енциклопедії?

    Дякую

    ВідповістиВидалити