Аналітика текстових та web-ресурсів
Спеціальність: Аналіз даних (Data Science)
Код дисципліни: 7.124.03.E.018
Кількість кредитів: 5.00
Кафедра: Соціальні комунікації та інформаційна діяльність
Лектор: Жежнич П.І.
Семестр: 2 семестр
Форма навчання: денна
Результати навчання: В результаті вивчення дисципліни "Аналітика текстових та web-ресурсів" студент повинен:
• знати – основні цілі аналізу текстових та web-ресурсів, методи пошуку та опрацювання даних, мовні засоби опису та маніпулювання даними у web-ресурсах.
• вміти – практично розв'язувати основні задачі аналізу текстових та web-ресурсів, їхнього опрацювання та маніпулювання.
Вивчення навчальної дисципліни передбачає формування та розвиток у студентів компетентностей:
загальних:
• розуміти й розв’язувати проблеми та задачі аналізу текстових та web-ресурсів;
• проводити дослідження в галузі аналізу текстових та web-ресурсів;
• застосовувати знання з опрацювання та маніпулювання текстових та web-ресурсів в практичних ситуаціях конкурентної розвідки та консолідації інформації;
фахових:
• використовувати методи аналізу текстових та web-ресурсів в галузі консолідації інформації для розроблення інформаційних систем;
• формулювати, аналізувати та синтезувати рішення науково-практичних задач з побудови консолідованих інформаційних ресурсів;
• аналізувати текстові та web-ресурси щодо наявності даних та знань;
• досліджувати та оптимізувати методи аналізу текстових та web-ресурсів для побудови інформаційних систем;
• розробляти і впроваджувати інформаційні системи, побудовані на основі консолідованих інформаційних ресурсів;
• формулювати нові наукові та практичні задачі побудови інформаційних ресурсів в області консолідації інформації;
• сприймати здобуті знання з методів аналізу текстових та web-ресурсів та інтегрувати їх з уже наявними з області консолідації інформації.
Результати навчання цієї дисципліни деталізують такі програмні результати навчання:
• знання і розуміння основних методи аналізу текстових та web-ресурсів і підходів до виявлення даних та знань;
• знання і розуміння принципів та механізмів побудови консолідованих інформаційних ресурсів;
• знання і розуміння теоретичних, методологічних та процедурних основ проведення досліджень в сфері аналізу текстових та web-ресурсів;
• знання і розуміння методик оцінки якісних характеристик інформаційних ресурсів;
• знання і розуміння методів виявлення даних та знань у текстових та web-ресурсах;
• здатність здійснювати планування, організацію та контроль інформаційних ресурсів;
• здатність здійснювати обробку інформації за допомогою методів аналізу текстових та web-ресурсів;
• здатність розробляти практичні рекомендації щодо побудови консолідованих інформаційних ресурсів;
• здатність забезпечувати розробку та оцінку характеристик консолідованих інформаційних ресурсів, необхідних для їхнього управління та використання.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: Нема
Короткий зміст навчальної програми: Навчальна дисципліна висвітлює питання про особливості обробки текстових та веб-ресурсів, структуровані та слабоструктуровані інформаційні ресурси, методи подання даних в XML; аналітично-інформаційну діяльність, синтез інформації, види аналітико-синтетичної обробки інформації; інтелектуальний аналіз текстів (text mining), виявлення ключових слів і фраз; статистичні підходи до виявлення ключових слів; Стеммінг-алгоритми; XML-технології аналізу інформаційних ресурсів, доступ до XML-даних за допомогою XML-орієнтованих мов запитів; оцінювання якості інформаційних ресурсів, міжнародні стандарти оцінювання якості інформаційних ресурсів; критерії функціональності, практичності, супроводжуваності, мобільності інформаційних ресурсів.
Методи та критерії оцінювання: Діагностика знань відбувається шляхом оцінювання виконаних лабораторних робіт та екзаменаційного контролю (письмової та усної компоненти).
Рекомендована література: 1. Барсегян А.А. Технология анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод // СПб.: БХВ-Петербург, 2007. – 384с.
2. Демуз І. О. Аналітико-синтетична переробка документної інформації: навч.-метод. посіб. для самост. вивч. дисципліни / І. О. Демуз. – Переяслав-Хмельницький (Київ. обл.): Домбровська Я. М., 2016. – 172 с.
3. Жежнич, П. І. Консолідовані інформаційні ресурси баз даних та знань: Навчальний посібник – Львів: Видавництво Національного університету “Львівська політехніка”, 2010. – 212 с.
4. Жежнич П.І. Часові бази даних (моделі та методи реалізації): Монографія – Львів: Видавництво Національного університету “Львівська політехніка”, 2007. – 260 с.
5. Зеленков Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов/ Ю.Г. Зеленков, И.В. Сегалович // RCDL’2007: Сб. работ участников конкурса: Переславль-Залесский, Россия, 2007. – Том 1.– С. 166-174.
6. Ільїнський С. Ефективний метод для виявлення дублікатів веб-документів з використанням інвертованого індексу./ Ільїнський С., Кузміна М., Мельков А., Сегалович І. // Підсумки Міжнародної конференції WWW — М.: 2002.
7. Пиотровская К. Р. Текст-майнинг: перспективы развития // Известия Российского государственного педагогического университета им. АИ Герцена, Высокотехнологичная информационная образовательная среда, № 168, 2014. – с.128-134. https://cyberleninka.ru/article/v/tekst-mayning-perspektivy-razvitiya
8. Плескач В.Л. Інформаційні системи і технології на підприємствах: підручник. / В.Л.Плескач, Т.Г.Затонацька // Київ: Знання, 2011. - 718с.
9. Системи управління якістю. Вимоги : ISO 9001–2001.– [Чинний від 2001–104–01]. – К.: Держстандарт України, 2001. – 23 с.
10. Системи управління якістю. Настанови щодо поліпшення діяльності. Вимоги :ISO 9004–2001. – [Чинний від 2001–01–01]. – К.: Держстандарт України, 2001. – 44 с.
11. Шендрик В. В. Система збирання, розміщення та аналізу даних [Текст] / В. В. Шендрик, С. М. Ващенко // Вісник Національного університету "Львівська політехніка". – 2011. – № 715. – С. 1–11.
12. Яковина В. Алгоритм перевірки тестових завдань на основі синтаксичного методу. / Віталій Яковина, Тетяна Смірнова // Інформація, комунікація, суспільство : матеріали І Міжнародної наукової конференції ІКС-2012, 25–28 квітня 2012 року, [Львів] / Національний університет "Львівська політехніка", Кафедра соціальних комунікацій та інформаційної діяльності, Кафедра інформаційних систем та мереж. – Львів : Видавництво Львівської політехніки, 2012. – С. 154–155.
13. Ferrara E. Web Data Extraction, Applications and Techniques. / E. Ferrara, G. Fiumara, R. Baumgartner // A Survey. Tech. Report, 2010.
14. Hong J.L. Deep web data extraction. // IEEE SMC Conf. – Oct. 2010. 6. Web Data Extraction [Електронний ресурс] – Режим доступу до ресурсу: https://www.loginworks.com/web-scraping-blogs/209-web-data-extraction/.
15. Park S.-T. Analysis of Lexical Signatures for Finding Lost or Related Documents / S.-T. Park, D. Pennock, C. Lee Giles, R. Krovetz. — Finland, 2002. — 8p.
16. Software engineering – Product quality – Part 1: Quality model [Electronic resource] / ISO/IEC 9126-1:2001. – Mode of access : WWW/URL : http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=22749&ICS1=35&ICS2=80&ICS3. – 15.06.2011. – Title from the screen.
17. Software engineering – Product quality – Part 2: External metrics [Electronic resource] / ISO/IEC TR 9126-2:2003. – Mode of access : WWW/URL : http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=22750. – 20.06.2011. – Title from the screen.
18. Systems and software engineering – Systems and software QualityRequirements and Evaluation (SQuaRE) – System and software quality models / ISO/IEC 25010.2:2008. – Mode of access : http://sa.inceptum.eu/sites/sa.inceptum.eu/ files/Content/ISO_25010.pdf.