Аналітика текстових та web-ресурсів

Спеціальність: Аналіз даних (Data Science)
Код дисципліни: 7.124.03.E.018
Кількість кредитів: 5.00
Кафедра: Соціальні комунікації та інформаційна діяльність
Лектор: Жежнич П.І.
Семестр: 2 семестр
Форма навчання: денна
Результати навчання: В результаті вивчення дисципліни "Аналітика текстових та web-ресурсів" студент повинен: • знати – основні цілі аналізу текстових та web-ресурсів, методи пошуку та опрацювання даних, мовні засоби опису та маніпулювання даними у web-ресурсах. • вміти – практично розв'язувати основні задачі аналізу текстових та web-ресурсів, їхнього опрацювання та маніпулювання. Вивчення навчальної дисципліни передбачає формування та розвиток у студентів компетентностей: загальних: • розуміти й розв’язувати проблеми та задачі аналізу текстових та web-ресурсів; • проводити дослідження в галузі аналізу текстових та web-ресурсів; • застосовувати знання з опрацювання та маніпулювання текстових та web-ресурсів в практичних ситуаціях конкурентної розвідки та консолідації інформації; фахових: • використовувати методи аналізу текстових та web-ресурсів в галузі консолідації інформації для розроблення інформаційних систем; • формулювати, аналізувати та синтезувати рішення науково-практичних задач з побудови консолідованих інформаційних ресурсів; • аналізувати текстові та web-ресурси щодо наявності даних та знань; • досліджувати та оптимізувати методи аналізу текстових та web-ресурсів для побудови інформаційних систем; • розробляти і впроваджувати інформаційні системи, побудовані на основі консолідованих інформаційних ресурсів; • формулювати нові наукові та практичні задачі побудови інформаційних ресурсів в області консолідації інформації; • сприймати здобуті знання з методів аналізу текстових та web-ресурсів та інтегрувати їх з уже наявними з області консолідації інформації. Результати навчання цієї дисципліни деталізують такі програмні результати навчання: • знання і розуміння основних методи аналізу текстових та web-ресурсів і підходів до виявлення даних та знань; • знання і розуміння принципів та механізмів побудови консолідованих інформаційних ресурсів; • знання і розуміння теоретичних, методологічних та процедурних основ проведення досліджень в сфері аналізу текстових та web-ресурсів; • знання і розуміння методик оцінки якісних характеристик інформаційних ресурсів; • знання і розуміння методів виявлення даних та знань у текстових та web-ресурсах; • здатність здійснювати планування, організацію та контроль інформаційних ресурсів; • здатність здійснювати обробку інформації за допомогою методів аналізу текстових та web-ресурсів; • здатність розробляти практичні рекомендації щодо побудови консолідованих інформаційних ресурсів; • здатність забезпечувати розробку та оцінку характеристик консолідованих інформаційних ресурсів, необхідних для їхнього управління та використання.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: Нема
Короткий зміст навчальної програми: Навчальна дисципліна висвітлює питання про особливості обробки текстових та веб-ресурсів, структуровані та слабоструктуровані інформаційні ресурси, методи подання даних в XML; аналітично-інформаційну діяльність, синтез інформації, види аналітико-синтетичної обробки інформації; інтелектуальний аналіз текстів (text mining), виявлення ключових слів і фраз; статистичні підходи до виявлення ключових слів; Стеммінг-алгоритми; XML-технології аналізу інформаційних ресурсів, доступ до XML-даних за допомогою XML-орієнтованих мов запитів; оцінювання якості інформаційних ресурсів, міжнародні стандарти оцінювання якості інформаційних ресурсів; критерії функціональності, практичності, супроводжуваності, мобільності інформаційних ресурсів.
Методи та критерії оцінювання: Діагностика знань відбувається шляхом оцінювання виконаних лабораторних робіт та екзаменаційного контролю (письмової та усної компоненти).
Рекомендована література: 1. Барсегян А.А. Технология анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод // СПб.: БХВ-Петербург, 2007. – 384с. 2. Демуз І. О. Аналітико-синтетична переробка документної інформації: навч.-метод. посіб. для самост. вивч. дисципліни / І. О. Демуз. – Переяслав-Хмельницький (Київ. обл.): Домбровська Я. М., 2016. – 172 с. 3. Жежнич, П. І. Консолідовані інформаційні ресурси баз даних та знань: Навчальний посібник – Львів: Видавництво Національного університету “Львівська політехніка”, 2010. – 212 с. 4. Жежнич П.І. Часові бази даних (моделі та методи реалізації): Монографія – Львів: Видавництво Національного університету “Львівська політехніка”, 2007. – 260 с. 5. Зеленков Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов/ Ю.Г. Зеленков, И.В. Сегалович // RCDL’2007: Сб. работ участников конкурса: Переславль-Залесский, Россия, 2007. – Том 1.– С. 166-174. 6. Ільїнський С. Ефективний метод для виявлення дублікатів веб-документів з використанням інвертованого індексу./ Ільїнський С., Кузміна М., Мельков А., Сегалович І. // Підсумки Міжнародної конференції WWW — М.: 2002. 7. Пиотровская К. Р. Текст-майнинг: перспективы развития // Известия Российского государственного педагогического университета им. АИ Герцена, Высокотехнологичная информационная образовательная среда, № 168, 2014. – с.128-134. https://cyberleninka.ru/article/v/tekst-mayning-perspektivy-razvitiya 8. Плескач В.Л. Інформаційні системи і технології на підприємствах: підручник. / В.Л.Плескач, Т.Г.Затонацька // Київ: Знання, 2011. - 718с. 9. Системи управління якістю. Вимоги : ISO 9001–2001.– [Чинний від 2001–104–01]. – К.: Держстандарт України, 2001. – 23 с. 10. Системи управління якістю. Настанови щодо поліпшення діяльності. Вимоги :ISO 9004–2001. – [Чинний від 2001–01–01]. – К.: Держстандарт України, 2001. – 44 с. 11. Шендрик В. В. Система збирання, розміщення та аналізу даних [Текст] / В. В. Шендрик, С. М. Ващенко // Вісник Національного університету "Львівська політехніка". – 2011. – № 715. – С. 1–11. 12. Яковина В. Алгоритм перевірки тестових завдань на основі синтаксичного методу. / Віталій Яковина, Тетяна Смірнова // Інформація, комунікація, суспільство : матеріали І Міжнародної наукової конференції ІКС-2012, 25–28 квітня 2012 року, [Львів] / Національний університет "Львівська політехніка", Кафедра соціальних комунікацій та інформаційної діяльності, Кафедра інформаційних систем та мереж. – Львів : Видавництво Львівської політехніки, 2012. – С. 154–155. 13. Ferrara E. Web Data Extraction, Applications and Techniques. / E. Ferrara, G. Fiumara, R. Baumgartner // A Survey. Tech. Report, 2010. 14. Hong J.L. Deep web data extraction. // IEEE SMC Conf. – Oct. 2010. 6. Web Data Extraction [Електронний ресурс] – Режим доступу до ресурсу: https://www.loginworks.com/web-scraping-blogs/209-web-data-extraction/. 15. Park S.-T. Analysis of Lexical Signatures for Finding Lost or Related Documents / S.-T. Park, D. Pennock, C. Lee Giles, R. Krovetz. — Finland, 2002. — 8p. 16. Software engineering – Product quality – Part 1: Quality model [Electronic resource] / ISO/IEC 9126-1:2001. – Mode of access : WWW/URL : http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=22749&ICS1=35&ICS2=80&ICS3. – 15.06.2011. – Title from the screen. 17. Software engineering – Product quality – Part 2: External metrics [Electronic resource] / ISO/IEC TR 9126-2:2003. – Mode of access : WWW/URL : http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=22750. – 20.06.2011. – Title from the screen. 18. Systems and software engineering – Systems and software QualityRequirements and Evaluation (SQuaRE) – System and software quality models / ISO/IEC 25010.2:2008. – Mode of access : http://sa.inceptum.eu/sites/sa.inceptum.eu/ files/Content/ISO_25010.pdf.