Textual and Web-based Resources Analytics

Major: Data Science
Code of subject: 7.124.03.E.028
Credits: 5.00
Department: Social Communication and Information Activities
Lecturer: Zhezhnych P.I.
Semester: 2 семестр
Mode of study: денна
Learning outcomes: As a result of studying the discipline "Analytics of text and web-resources" the student should: • Know - the main goals of text and web resources analysis, methods for finding and processing data, language tools for describing and manipulating data in web resources. • be able to - practically solve the main tasks of analyzing text and web resources, their processing and manipulation. The study of the discipline provides for the formation and development of students' competencies: common: • understand and solve problems and tasks of text and web resources analysis; • carry out research in the field of analysis of text and web-resources; • apply knowledge of processing and manipulation of text and web resources in practical situations of competitive intelligence and information consolidation; professional: • use methods of analysis of text and web resources in the field of information consolidation for the development of information systems; • formulate, analyze and synthesize solutions to scientific and practical problems in the construction of consolidated information resources; • analyze text and web resources for data and knowledge availability; • to research and optimize methods of analysis of text and web-resources for building information systems; • develop and implement information systems built on the basis of consolidated information resources; • formulate new scientific and practical problems of building information resources in the field of information consolidation; • to acquire the knowledge gained from the methods of analysis of text and web-resources and to integrate them with already existing information in the field of consolidation of information. The learning outcomes of this discipline detail the following programmatic learning outcomes: • Knowledge and understanding of basic methods for analyzing text and web resources and approaches to data and knowledge discovery; • knowledge and understanding of the principles and mechanisms of building consolidated information resources; • Knowledge and understanding of theoretical, methodological and procedural bases of research in the field of text and web resources analysis; • knowledge and understanding of techniques for assessing the quality characteristics of information resources; • Knowledge and understanding of data and knowledge discovery methods in text and web resources; • ability to plan, organize and control information resources; • ability to process information using text and web resource analysis methods; • the ability to develop practical recommendations for building consolidated information resources; • the ability to provide the development and evaluation of the characteristics of consolidated information resources needed to manage and use them.
Required prior and related subjects: None
Summary of the subject: The course covers issues of processing of text and web resources, structured and semi-structured information resources, methods of data submission in XML; analytical and informational activity, synthesis of information, types of analytical and synthetic information processing; text mining, keyword and phrase detection; statistical approaches to keyword detection; Stamming algorithms; XML information technology analysis technologies, access to XML data using XML-oriented query languages; quality assessment of information resources, international standards for quality assessment of information resources; criteria of functionality, practicality, maintainability, mobility of information resources.
Assessment methods and criteria: Knowledge diagnostics is done through assessment of completed laboratory work and examination control (written and oral components).
Recommended books: 1. Барсегян А.А. Технология анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод // СПб.: БХВ-Петербург, 2007. – 384с. 2. Демуз І. О. Аналітико-синтетична переробка документної інформації: навч.-метод. посіб. для самост. вивч. дисципліни / І. О. Демуз. – Переяслав-Хмельницький (Київ. обл.): Домбровська Я. М., 2016. – 172 с. 3. Жежнич, П. І. Консолідовані інформаційні ресурси баз даних та знань: Навчальний посібник – Львів: Видавництво Національного університету “Львівська політехніка”, 2010. – 212 с. 4. Жежнич П.І. Часові бази даних (моделі та методи реалізації): Монографія – Львів: Видавництво Національного університету “Львівська політехніка”, 2007. – 260 с. 5. Зеленков Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов/ Ю.Г. Зеленков, И.В. Сегалович // RCDL’2007: Сб. работ участников конкурса: Переславль-Залесский, Россия, 2007. – Том 1.– С. 166-174. 6. Ільїнський С. Ефективний метод для виявлення дублікатів веб-документів з використанням інвертованого індексу./ Ільїнський С., Кузміна М., Мельков А., Сегалович І. // Підсумки Міжнародної конференції WWW — М.: 2002. 7. Пиотровская К. Р. Текст-майнинг: перспективы развития // Известия Российского государственного педагогического университета им. АИ Герцена, Высокотехнологичная информационная образовательная среда, № 168, 2014. – с.128-134. https://cyberleninka.ru/article/v/tekst-mayning-perspektivy-razvitiya 8. Плескач В.Л. Інформаційні системи і технології на підприємствах: підручник. / В.Л.Плескач, Т.Г.Затонацька // Київ: Знання, 2011. - 718с. 9. Системи управління якістю. Вимоги : ISO 9001–2001.– [Чинний від 2001–104–01]. – К.: Держстандарт України, 2001. – 23 с. 10. Системи управління якістю. Настанови щодо поліпшення діяльності. Вимоги :ISO 9004–2001. – [Чинний від 2001–01–01]. – К.: Держстандарт України, 2001. – 44 с. 11. Шендрик В. В. Система збирання, розміщення та аналізу даних [Текст] / В. В. Шендрик, С. М. Ващенко // Вісник Національного університету "Львівська політехніка". – 2011. – № 715. – С. 1–11. 12. Яковина В. Алгоритм перевірки тестових завдань на основі синтаксичного методу. / Віталій Яковина, Тетяна Смірнова // Інформація, комунікація, суспільство : матеріали І Міжнародної наукової конференції ІКС-2012, 25–28 квітня 2012 року, [Львів] / Національний університет "Львівська політехніка", Кафедра соціальних комунікацій та інформаційної діяльності, Кафедра інформаційних систем та мереж. – Львів : Видавництво Львівської політехніки, 2012. – С. 154–155. 13. Ferrara E. Web Data Extraction, Applications and Techniques. / E. Ferrara, G. Fiumara, R. Baumgartner // A Survey. Tech. Report, 2010. 14. Hong J.L. Deep web data extraction. // IEEE SMC Conf. – Oct. 2010. 6. Web Data Extraction [Електронний ресурс] – Режим доступу до ресурсу: https://www.loginworks.com/web-scraping-blogs/209-web-data-extraction/. 15. Park S.-T. Analysis of Lexical Signatures for Finding Lost or Related Documents / S.-T. Park, D. Pennock, C. Lee Giles, R. Krovetz. — Finland, 2002. — 8p. 16. Software engineering – Product quality – Part 1: Quality model [Electronic resource] / ISO/IEC 9126-1:2001. – Mode of access : WWW/URL : http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=22749&ICS1=35&ICS2=80&ICS3. – 15.06.2011. – Title from the screen. 17. Software engineering – Product quality – Part 2: External metrics [Electronic resource] / ISO/IEC TR 9126-2:2003. – Mode of access : WWW/URL : http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=22750. – 20.06.2011. – Title from the screen. 18. Systems and software engineering – Systems and software QualityRequirements and Evaluation (SQuaRE) – System and software quality models / ISO/IEC 25010.2:2008. – Mode of access : http://sa.inceptum.eu/sites/sa.inceptum.eu/ files/Content/ISO_25010.pdf.