Аналітика текстових та web-ресурсів

Спеціальність: Аналіз даних (Data Science)
Код дисципліни: 7.124.03.E.018
Кількість кредитів: 5.00
Кафедра: Соціальні комунікації та інформаційна діяльність
Лектор: Жежнич П.І.
Семестр: 2 семестр
Форма навчання: денна
Результати навчання: В результаті вивчення дисципліни "Аналітика текстових та web-ресурсів" студент повинен: • знати – основні цілі аналізу текстових та web-ресурсів, методи пошуку та опрацювання даних, мовні засоби опису та маніпулювання даними у web-ресурсах. • вміти – практично розв'язувати основні задачі аналізу текстових та web-ресурсів, їхнього опрацювання та маніпулювання. Вивчення навчальної дисципліни передбачає формування та розвиток у студентів компетентностей: загальних: • розуміти й розв’язувати проблеми та задачі аналізу текстових та web-ресурсів; • проводити дослідження в галузі аналізу текстових та web-ресурсів; • застосовувати знання з опрацювання та маніпулювання текстових та web-ресурсів в практичних ситуаціях конкурентної розвідки та консолідації інформації; фахових: • використовувати методи аналізу текстових та web-ресурсів в галузі консолідації інформації для розроблення інформаційних систем; • формулювати, аналізувати та синтезувати рішення науково-практичних задач з побудови консолідованих інформаційних ресурсів; • аналізувати текстові та web-ресурси щодо наявності даних та знань; • досліджувати та оптимізувати методи аналізу текстових та web-ресурсів для побудови інформаційних систем; • розробляти і впроваджувати інформаційні системи, побудовані на основі консолідованих інформаційних ресурсів; • формулювати нові наукові та практичні задачі побудови інформаційних ресурсів в області консолідації інформації; • сприймати здобуті знання з методів аналізу текстових та web-ресурсів та інтегрувати їх з уже наявними з області консолідації інформації. Результати навчання цієї дисципліни деталізують такі програмні результати навчання: • знання і розуміння основних методи аналізу текстових та web-ресурсів і підходів до виявлення даних та знань; • знання і розуміння принципів та механізмів побудови консолідованих інформаційних ресурсів; • знання і розуміння теоретичних, методологічних та процедурних основ проведення досліджень в сфері аналізу текстових та web-ресурсів; • знання і розуміння методик оцінки якісних характеристик інформаційних ресурсів; • знання і розуміння методів виявлення даних та знань у текстових та web-ресурсах; • здатність здійснювати планування, організацію та контроль інформаційних ресурсів; • здатність здійснювати обробку інформації за допомогою методів аналізу текстових та web-ресурсів; • здатність розробляти практичні рекомендації щодо побудови консолідованих інформаційних ресурсів; • здатність забезпечувати розробку та оцінку характеристик консолідованих інформаційних ресурсів, необхідних для їхнього управління та використання.
Необхідні обов'язкові попередні та супутні навчальні дисципліни: Нема
Короткий зміст навчальної програми: Навчальна дисципліна висвітлює питання про особливості обробки текстових та веб-ресурсів, структуровані та слабоструктуровані інформаційні ресурси, методи подання даних в XML; аналітично-інформаційну діяльність, синтез інформації, види аналітико-синтетичної обробки інформації; інтелектуальний аналіз текстів (text mining), виявлення ключових слів і фраз; статистичні підходи до виявлення ключових слів; Стеммінг-алгоритми; XML-технології аналізу інформаційних ресурсів, доступ до XML-даних за допомогою XML-орієнтованих мов запитів; оцінювання якості інформаційних ресурсів, міжнародні стандарти оцінювання якості інформаційних ресурсів; критерії функціональності, практичності, супроводжуваності, мобільності інформаційних ресурсів.
Методи та критерії оцінювання: Діагностика знань відбувається шляхом оцінювання виконаних лабораторних робіт та екзаменаційного контролю (письмової та усної компоненти).
Порядок та критерії виставляння балів та оцінок: 100-88 балів - атестований з оцінкою «відмінно» - Високий рівень: здобувач освіти демонструє поглиблене володіння поняттєвим та категорійним апаратом навчальної дисципліни, системні знання, вміння і навички їх практичного застосування. Освоєні знання, вміння і навички забезпечують можливість самостійного формулювання цілей та організації навчальної діяльності, пошуку та знаходження рішень у нестандартних, нетипових навчальних і професійних ситуаціях. Здобувач освіти демонструє здатність робити узагальнення на основі критичного аналізу фактичного матеріалу, ідей, теорій і концепцій, формулювати на їх основі висновки. Його діяльності ґрунтується на зацікавленості та мотивації до саморозвитку, неперервного професійного розвитку, самостійної науково-дослідної діяльності, що реалізується за підтримки та під керівництвом викладача. 87-71 балів - атестований з оцінкою «добре» - Достатній рівень: передбачає володіння поняттєвим та категорійним апаратом навчальної дисципліни на підвищеному рівні, усвідомлене використання знань, умінь і навичок з метою розкриття суті питання. Володіння частково-структурованим комплексом знань забезпечує можливість їх застосування у знайомих ситуаціях освітнього та професійного характеру. Усвідомлюючи специфіку задач та навчальних ситуацій, здобувач освіти демонструє здатність здійснювати пошук та вибір їх розв’язання за поданим зразком, аргументувати застосування певного способу розв’язання задачі. Його діяльності ґрунтується на зацікавленості та мотивації до саморозвитку, неперервного професійного розвитку. 70-50 балів - атестований з оцінкою «задовільно» - Задовільний рівень: окреслює володіння поняттєвим та категорійним апаратом навчальної дисципліни на середньому рівні, часткове усвідомлення навчальних і професійних задач, завдань і ситуацій, знання про способи розв’язання типових задач і завдань. Здобувач освіти демонструє середній рівень умінь і навичок застосування знань на практиці, а розв’язання задач потребує допомоги, опори на зразок. В основу навчальної діяльності покладено ситуативність та евристичність, домінування мотивів обов’язку, неусвідомлене застосування можливостей для саморозвитку. 49-00 балів - атестований з оцінкою «незадовільно» - Незадовільний рівень: свідчить про елементарне володіння поняттєвим та категорійним апаратом навчальної дисципліни, загальне уявлення про зміст навчального матеріалу, часткове використання знань, умінь і навичок. В основу навчальної діяльності покладено ситуативно-прагматичний інтерес.
Рекомендована література: 1. Барсегян А.А. Технология анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод // СПб.: БХВ-Петербург, 2007. – 384с. 2. Демуз І. О. Аналітико-синтетична переробка документної інформації: навч.-метод. посіб. для самост. вивч. дисципліни / І. О. Демуз. – Переяслав-Хмельницький (Київ. обл.): Домбровська Я. М., 2016. – 172 с. 3. Жежнич, П. І. Консолідовані інформаційні ресурси баз даних та знань: Навчальний посібник – Львів: Видавництво Національного університету “Львівська політехніка”, 2010. – 212 с. 4. Жежнич П.І. Часові бази даних (моделі та методи реалізації): Монографія – Львів: Видавництво Національного університету “Львівська політехніка”, 2007. – 260 с. 5. Зеленков Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов/ Ю.Г. Зеленков, И.В. Сегалович // RCDL’2007: Сб. работ участников конкурса: Переславль-Залесский, Россия, 2007. – Том 1.– С. 166-174. 6. Ільїнський С. Ефективний метод для виявлення дублікатів веб-документів з використанням інвертованого індексу./ Ільїнський С., Кузміна М., Мельков А., Сегалович І. // Підсумки Міжнародної конференції WWW — М.: 2002. 7. Пиотровская К. Р. Текст-майнинг: перспективы развития // Известия Российского государственного педагогического университета им. АИ Герцена, Высокотехнологичная информационная образовательная среда, № 168, 2014. – с.128-134. https://cyberleninka.ru/article/v/tekst-mayning-perspektivy-razvitiya 8. Плескач В.Л. Інформаційні системи і технології на підприємствах: підручник. / В.Л.Плескач, Т.Г.Затонацька // Київ: Знання, 2011. - 718с. 9. Системи управління якістю. Вимоги : ISO 9001–2001.– [Чинний від 2001–104–01]. – К.: Держстандарт України, 2001. – 23 с. 10. Системи управління якістю. Настанови щодо поліпшення діяльності. Вимоги :ISO 9004–2001. – [Чинний від 2001–01–01]. – К.: Держстандарт України, 2001. – 44 с. 11. Шендрик В. В. Система збирання, розміщення та аналізу даних [Текст] / В. В. Шендрик, С. М. Ващенко // Вісник Національного університету "Львівська політехніка". – 2011. – № 715. – С. 1–11. 12. Яковина В. Алгоритм перевірки тестових завдань на основі синтаксичного методу. / Віталій Яковина, Тетяна Смірнова // Інформація, комунікація, суспільство : матеріали І Міжнародної наукової конференції ІКС-2012, 25–28 квітня 2012 року, [Львів] / Національний університет "Львівська політехніка", Кафедра соціальних комунікацій та інформаційної діяльності, Кафедра інформаційних систем та мереж. – Львів : Видавництво Львівської політехніки, 2012. – С. 154–155. 13. Ferrara E. Web Data Extraction, Applications and Techniques. / E. Ferrara, G. Fiumara, R. Baumgartner // A Survey. Tech. Report, 2010. 14. Hong J.L. Deep web data extraction. // IEEE SMC Conf. – Oct. 2010. 6. Web Data Extraction [Електронний ресурс] – Режим доступу до ресурсу: https://www.loginworks.com/web-scraping-blogs/209-web-data-extraction/. 15. Park S.-T. Analysis of Lexical Signatures for Finding Lost or Related Documents / S.-T. Park, D. Pennock, C. Lee Giles, R. Krovetz. — Finland, 2002. — 8p. 16. Software engineering – Product quality – Part 1: Quality model [Electronic resource] / ISO/IEC 9126-1:2001. – Mode of access : WWW/URL : http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=22749&ICS1=35&ICS2=80&ICS3. – 15.06.2011. – Title from the screen. 17. Software engineering – Product quality – Part 2: External metrics [Electronic resource] / ISO/IEC TR 9126-2:2003. – Mode of access : WWW/URL : http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=22750. – 20.06.2011. – Title from the screen. 18. Systems and software engineering – Systems and software QualityRequirements and Evaluation (SQuaRE) – System and software quality models / ISO/IEC 25010.2:2008. – Mode of access : http://sa.inceptum.eu/sites/sa.inceptum.eu/ files/Content/ISO_25010.pdf.