Методи збору та аналізу інформації з веб-джерел
Анотації
У цих тезах розглянуто сучасні методи збору та аналізу інформації з веб-джерел. Проведено
аналіз основних підходів до веб-скрапінгу, роботи з API та агрегування даних з різноманітних Інтернет-ресурсів.
Розглянуто переваги і недоліки використання різних технологій, зокрема Python-бібліотек (BeautifulSoup,
Scrapy), сервісів новинних API та інструментів для попередньої обробки та класифікації даних. Окреслено
основні виклики, такі як обмеження доступу до даних, часті зміни структури веб-ресурсів, необхідність обробки
великого обсягу інформації та виявлення фейкових новин. Вказано на перспективи розвитку систем
автоматизованого збору та аналізу новин для підвищення достовірності та релевантності отриманої
інформації. These theses consider modern methods of collecting and analyzing information from web sources. The
analysis of the main approaches to web scraping, working with APIs, and aggregating data from various Internet
resources is carried out. The advantages and disadvantages of using different technologies are discussed, including
Python libraries (BeautifulSoup, Scrapy), news API services, and tools for preprocessing and classification of data. The
main challenges are outlined, such as data access limitations, frequent changes in web resource structures, the need to
process large volumes of information, and the detection of fake news. The prospects for the development of automated
news collection and analysis systems to improve the reliability and relevance of the obtained information are indicated.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/47848

