Scoperta e Validazione delle fonti

Ottobre 2, 2007

Una delle fasi più importanti di un qualsiasi progetto che si propone l’osservazione e l’analisi dei contenuti informativi (in forma testuale) generati dai network, è sicuramente la scelta delle fonti. Si osserva che a tal proposito risulta immediatamente inefficiente una selezione manuale delle fonti effettuata tramite l’uso di keyword sui motori di ricerca oppure, ad esempio, “navigando” nelle strutture tematiche proposte da altre risorse (Xanga, Alexa, Technorati, ecc.). Usare questi metodi significa esporsi ad un certo numero di criticità tra le quali: il rischio di catalogazione di un numero eccessivo di fonti – con relativi fenomeni negativi quali ridondanza o scarsa significatività dell’informazione (fonti troppo specialistiche o eccessivamente generali allontanano il “risultato atteso” da quello ottimale) fino al caso più grave – e più frequente nelle applicazioni reali – costituito dalla scelta delle sole fonti che godono di un miglior posizionamento nella classifica dei motori di ricerca. In questo ultimo caso infatti, la cernita verrebbe in realtà effettuata dai motori (e con parametri del tutto diversi dai requisiti del progetto) e non dall’operatore, che in sostanza non ha alcun controllo consapevole sui criteri attraverso i quali la scelta viene effettuata, ma bensì – cosa assai peggiore – ne ha l’illusione. Un metodo che da maggiori garanzie in tal senso, può essere quello che prevede l’impiego delle ontologie. Costruire una formalizzazione efficace del progetto stesso in tutte le sue componenti e relazioni (compreso il concetto di “fonte” e la sua ontologia) può aiutare l’analista nella fase di scoperta e validazione delle “sorgenti” di informazioni. Non è un controsenso fondare tutto il progetto sul concetto di “fonte”: cos’è infatti una fonte – ontologicamente parlando – se non una “informazione sulle possibilità (di informare) che una risorsa ha” ? Nell’intelligence l’imperativo è “identificare ed estrarre informazioni significative”; se anche la fonte è tipo particolare di informazione (“…io so [informazione] che quella specifica fonte [risorsa] può darmi informazioni su…”) allora è giusto procedere prima con la “identificazione ed scoperta” delle fonti. Per quanto concerne il progetto specifico – che si è deciso di considerare alla stregua di un problema di intelligence - l’intenzione è quella di tentarne una formalizzazione ontologica attraverso Protege. Una volta fatto ciò si procederà con la scoperta, il mining e la validazione delle fonti significative, dalle quali poi si attingerà tutto il materiale informativo indispensabile per le successive fasi del progetto.


Black Swan Project – idea and abstract

Ottobre 2, 2007

As competition increases and intensifies, organizations are discovering clever ways to systematically gather and analyze information from internal and external sources (a.k.a. “the enterprise data network”) and provide alerts of changing business conditions in real time.Gathering and integrating real-time data from the Web is crucial for today’s enterprise. Ignoring or manually gathering this data is no longer an option for the organization that relies on current market, competitive and customer data for superior business decision This new breed of “business activity monitoring” applications can drive greater productivity, new sources of revenue, and competitive advantage. Below are a few examples:

  • Aggregating customer and competitor information for CRM
    Monitoring public opinion form cyber forums, blogs and RSS feed about products and competitors
  • Integrating competitive pricing information into pricing analytics or price alert applications Extracting pricing information from e-business and e-government sites for trend analysis or fast response to the actions of competitors.
  • Collecting and organizing content to populate enterprise information portals Crawling the Web, internal information sources, and subscription services to automatically populate portals with pertinent and timely content.
  • Fundamental research for risk management and Compliance. Internet monitoring of partners, resellers, and the gray market for resale authorization, price accuracy, logo usage, logo positioning, link to and from partner sites.

 While Web mining and network analysis techniques have been widely used to analyze the content and structure of the Web sites of hate groups on the Internet, these techniques have not been applied to the study of blogs.  As blogs have become one of the fastest growing types of Web-based media, bloggers canexpress their opinions and emotions more freely and easily than before. These blogs are microcosms of conversations happening around the world. The millions of people engaging in blog conversations are on the front lines of consumer awareness – these are the influencers shaping public opinion. Positive or negative buzz on the blogosphere can have tremendous influence and even affect stock prices.

In the blog space, many communities have emerged, which include racists and hate groups that are trying to share their ideology, express their views, or recruit new group members. It is important to analyze these cyber communities, defined based on group membership and subscription linkages, in order to monitor for activities that are potentially harmful to society.  In this research, we propose a framework to address this problem.  The framework consists of four modules, namely blog spider, information extraction, network analysis, and visualization. The Blog Spider module downloads blog pages from the Web.These pages are then processed by the Information Extraction module. Data about these blogs and their relationships are extracted and passed to the Network Analysis module for further analysis. Finally the Visualization module presents the analysis results to users in a graphical displayd