skip to main content
Primo Search
Search in: Busca Geral

Methods to improve the semantics of similarity search, diversity and data summarization based on the tourist walk concept

Samuel Zanferdini Oliva Joaquim Cezar Felipe

2019

Localização: FMRP - Fac. Medicina de Ribeirão Preto    (Oliva, Samuel Zanferdini )(Acessar)

  • Título:
    Methods to improve the semantics of similarity search, diversity and data summarization based on the tourist walk concept
  • Autor: Samuel Zanferdini Oliva
  • Joaquim Cezar Felipe
  • Assuntos: RECUPERAÇÃO DA INFORMAÇÃO; AMOSTRAGEM; SEMÂNTICA; BASES DE DADOS; Amostragem De Dados; Buscas Por Similaridade; Caminhada Do Turista; Diversificação De Resultados De Consultas; Recuperação De Imagens Baseada Em Conteúdo; Sumarização De Dados
  • Notas: Tese (Doutorado)
  • Descrição: Devido ao grande aumento da quantidade e variedade de dados ocorrido recentemente, diversas abordagens buscando a eficiência para lidar com o armazenamento e a recuperação de dados têm sido propostas na literatura, dentre elas as que estudam recuperação baseada em similaridade e as que consideram a diversificação de resultados. Do mesmo modo, diferentes métodos têm sido propostos a fim de realizar a sumarização de dados, com a finalidade de selecionar amostras representativas das bases. Neste trabalho, métodos para buscas por similaridade, diversificação de consultas e sumarização de dados são propostos, implementados e avaliados. Esse desenvolvimento tem como referência a heurística da caminhada turista, a qual consiste de um caminhante percorrendo um conjunto de pontos dentro de um espaço multidimensional. Assim, são propostas três abordagens: a primeira consiste do método SimWalk, para realizar buscas por similaridade; a segunda proposta corresponde ao método DivWalk, cuja finalidade é construir conjuntos resultantes de buscas considerando elementos diversificados; a terceira apresenta o método SummarizationWalk, para realizar a sumarização de bases de dados, considerando o volume e a quantidade de elementos por agrupamentos de elementos de dados. As abordagens foram desenvolvidas e testadas com bases de dados artificiais e reais. Nos experimentos conduzidos, o SimWalk apresentou maior precisão, quando comparado com os métodos tradicionais de recuperação por similaridade.
    O DivWalk apresentou maiores variâncias nos resultados, demonstrando que este método produz uma melhor distribuição dos dados nas bases. O SummarizationWalk apresentou melhores resultados na recuperação de subconjuntos, considerando as métricas de elementos selecionados em relação ao volume e à quantidade de elementos por agrupamentos das bases. Os estudos aqui apresentados mostram que os métodos propostos para buscas por similaridade, diversificação de consultas e sumarização de dados representam uma otimização em relação ao estado da arte, consistindo, assim, de contribuições para a área de recuperação de dados
  • Data de criação/publicação: 2019
  • Formato: 105 p.
  • Idioma: Inglês

Buscando em bases de dados remotas. Favor aguardar.