Open Refine

Open Refine (dříve známý jako Google Refine) je open-source nástroj, jehož umem je rychlé čištění a filtrace dat (ať už těch ve formátu CSV, TSV, XML, RDF, JSON, ve formě Google tabulek nebo jiných textových souborů) a posléze transformace dat do různých formátů a externích zdrojů (jako CSV, TSV, tabulek HTML, Excel, Google, databáze Wikidata).


Nástroj se v online marketingu nejčastěji využívá pro přípravu dat. U nás v agentuře jej používáme nejvíce pro analýzy klíčových slov. Díky jeho šikovným algoritmům dokážeme z obsáhlých souborů sesbíraných frází (např. ve formě excelovské tabulky) rychle odstranit duplicitní výrazy, výrazy lišící se pouze chybějící diakritikou či překlepy, stejné výrazy pouze s přeházeným pořadím slov apod., a to prostřednictvím tzv. clusterizace (metody Key Collision a Nearest Neighbour), která všechny obdobné termíny seskupí. Open Refine umožňuje data pomocí nejrůznějších filtrů dále kategorizovat a rozdělit např. klíčové fráze na jednotlivá slova (funkce Word Facet).