XPathExtractor (Apache Any23 :: Core 0.7.0-incubating-SNAPSHOT API)

Overview

Package

Class

Use

Tree

Deprecated

Index

Help

PREV CLASS NEXT CLASS

FRAMES NO FRAMES

SUMMARY: NESTED | FIELD | CONSTR | METHOD

DETAIL: FIELD | CONSTR | METHOD

org.apache.any23.extractor.xpath
Class XPathExtractor

java.lang.Object
  org.apache.any23.extractor.xpath.XPathExtractor

All Implemented Interfaces:: Extractor<Document>, Extractor.TagSoupDOMExtractor

public class XPathExtractor
extends Object
implements Extractor.TagSoupDOMExtractor
extends Object
implements Extractor.TagSoupDOMExtractor

Implementation of an Extractor.TagSoupDOMExtractor able to apply XPathExtractionRules and generate quads.

Author:: Michele Mostarda (mostarda@fbk.eu)
See Also:: XPathExtractionRule

Nested Class Summary

Nested classes/interfaces inherited from interface org.apache.any23.extractor.Extractor
`Extractor.BlindExtractor, Extractor.ContentExtractor, Extractor.TagSoupDOMExtractor`

Field Summary
`static ExtractorFactory<XPathExtractor>`	`factory`
`static String`	`NAME`

Constructor Summary
`XPathExtractor(List<XPathExtractionRule> rules)`

Method Summary
`void`	`add(XPathExtractionRule rule)`
`boolean`	`contains(XPathExtractionRule rule)`
`ExtractorDescription`	`getDescription()` Returns a `ExtractorDescription` of this extractor.
`void`	`remove(XPathExtractionRule rule)`
`void`	`run(ExtractionParameters extractionParameters, ExtractionContext extractionContext, Document in, ExtractionResult out)` Executes the extractor.

Methods inherited from class java.lang.Object
`clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait`

Field Detail

NAME

public static final String NAME

See Also:: Constant Field Values

factory

public static final ExtractorFactory<XPathExtractor> factory

Constructor Detail

XPathExtractor

public XPathExtractor(List<XPathExtractionRule> rules)

Method Detail

add

public void add(XPathExtractionRule rule)

remove

public void remove(XPathExtractionRule rule)

contains

public boolean contains(XPathExtractionRule rule)

run

public void run(ExtractionParameters extractionParameters,
                ExtractionContext extractionContext,
                Document in,
                ExtractionResult out)
         throws IOException,
                ExtractionException

Description copied from interface: Extractor

Executes the extractor. Will be invoked only once, extractors are not reusable.

Specified by:: run in interface Extractor<Document>

Parameters:: extractionParameters - the parameters to be applied during the extraction.; extractionContext - The document context.; in - The extractor input data.; out - the collector for the extracted data.
Throws:: IOException - On error while reading from the input stream.; ExtractionException - On other error, such as parse errors.

getDescription

public ExtractorDescription getDescription()