Search *

Page 4 of 174 results

kakao/cuesheet

A framework for writing Spark 2.x applications in a pretty way

Scala versions: 2.11 2.10

apache-spark yarn scala magic spark mango

84 3
helgeho/archivespark

An Apache Spark framework for easy data processing, extraction as well as derivation for web archives and archival collections, developed at Internet Archive.

Scala versions: 2.11

archivespark warc web-archiving webarchive spark-framework internet-archive spark

140 3
sansa-stack/sansa-stack

Big Data RDF Processing and Analytics Stack built on Apache Spark and Apache Jena http://sansa-stack.github.io/SANSA-Stack/

Scala versions: 2.12 2.11

rdf apache-spark flink spark semantic-web apache-jena distributed-computing

138 34
dwestheide/kontextfrei

Writing application logic for Spark jobs that can be unit-tested without a SparkContext

Scala versions: 2.11 2.10

scala spark

75 2
coxautomotivedatasolutions/waimak

Waimak is an open-source framework that makes it easier to create complex data flows in Apache Spark.

Scala versions: 2.13 2.12 2.11

data-engineering hadoop scala spark

75 9
swoop-inc/spark-records

Bulletproof Apache Spark jobs with fast root cause analysis of failures.

Scala versions: 2.12

apache-spark big-data sparksql scala spark-records spark swoop

72 4
hablapps/doric

Type safety for spark columns

Scala versions: 2.13 2.12 2.11

big dataframe spark-columns big-data spark typesafe scala

73 64 9
emesday/spark-annoy

Building Annoy Index on Apache Spark

Scala versions: 2.11 2.10

approximate-nearest-neighbor-search knn scala spark

73 2
simplexspatial/osm4scala

Scala and Spark library focused on reading OpenStreetMap Pbf files.

Scala versions: 2.13 2.12 2.11 2.10

openstreetmap-pbf-files pbf gis openstreetmap spark scala osm

77 4
samelamin/spark-bigquery

Google BigQuery support for Spark, Structured Streaming, SQL, and DataFrames with easy Databricks integration.

Scala versions: 2.11

bigquery data-frame schema spark

70 4
googleclouddataproc/spark-bigquery-connector

BigQuery data source for Apache Spark: Read data from BigQuery into DataFrames, write DataFrames into BigQuery tables.

Scala versions: 2.13 2.12 2.11

spark google-cloud-dataproc google-cloud google-bigquery bigquery bigquery-storage-api

348 63
jelmerk/hnswlib

Java library for approximate nearest neighbors search using Hierarchical Navigable Small World graphs

Scala versions: 2.13 2.12 2.11

k-nearest-neighbors java pyspark spark scala knn-search algorithm

242 4
mrpowers/spark-stringmetric

Spark functions to run popular phonetic and string matching algorithms

Scala versions: 2.13 2.12 2.11

cosine-distance fuzzy-score nysiis jaccard-similarity spark jaro-winkler double-metaphone hamming-distance refined-soundex

58 2
pishen/sbt-lighter

SBT plugin for Apache Spark on AWS EMR

Scala versions: 2.12 2.10

sbt plugins: 1.0 0.13

emr sbt spark

57 6
databrickslabs/automl-toolkit

Toolkit for Apache Spark ML for Feature clean-up, feature Importance calculation suite, Information Gain selection, Distributed SMOTE, Model selection and training, Hyper parameter optimization and selection, Model interprability.

Scala versions: 2.11

apache-spark feature-engineering spark scala ml pyspark machinelearning

189 7
potix2/spark-google-spreadsheets

Google Spreadsheets datasource for SparkSQL and DataFrames

Scala versions: 2.11 2.10

sparksql scala data-frame spark spreadsheet

58 5
yaooqinn/itachi

A library that brings useful functions from various modern database management systems to Apache Spark

Scala versions: 2.12

postgres spark hive presto trino

53 2
uosdmlab/spark-nkp

Natural Korean Processor for Apache Spark

Scala versions: 2.11

nlp apache-spark text-mining korean-nlp spark natural-language-processing spark-mllib

53 2
cerndb/sparkplugins

Code and examples of how to write and deploy Apache Spark Plugins. Spark plugins allow runnig custom code on the executors as they are initialized. This also allows extending the Spark metrics systems with user-provided monitoring probes.

Scala versions: 2.13 2.12

kubernetes monitoring scala spark

77 1
hydrospheredata/spark-ml-serving

Spark ML Lib serving library

Scala versions: 2.11

inference scoring serving spark

48 2

1
2
3
4 (current)
5
6
7
8
9