Search *

Page 5 of 174 results

hydrospheredata/spark-ml-serving 0.3.3

Spark ML Lib serving library

Scala versions: 2.11

inference scoring serving spark

50 0 2
hablapps/sparkoptics 0.1.1

Optics for Spark DataFrames

Scala versions: 2.12 2.11

dataframes dataframe optics spark-sql spark scala

48 0 4
coxautomotivedatasolutions/spark-distcp 0.2

A re-implementation of Hadoop DistCP in Apache Spark

Scala versions: 2.12 2.11

apache-spark data-engineering distcp hadoop spark

47 0 3
absaoss/hyperdrive 4.7.0

Extensible streaming ingestion pipeline on top of Apache Spark

Scala versions: 2.12 2.11

apache-spark streaming spark-structured-streaming framework pipeline kafka streaming-etl spark ingestion

47 11
xskipper-io/xskipper 1.6.0

An Extensible Data Skipping Framework

Scala versions: 2.12

data-skipping indexing scala spark

50 8 5
tharwaninitin/etlflow 1.7.3

EtlFlow is an ecosystem of functional libraries in Scala based on ZIO for running complex Auditable workflows which can interact with Google Cloud Platform, AWS, Kubernetes, Databases, SFTP servers, On-Prem Systems and more.

Scala versions: 3.x 2.13 2.12

Scala.js versions: 1.x

dataproc gcs etl bigquery scala redis aws s3 gcp etl-framework etl-pipeline spark zio

45 0 5
locationtech-labs/geopyspark 0.3.0

GeoTrellis for PySpark

Scala versions: 2.11

tile-server geotrellis big-data geospatial spark python

179 9
benfradet/struct-type-encoder 0.6.0

Deriving Spark DataFrame schemas from case classes

Scala versions: 2.12

spark sparksql

44 0 6
heartsavior/spark-sql-kafka-offset-committer 0.2.0

Kafka offset committer for structured streaming query

Scala versions: 2.12 2.11

kafka spark structured-streaming

41 3
g-research/spark-dgraph-connector 0.2.0

A connector for Apache Spark and PySpark to Dgraph databases.

Scala versions: 2.12

dgraph gr-oss pyspark spark

44 2 5
absaoss/spark-hats 0.3.0

Nested array transformation helper extensions for Apache Spark

Scala versions: 2.13 2.12 2.11

arrays schema spark nested-structures scala

37 0 6
zuinnote/spark-hadoopoffice-ds 1.7.0

A Spark datasource for the HadoopOffice library

Scala versions: 2.13 2.12 2.11

read xlsx xls excel spark datasource write hadoopoffice

36 1 1
tupol/spark-utils 0.6.2

Basic framework utilities to quickly start writing production ready Apache Spark applications

Scala versions: 2.12

apache-spark convenience data-source framework data-sink spark scala spark-applications spark-streaming

36 0 1
agile-lab-dev/darwin 1.2.2

Avro Schema Evolution made easy

Scala versions: 2.13 2.12 2.11 2.10

schema-evolution avro hadoop scala hbase spark avro-schema

36 0 10
music-of-the-ainur/almaren-framework 2.4.5-2.4.5

The Almaren Framework provides a simplified consistent minimalistic layer over Apache Spark. While still allowing you to take advantage of native Apache Spark features. You can still combine it with standard Spark code.

Scala versions: 2.12 2.11

spark

31 13
intenthq/pucket 1.7.3

Bucketing and partitioning system for Parquet

Scala versions: 2.11

parquet spark thrift hdfs partitioning scala

30 5
sansa-stack/archived-sansa-query 0.7.1

SANSA Query Layer

Scala versions: 2.11

rdf flink partitioning distributed-computing spark sparql

31 10
fsanaulla/chronicler-spark 0.6.0

InfluxDB connector to Apache Spark on top of Chronicler

Scala versions: 2.12 2.11

chronicler streaming dataframe spark scala rdd influxdb

29 0 2
agile-lab-dev/wasp 3.0.1

WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

Scala versions: 2.12

jdbc elasticsearch kafka hadoop spark scala hbase hdfs yarn parquet akka spark-streaming solr

31 16
absaoss/pramen 1.0.1

Resilient data pipeline framework running on Apache Spark

Scala versions: 2.13 2.12 2.11

hacktoberfest etl big-data spark data-pipeline scala

30 281 10

1
2
3
4
5 (current)
6
7
8
9