Weave GitOps core Weave GitOps 支持有效的 GitOps 工作流,以将应用程序持续交付到 Kubernetes 集群中。它基于领先的 GitOps 引擎 CNCF Flux。
An open-source Chinese font derived from Fontworks' Klee One. 一款基于 FONTWORKS 出品字体 Klee One 改造的开源中文字体。
Open source platform for the machine learning lifecycle MLflow 由 Databricks 创建,并由 Linux 基金会托管,是一个 MLOps 平台,可以让人跟踪、管理和维护各种机器学习模型、实验及其部署。它为你提供了记录和查询实验(代码、数据、配置、结果)的工具,将数据科学代码打包成项目,并将这些项目链入工作流程。
Instant Kubernetes-Native Application Observability Pixie 是 Kubernetes 应用的可观察性工具,它可以查看集群的高级状态,如服务地图、集群资源和应用流量;还可以深入到更详细的视图,如 pod 状态、火焰图和单个 full-body 应用请求。 Pixie 使用 eBPF 自动收集遥测数据,它在集群本地收集、存储和查询所有的遥测数
Run Kubernetes locally Minikube 是一个易于在本地运行 Kubernetes 的工具,可在你的笔记本电脑上的虚拟机内轻松创建单机版 Kubernetes 集群。便于尝试 Kubernetes 或使用 Kubernetes 日常开发。
🍊 📊 💡 Orange: Interactive data analysis Orange 旨在使将数据挖掘 "富有成效且有趣"。Orange 允许用户创建一个数据分析工作流程,执行各种机器学习和分析功能以及可视化。 与 R Studio 和 Jupyter 等程序化或文本工具相比,Orange 是非常直观的。你可以将小部件拖到画布上以加载文件,用模型分析数据并将结果可视化。
Presto 是一个开源的分布式 SQL 引擎,用于在线分析处理,在集群中运行。 Presto 可以查询各种各样的数据源,从文件到数据库,并将结果返回到许多商业智能和分析环境。更重要的是,Presto 允许查询数据所在的地方,包括 Hive、Cassandra、关系型数据库和专有数据存储。
Apache Arrow 为平面和分层数据定义了一种独立于语言的柱状内存格式,为现代 CPU 和 GPU 上的高效分析操作而组织。 Arrow 内存格式还支持零拷贝读取,以便在没有序列化开销的情况下进行闪电式的数据访问。Arrow 库可用于 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。
cuDF - GPU DataFrame Library Nvidia 的 Rapids 开源软件库和 API 套件让你有能力完全在 GPU 上执行端到端的数据科学和分析管道。 Rapids 使用 Nvidia CUDA 基元进行底层计算优化,并通过用户友好的 Python 接口暴露了 GPU 的并行性和高带宽内存速度。Rapids 依赖于 Apache Arrow 柱状内存格式,包括 cuD
开源的 Explainable AI(XAI)包。 InterpretML 让你训练可解释的 glassbox 模型并解释黑盒系统。InterpretML 可帮助你了解模型的全局行为,或了解个别预测背后的原因。 InterpretML 有一个来自 Microsoft Research 的 "glass box" 模型,支持用黑盒模型的近似值进行 post-hoc 解释的 Lime。
Trino(原名 PrestoSQL)是一个分布式 SQL 分析引擎,能够对大型分布式数据源运行极快的查询。 Trino 允许你同时对数据湖、关系型存储或多个不同来源执行查询,而不需要复制或移动数据进行处理。而且 Trino 与你的数据科学家可能使用的任何商业智能和分析工具配合得很好,无论是交互式的还是临时性的,最大限度地减少了学习曲线。
🤗 Transformers: State-of-the-art Natural Language Processing for Pytorch, TensorFlow, and JAX. Hugging Face 提供了最重要的开源深度学习资源库,它本身并不是一个深度学习框架。Hugging Face 的目标是扩展到文本之外,支持图像、音频、视频、物体检测等。
Apache Superset is a Data Visualization and Data Exploration Platform Apache Superset 是 Airbnb 开源的数据探查与可视化平台(曾用名 Panoramix、Caravel ),该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。
Parallel computing with task scheduling Dask 是一个用于并行计算的开源库,可以将 Python 包扩展到多台机器上。Dask 可以将数据和计算分布在多个 GPU 上,无论是在同一个系统中还是在一个多节点集群中。
ELT for the DataOps era- open source data integration tool. This is a read-only mirror of https://gitlab.com/meltano/meltano Meltano 是今年从 GitLab 中分离出来的,一个免费的开源 DataOps 替代传统 ELT(提取、加载、转换)的工具链。
🦔 PostHog provides open-source product analytics that you can self-host. PostHog 是一个为开发人员构建的开源产品分析平台。自动收集你网站或应用程序上的每个事件,无需向第三方发送数据。它在用户级别提供基于事件的分析,捕获你产品的使用数据以查看哪些用户在你的应用程序中执行了哪些操作。它会自动捕获点击次数和综合浏览量,以