# data_analysis_tools **Repository Path**: ailark/data_analysis_tools ## Basic Information - **Project Name**: data_analysis_tools - **Description**: 用Python+Streamlit,搭建一个可团队复用的,适应任一数据集的分析平台。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-10-20 - **Last Updated**: 2025-11-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 交互式数据分析平台 一个基于Streamlit的交互式数据分析应用,支持多种文件格式、动态图表切换和原始数据查看。 ## 🚀 功能特点 ### 核心功能 - **多格式支持**: 支持CSV、Excel(.xlsx/.xls)等常见数据格式 - **智能编码识别**: 自动识别CSV文件编码(UTF-8, GBK, GB2312, Latin-1) - **交互式图表**: 8种图表类型,支持动态切换和配置 - **数据筛选**: 实时筛选和查看原始数据 - **统计分析**: 自动生成描述性统计和缺失值分析 - **数据处理**: 支持数据类型转换和缺失值处理 - **数据导出**: 支持筛选后数据的导出功能 ### 支持的图表类型 1. **散点图** - 分析两个数值变量的关系 2. **柱状图** - 比较不同类别的数值 3. **线图** - 展示趋势变化 4. **饼图** - 显示比例分布 5. **直方图** - 查看数据分布 6. **箱线图** - 分析数据的分布和异常值 7. **热力图** - 显示变量间的相关性 8. **小提琴图** - 结合箱线图和密度图的优点 ## 📦 安装依赖 ```bash pip install -r requirements.txt ``` ## 🎯 使用方法 ### 启动应用 ```bash streamlit run app.py ``` ### 基本操作流程 1. **上传数据**: 在左侧边栏选择CSV或Excel文件 2. **数据查看**: 在"数据查看"标签页浏览和筛选数据 3. **图表分析**: 在"图表分析"标签页创建交互式图表 4. **统计分析**: 查看描述性统计和缺失值分析 5. **数据处理**: 进行数据类型转换和缺失值处理 ## 🔧 技术架构 ### 主要技术栈 - **Streamlit**: Web应用框架 - **Pandas**: 数据处理和分析 - **Plotly**: 交互式图表库 - **Matplotlib/Seaborn**: 静态图表支持 - **NumPy**: 数值计算 ### 核心模块 - `DataAnalyzer`: 数据分析核心类 - 文件加载和格式识别 - 列类型自动分析 - 图表生成引擎 - 数据统计分析 ## 📊 使用示例 ### 数据文件要求 - **CSV文件**: 支持多种编码格式 - **Excel文件**: 支持.xlsx和.xls格式 - **数据结构**: 第一行为列名,后续行为数据 ### 图表配置 - **X轴/Y轴**: 根据图表类型选择合适的列 - **颜色分组**: 可选择分类列进行颜色区分 - **交互功能**: 支持缩放、平移、悬停显示等 ## 🎨 界面布局 ### 侧边栏 - 文件上传区域 - 数据加载控制 ### 主界面 - **数据概览**: 显示基本统计信息 - **数据查看**: 原始数据浏览和筛选 - **图表分析**: 交互式图表生成 - **统计分析**: 描述性统计和分析 - **数据处理**: 数据清洗和转换 ## 🔍 高级功能 ### 数据筛选 - 按分类列值筛选数据 - 动态调整显示行数 - 实时预览筛选结果 ### 数据导出 - 导出筛选后的数据 - 自动生成时间戳文件名 - CSV格式下载 ### 数据处理 - 数据类型转换(数值型、文本型、日期型) - 缺失值处理(删除包含缺失值的行) - 列类型自动重新识别 ## 🚨 注意事项 1. **文件大小**: 建议上传文件不超过100MB 2. **内存使用**: 大数据集可能需要较多内存 3. **浏览器兼容**: 推荐使用Chrome、Firefox等现代浏览器 4. **中文支持**: 已配置中文字体,支持中文数据显示 ## 🔄 相比原版本的改进 ### 解决的问题 1. **静态分析限制** → 动态交互式分析 2. **图表切换不便** → 实时图表配置和切换 3. **文件格式单一** → 支持多种文件格式 4. **数据查看受限** → 完整的数据浏览和筛选功能 ### 新增功能 - Web界面交互 - 实时数据筛选 - 多种图表类型 - 数据处理工具 - 统计分析面板 - 数据导出功能 ## 📈 扩展建议 未来可以考虑添加的功能: - 数据库连接支持 - 更多图表类型 - 机器学习模型集成 - 报告生成功能 - 多用户协作 - 数据版本管理