Package Exports

ultra-parquet-converter
ultra-parquet-converter/src/index.js

This package does not declare an exports field, so the exports above have been automatically detected and optimized by JSPM instead. If any package subpath is missing, it is recommended to post an issue to the original package (ultra-parquet-converter) to support the "exports" field. If that is not possible, create a JSPM override to customize the exports field for this package.

Readme

🚀 Ultra Parquet Converter v1.1.0

Conversor profesional de archivos a formato Parquet con streaming, auto-reparación y soporte para 19 formatos.

Combina la velocidad de Node.js con el poder de Python + Apache Arrow para conversiones ultra-rápidas, procesamiento de archivos gigantes sin explotar memoria, y reparación automática de datos corruptos.

✨ Características Principales

🎯 Core Features

🔍 Auto-detección inteligente - Por extensión Y contenido
⚡ Ultra-rápido - Apache Arrow + Pandas optimizado
🌊 Streaming mode - Procesa archivos de 1GB, 5GB, 20GB+ sin explotar memoria
🔧 Auto-reparación - Corrige CSVs corruptos, elimina columnas vacías
📊 Auto-normalización - Normaliza nombres, detecta tipos automáticamente
🌐 Multiplataforma - Windows, Linux, macOS
🐍 Python flexible - Detecta py, python, python3 automáticamente

💎 Advanced Features (v1.1.0)

🔄 Procesamiento por chunks - 100,000 filas por vez
🛠️ Modo batch avanzado - Convierte cientos de archivos
📈 Benchmarking integrado - Mide velocidad, throughput, memoria
🔍 Análisis de archivos - Inspecciona estructura sin convertir
✅ Validación Parquet - Verifica integridad
📦 Compresión Snappy - 50-90% reducción de tamaño
🎨 CLI hermoso - Colores, spinners, estadísticas detalladas

📋 Formatos Soportados (19 total)

Archivos Delimitados

Formato	Extensiones	Uso Común	Auto-detección
CSV	`.csv`	Archivos estándar	✅ Sí
TSV	`.tsv`	Datos tabulares, exports	✅ Sí
PSV	`.psv`	Bases de datos Unix	✅ Sí
DSV	`.dsv`, `.txt`, `.log`	Delimitador desconocido	✅ Sí

Hojas de Cálculo

Formato	Extensiones	Uso Común	Auto-detección
Excel	`.xlsx`, `.xls`	Microsoft Excel	✅ Sí

Formatos Estructurados

Formato	Extensiones	Uso Común	Auto-detección
JSON	`.json`	APIs, configuraciones	✅ Sí
NDJSON	`.ndjson`, `.jsonl`	JSON Lines, streaming	✅ Sí
XML	`.xml`	Documentos estructurados	✅ Sí
YAML	`.yaml`, `.yml`	Configuraciones	✅ Sí
HTML	`.html`	Tablas web	✅ Sí

Formatos Big Data

Formato	Extensiones	Uso Común	Auto-detección
Feather	`.feather`, `.arrow`	Apache Arrow	✅ Sí (magic bytes)
ORC	`.orc`	Optimized Row Columnar	✅ Sí (magic bytes)
Avro	`.avro`	Apache Avro	✅ Sí (magic bytes)

Bases de Datos

Formato	Extensiones	Uso Común	Auto-detección
SQLite	`.sqlite`, `.db`	Bases de datos SQLite	✅ Sí (magic bytes)

Formatos Estadísticos

Formato	Extensiones	Uso Común	Auto-detección
SPSS	`.sav`	IBM SPSS Statistics	❌ Por extensión
SAS	`.sas7bdat`	SAS datasets	❌ Por extensión
Stata	`.dta`	Stata data files	❌ Por extensión

🆕 Novedad v1.1.0: +10 formatos nuevos (HTML, YAML, NDJSON, Feather, ORC, Avro, SQLite, SPSS, SAS, Stata)

🔧 Instalación

Requisitos Previos

Node.js

# Verificar instalación
node --version  # Requiere v18.0.0 o superior

Python

# Verificar instalación (cualquiera de estos)
py --version       # Windows (Python Launcher)
python --version   # Windows/Linux
python3 --version  # Linux/macOS

# Debe ser Python 3.8 o superior

Instalar Paquete NPM

# Global (recomendado)
npm install -g ultra-parquet-converter

# O local en tu proyecto
npm install ultra-parquet-converter

Instalar Dependencias Python

# Opción 1: Automático (recomendado)
ultra-parquet-converter setup

# Opción 2: Manual
pip install -r node_modules/ultra-parquet-converter/python/requirements.txt

# En algunos sistemas:
pip3 install pandas pyarrow numpy openpyxl lxml pyyaml fastavro pyreadstat

🚀 Uso Rápido

Como CLI

# Conversión simple
ultra-parquet-converter convert archivo.csv

# Con opciones
ultra-parquet-converter convert data.json -o salida.parquet --streaming -v

# Múltiples archivos
ultra-parquet-converter batch "*.csv" -o converted/

# Ver ayuda
ultra-parquet-converter --help

Como Librería JavaScript

const { convertToParquet } = require('ultra-parquet-converter');

// Conversión simple
await convertToParquet('datos.csv');

// Con opciones avanzadas
const result = await convertToParquet('huge_file.csv', {
  output: 'output.parquet',
  streaming: true,      // Para archivos grandes
  verbose: true,
  autoRepair: true,     // Corregir datos automáticamente
  autoNormalize: true   // Normalizar columnas
});

console.log(`${result.rows} filas → ${result.compression_ratio}% compresión`);

📚 Guía Completa CLI

Comando: `convert` - Conversión Individual

Convierte un archivo a formato Parquet.

ultra-parquet-converter convert <archivo> [opciones]
# Alias: ultra-parquet-converter c <archivo>

Opciones:

-o, --output <file> - Archivo de salida personalizado
-v, --verbose - Modo detallado con logs
--streaming - Modo streaming para archivos >100MB
--no-repair - Desactivar auto-reparación
--no-normalize - Desactivar auto-normalización
--benchmark - Mostrar métricas de performance
--compression <type> - Tipo de compresión (snappy, gzip, brotli, none)

Ejemplos:

# Básico
ultra-parquet-converter convert ventas.csv

# Con salida personalizada
ultra-parquet-converter convert datos.json -o analytics/data.parquet

# Archivo grande con streaming
ultra-parquet-converter convert huge_log.csv --streaming -v

# Con benchmark
ultra-parquet-converter convert test.csv --benchmark

# Sin auto-reparación
ultra-parquet-converter convert raw_data.csv --no-repair --no-normalize

Salida ejemplo:

🔄 Ultra Parquet Converter v1.1.0

✓ Python instalado (comando: py)
✓ Conversión exitosa!

📊 Resultados:

   Archivo origen:  ventas.csv
   Archivo destino: ventas.parquet
   Tipo detectado:  CSV
   Filas:           125,430
   Columnas:        18
   Tamaño original: 25.4 MB
   Tamaño Parquet:  4.2 MB
   Compresión:      83.5%
   Tiempo:          2.34s

⚡ Benchmark:

   Velocidad:       53,590 filas/s
   Throughput:      10.85 MB/s

Comando: `batch` - Conversión Masiva

Convierte múltiples archivos usando patrones glob.

ultra-parquet-converter batch <patrón> [opciones]
# Alias: ultra-parquet-converter b <patrón>

Opciones:

-o, --output-dir <dir> - Directorio de salida (default: ./output)
-v, --verbose - Modo verbose
--streaming - Activar streaming para todos los archivos

Ejemplos:

# Todos los CSV del directorio actual
ultra-parquet-converter batch "*.csv"

# Archivos en subdirectorio
ultra-parquet-converter batch "data/*.json" -o converted/

# Con streaming y verbose
ultra-parquet-converter batch "logs/*.log" --streaming -v

# Múltiples extensiones (requiere shell expansion)
ultra-parquet-converter batch "data/*.{csv,json,xlsx}"

Salida ejemplo:

📦 Ultra Parquet Converter - Modo Batch v1.1.0

Archivos encontrados: 12

✓ ventas_2024.csv → 82% compresión
✓ ventas_2025.csv → 85% compresión
✓ productos.csv → 91% compresión
✓ clientes.csv → 78% compresión
...

📊 Resumen del Batch:

   ✅ Exitosos:         12
   ❌ Fallidos:         0
   📁 Total filas:      1,245,890
   💾 Espacio ahorrado: 156.8 MB
   ⏱️  Tiempo total:     28.45s
   ⚡ Velocidad media:  43,789 filas/s

Comando: `analyze` - Analizar Archivos

Inspecciona la estructura de un archivo sin convertirlo.

ultra-parquet-converter analyze <archivo>
# Alias: ultra-parquet-converter a <archivo>

Ejemplos:

# Analizar CSV
ultra-parquet-converter analyze datos.csv

# Analizar base de datos
ultra-parquet-converter analyze database.sqlite

# Analizar archivo desconocido
ultra-parquet-converter analyze mystery_file.dat

Salida ejemplo:

🔍 Análisis de Archivo

✓ Análisis completado

📋 Información General:

   Nombre:          datos.csv
   Tipo detectado:  CSV
   Tamaño:          25.4 MB
   Filas:           125,430
   Columnas:        18

📊 Schema:

   id                   int64
   nombre               string
   fecha                datetime
   precio               float64
   cantidad             int32

Comando: `benchmark` - Medir Performance

Realiza pruebas de rendimiento con múltiples iteraciones.

ultra-parquet-converter benchmark <archivo> [opciones]

Opciones:

--iterations <n> - Número de iteraciones (default: 3)
--streaming - Probar con streaming activado

Ejemplos:

# Benchmark básico
ultra-parquet-converter benchmark test.csv

# Con 5 iteraciones
ultra-parquet-converter benchmark large.csv --iterations 5

# Probar streaming
ultra-parquet-converter benchmark huge.csv --streaming

Salida ejemplo:

⚡ Benchmark de Conversión

Archivo: test.csv
Iteraciones: 3

✓ Iteración 1: 2.34s
✓ Iteración 2: 2.28s
✓ Iteración 3: 2.31s

📊 Resultados:

   Filas procesadas:    125,430
   Tiempo promedio:     2.31s
   Tiempo mínimo:       2.28s
   Tiempo máximo:       2.34s
   Velocidad promedio:  54,285 filas/s
   Throughput:          10.99 MB/s

Comando: `info` - Información de Archivo

Muestra metadatos del archivo sin procesarlo.

ultra-parquet-converter info <archivo>
# Alias: ultra-parquet-converter i <archivo>

Ejemplo:

ultra-parquet-converter info datos.csv

Salida:

📋 Información del Archivo

   Nombre:      datos.csv
   Ruta:        C:\Users\...\datos.csv
   Extensión:   .csv
   Tamaño:      25.4 MB
   Creado:      06/11/2025
   Modificado:  25/11/2025

Comando: `validate` - Validar Parquet

Verifica la integridad de un archivo Parquet.

ultra-parquet-converter validate <archivo.parquet>

Ejemplo:

ultra-parquet-converter validate output.parquet

Salida si es válido:

✓ Validación de Parquet

✅ Archivo Parquet válido

📊 Información:

   Filas:       125,430
   Columnas:    18
   Compresión:  SNAPPY
   Versión:     2.6

Comando: `setup` - Instalar Dependencias

Instala las dependencias Python necesarias.

ultra-parquet-converter setup

💻 API JavaScript Detallada