Topic

pdf parsing

Activities

1

tagged

Activity Trend

1 peak/qtr

2020-Q1 2026-Q2

Top Events

[AI Alliance] Workshop: Preparing High Quality Datasets with Data Prep Kit 1

Activities

1 activities · Newest first

All Video Podcast Book

Data Prep Kit Workshop: Clean and Prepare High-Quality Datasets

2025-03-27 · [AI Alliance] Workshop: Preparing High Quality Datasets with Data Prep Kit

workshop

Python data prep kit google colab html parsing

Hands-on workshop on using Data Prep Kit to extract content from PDFs/HTML, clean up data, remove SPAM, score and remove low-quality documents, identify and remove PII data, and detect and remove HAP (Hate Abuse Profanity) speech to improve dataset quality. Code will be run in Google Colab using Python.