How to detect bad data in your instruction tuning dataset (for better LLM fine-tuning)

Company

Cleanlab

Date Published

Feb. 7, 2024

Author

Jimming He, Sanjana Garg, Jonas Mueller

Word count

2278

Language

English

Hacker News points

None

URL

cleanlab.ai/blog/filter-llm-tuning-data

Summary

Cleanlab Studio is a tool that detects and flags problematic data in instruction tuning datasets for language models, helping to improve their performance by removing or correcting low-quality examples. The platform uses its Trustworthy Language Model (TLM) to analyze responses and provide confidence scores, identifying issues such as factual inaccuracies, context-based inaccuracies, incomplete/vague prompts, spelling errors, toxic language, personally identifiable information (PII), informal language, and non-English text. By automating this process, Cleanlab Studio enables users to quickly identify and address data quality issues, ultimately leading to better-performing fine-tuned LLMs.