Нормчилал нь илүүдэл өгөгдлийг арилгахад ашиглагддаг бөгөөд кластер хийх алгоритмын үр ашгийг дээшлүүлэх сайн чанарын кластеруудыг бий болгоход тусалдаг. Тиймээс энэ нь Евклидийн зай болгон кластер хийхээс өмнөх чухал алхам болно. ялгааны өөрчлөлтөд маш мэдрэмтгий байдаг[3].
Бид K-тэдгээрийн кластерын өгөгдлийг хэвийн болгох шаардлагатай юу?
k-NN аргын нэгэн адил кластер хийхэд ашигласан шинж чанаруудыг харьцуулах нэгжээр хэмжих ёстой. Энэ тохиолдолд бүх 6 шинж чанарыг 5 онооны хэмжүүрээр илэрхийлдэг тул нэгж нь асуудал биш юм. Хэвийн болгох эсвэл стандартчилах шаардлагагүй.
Та кластер хийхээсээ өмнө өгөгдлийг хэрхэн бэлддэг вэ?
Мэдээллийн бэлтгэл
R-д кластерийн шинжилгээ хийхийн тулд ерөнхийдөө өгөгдлийг дараах байдлаар бэлтгэнэ: Мөр нь ажиглалт (хувь хүн), багана нь хувьсагч юм. Өгөгдөл дэх дутуу утгыг арилгах эсвэл тооцоолох шаардлагатай. Хувьсагчдыг харьцуулах боломжтой болгохын тулд өгөгдлийг стандартчилах (жишээ нь, масштабтай) байх ёстой.
Өгөгдлийг кластер болгохын тулд масштабтай болгох шаардлагатай юу?
Кластер хийхдээ та эдгээр жишээнүүдийн бүх функцийн өгөгдлийг нэгтгэн тоон утга болгон хоёр жишээний ижил төстэй байдлыг тооцоолно. Онцлогын өгөгдлийг нэгтгэхийн тулд өгөгдөл ижил масштабтай байхыг шаарддаг.
Бүлэглэхийн өмнө онцлогуудыг хэвийн болгох нь яагаад чухал вэ?
Стандартчилал нь өгөгдлийн чухал алхам юмурьдчилсан боловсруулалт.
Энэ баримт бичигт тайлбарласны дагуу k-тэмдэглэл нь Ньютоны алгоритм, өөрөөр хэлбэл градиент дээр суурилсан оновчлолын алгоритмыг ашиглан алдааны функцийг багасгадаг. Өгөгдлийг хэвийн болгох нь ийм алгоритмуудын нэгдлийг сайжруулдаг.