متن کاوی «Text Mining»، فرآیند تبدیل متن بدون ساختار به داده های ساختار یافته برای تجزیه و تحلیل آسان است. متن کاوی از پردازش زبان طبیعی (NLP) استفاده میکند و به ماشینها اجازه میدهد زبان انسان را درک کنند و آن را به طور خودکار پردازش کنند. در این مقاله از مجله پی استور، اصول متن کاوی بررسی میشود، روشها و تکنیکهای مختلف آن را توضیح داده شده و درک نحوه عملکرد آن بیان خواهد شد. در ادامه با کاربردهای اصلی متن کاوی و نحوه استفاده از آن برای خودکارسازی یا اتوماسیون بسیاری از فرآیندهای آشنا خواهید شد.
مقدمه
حجم زیادی از دادههایی که هر روزه تولید میشوند، فرصتهای بسیار مناسبی برای تحلیل و داشتن الگو و استراتژی برای طیف مختلف کسب و کار ها را بوجود آورده است. داده ها به کمک می کند تا بینش هوشمندانه ای در مورد نظرات مردم در مورد یک محصول یا خدمات بوجود آید. به تمام ایدههایی که میتوان از تجزیه و تحلیل ایمیلها، بررسیهای محصول، پستهای رسانههای اجتماعی، بازخورد مشتریان و غیره به دست آورد؛ فکر کرد. از طرفی، معضل نحوه پردازش همه این دادهها وجود دارد و اینجاست که متن کاوی نقش اصلی را ایفا می کند.
متن کاوی چیست؟
متن کاوی یا Text Mining فرآیندی است که در آن اطلاعات مفهومی و الگوهای موجود در متون و مستندات مختلف به دست میآید. در واقع، این فرآیند شامل تحلیل، استخراج و درک اطلاعات موجود در متون نوشتاری، ایمیلها، پستهای رسانههای اجتماعی، نظرات مشتریان و سایر منابع متنی میشود. هدف اصلی از متن کاوی، استخراج دانش و اطلاعات مفید از دادههای متنی است که میتواند برای تصمیمگیریهای هوشمندانه و بهبود فرآیندها و خدمات مورد استفاده قرار گیرد.
شروع کار با متن کاوی
متن کاوی یک فرآیند خودکار است که از پردازش زبان طبیعی برای استخراج اطلاعات مفید از متون بدون ساختار استفاده میکند. این فرآیند با تبدیل دادهها به اطلاعاتی که ماشینها میتوانند درک کنند، متون را بر اساس احساسات، موضوع و هدف دستهبندی میکند.
با استفاده از متن کاوی، کسبوکارها میتوانند به روشی ساده، سریع و موثر، مجموعههای پیچیده و بزرگی از دادهها را تجزیه و تحلیل کنند. این ابزار قدرتمند به سازمانها کمک میکند که برخی از کارهای دستی و تکراری خود را کاهش داده و در عین حال، وقت تیم خود را صرفهجویی کنند. همچنین، مشتریان را قادر میسازد تا تمرکز خود را بر روی آنچه که بهترین انجام میدهند، معطوف کنند.
به طور خلاصه، متن کاوی به شرکتها و سازمانها کمک میکند تا از دادههای خود بهرهوری بیشتری کسب کنند و این اقدام، منجر به تصمیمگیریهای تجاری بهتری مبتنی بر داده میشود. در واقع، متن کاوی از طریق مفهوم یادگیری ماشین به انجام این فرآیند کمک میکند.
یادگیری ماشینی یک زمینه از هوش مصنوعی است که بر روی توسعه الگوریتمهایی تمرکز دارد که کامپیوترها را قادر میسازد تا از طریق نمونههای دادهای وظایف را یاد بگیرند. در این فرآیند، مدلهای یادگیری ماشینی با دادهها آموزش داده میشوند و سپس میتوانند به طور خودکار با سطح مشخصی از دقت پیشبینی کنند. وقتی که متن کاوی و یادگیری ماشینی با هم ترکیب میشوند، تجزیه و تحلیل خودکار متن به سادگی امکانپذیر میشود.
اگر بخواهیم نظرات مشتریان را در موضوعات مختلف مانند قیمتگذاری محصول، نحوه برخورد، یا پشتیبانی دستهبندی کنیم، ابتدا باید مجموعهای از نمونهها را آپلود کرده و آنها را به صورت دستی برچسبگذاری کنیم تا یک مدل طبقهبندی کننده موضوع را آموزش دهیم. سپس با ارائه چندین مثال، مدل یاد میگیرد که موضوعات را تمایز دهد و شروع به ایجاد ارتباط و پیشبینیهای خود کند. برای دستیابی به سطوح خوبی از دقت، باید تعداد زیادی مثال به مدلهای آموزش داده شود تا مشکلاتی که میخواهیم حل کنیم، شناسایی شوند.
حال که مفهوم متن کاوی را فهمیدیم، متوجه میشویم که چگونه این به عنوان یک اصطلاح متفاوت از مفاهیم معمولی مانند تجزیه و تحلیل متن تمایز داده میشود.
تفاوت بین متن کاوی (Text Mining) و تجزیه و تحلیل متن (Text Analysis)
تفاوت بین متن کاوی و تجزیه و تحلیل متن در واقع ممکن است یک موضوع گیجکننده باشد، زیرا معمولاً این دو اصطلاح به طور مترادف استفاده میشوند. با این حال، تفاوت اصلی این است که تجزیه و تحلیل متن معمولاً به دنبال یافتن الگوها و روندها در دادههای متنی است، در حالی که متن کاوی بیشتر به دنبال شناسایی اطلاعات مرتبط و استخراج دانش از متنها است.
متن کاوی از مفاهیم مختلفی از جمله آمار، زبانشناسی و یادگیری ماشین استفاده میکند تا مدلهایی را ایجاد کند که از دادههای آموزشی یاد میگیرند و میتوانند نتایج را بر اساس اطلاعات جدید پیشبینی کنند. به عبارت دیگر، متن کاوی معمولاً به دنبال استخراج اطلاعات کیفی از متنها است.
از سوی دیگر، تجزیه و تحلیل متن از نتایج حاصل از تجزیه و تحلیلهای انجام شده توسط مدلهای متن کاوی برای ایجاد نمودارها و تجسم دادهها استفاده میکند. این بیشتر به دنبال تبدیل دادههای کیفی به نمودارها و جداول برای تجسم و درک آسانتر اطلاعات است.
در نهایت، استفاده از هر روش بستگی به نوع اطلاعات موجود و هدف نهایی تحلیل دادهها دارد، اما معمولاً در بسیاری از موارد از ترکیب هر دو رویکرد استفاده میشود تا نتایج بهتری به دست آید.
روشها و تکنیکهای داده کاوی
روشها و تکنیکهای مختلفی برای متن کاوی وجود دارند. در این قسمت، به برخی از روشها و تکنیکهای رایج خواهیم پرداخت. به طور کلی میتوان این روشها را در دو دسته روشهای پایه و پیشرفته طبقهبندی کرد.
روشهای پایه در داده کاوی (Basic Methods)
روشهای پایه در متن کاوی را میتوان در سه دسته زیر در نظر گرفت.
روش فرکانس کلمه Word frequency
فرکانس کلمه (Word frequency) میتواند برای شناسایی تکراریترین اصطلاحات یا مفاهیم در مجموعهای از دادهها مورد استفاده قرار بگیرد. یافتن بیشترین کلمات ذکر شده در متن بدون ساختار، به ویژه در زمان تجزیه و تحلیل نظرات مشتریان، مکالمات رسانههای اجتماعی یا بازخورد مشتری، مفید است.
به عنوان مثال، اگر کلماتی مانند “گران”, “بیش از حد”, “ارزشگذاری” به طور مکرر در نظرات مشتریان شما ظاهر شود، این میتواند نشان دهد که شما باید قیمتهای خود را تنظیم کنید.
روش باهمگذاری یا همایند Collocation
روش باهمگذاری یا همایند (Collocation) دنبالهای از کلمات است که معمولاً در نزدیکی یکدیگر ظاهر میشوند. دو نوع متداول ترکیبسازی عبارتند از Bigram (که یک جفت کلمه را شامل میشود که احتمالاً با هم ترکیب میشوند، مانند get started
, save time
یا decision making
) و trigrams (که ترکیبی از سه کلمه را شامل میشود، مانند within walking distance
یا keep in touch
). شناسایی ترکیبها و شمارش آنها بهعنوان یک کلمه واحد جزئیات متن را بهبود میبخشد، به درک بهتر ساختار معنایی آن اجازه میدهد و در نهایت به نتایج دقیقتری در متنکاوی منجر میشود.
روش مبتنی بر هماهنگی Concordance
تطابق برای تشخیص بافت یا نمونه خاصی که در آن یک کلمه یا مجموعهای از کلمات ظاهر میشود، استفاده میشود. زبان انسان معمولاً مبهم است و یک کلمه میتواند در زمینههای مختلف استفاده شود. تجزیه و تحلیل مطابقت یک کلمه میتواند به درک معنای دقیق آن بر اساس زمینه کمک کند. به عنوان نمونه، در جدول زیر چند جمله از مجموعه ای از بررسی ها از جمله کلمه “work” استخراج شده است:
Following Context | Target | Preceding Context |
more efficiently | work | Its save time and helps teams |
in one language (English) | work | Some advanced features only |
towards better conversion and retention | work | It enables us to |
with, and they are all happy with the result | work | We recommend this to several of the small businesses we |
روشهای پیشرفته در داده کاوی (Advanced Methods)
در روش های پیشرفته در متن کاوی ما با دو نوع روش دسته بندی متن (Text Classification) و روش استخراج متن (Text Extraction) سر و کار خواهیم داشت که در ادامه به تشریح هر دو روش می پردازیم.
روش دسته بندی متن Text Classification
طبقهبندی متن، فرآیندی است که به وسیله آن دادههای متنی بدون ساختار را به دستههایی با برچسبهای مختلف تقسیم میکند. این عمل یک کار حیاتی برای پردازش زبان طبیعی (NLP) است، زیرا به سازماندهی و ساختاردهی متون پیچیده کمک میکند و آنها را به دادههای قابل تفسیر و قابل استفاده تبدیل میکند.
با استفاده از طبقهبندی متن، سازمانها میتوانند انواع اطلاعات را تحلیل و مورد بررسی قرار دهند و به دادههای ارزشمندی به روشی سریع و کارآمد دست یابند. در ادامه، به برخی از پرکاربردترین وظایف طبقهبندی متن اشاره خواهیم کرد.
- تحلیل موضوع Topic Analysis
تحلیل موضوع به شما کمک میکند تا موضوعات یا مباحث اصلی یک متن را درک کنید و یکی از روشهای اصلی سازماندهی دادههای متنی است. به عنوان مثال در تحلیل داده های ایمیلی، یک مشتری که میگوید سفارش آنلاین من نرسیده است، میتواند به عنوان یکی از مشکلات ارسال دستهبندی شود.
- تحلیل احساسات Sentiment Analysis
شامل تجزیه و تحلیل احساساتی است که پایه متن داده شده را تشکیل میدهند. تحلیل احساسات به شما کمک میکند تا نظر و احساسات موجود در یک متن را درک کنید و آنها را به عنوان مثبت، منفی یا خنثی دستهبندی کنید. تحلیل احساسات در کسب و کار کاربردهای مفیدی دارد. به عنوان مثال، از نظرات مشتریان میتوان به سرعت مشتریان ناراضی را شناسایی کرده و مشکلات آنها را با اولویت بیشتری بررسی کرد.
- تشخیص زبان Language Detection
تشخیص زبان به شما اجازه میدهد تا یک متن را بر اساس زبان آن دستهبندی کنید. یکی از کاربردهای مهم آن، هدایت خودکار است. اتوماسیون این وظیفه بسیار ساده است و به تیمها کمک میکند زمان ارزشمندی را صرفهجویی کنند.
- تشخیص قصد Intent Detection
شما میتوانید از یک طبقهبند متن برای شناسایی قصد یا هدف پشت یک متن به صورت خودکار استفاده کنید. این میتواند به ویژه مفید باشد هنگام تجزیه و تحلیل گفتگوهای مشتری باشد. به عنوان مثال، میتوانید از پاسخهای ایمیلهای فروش خروجی مختلف عبور کنید و مشتریانی که علاقهمند به محصول شما هستند را از کسانی که نیستند، یا کسانی که میخواهند لغو اشتراک کنند، تشخیص دهید.
روش استخراج متن Text Extraction
استخراج متن یا Text Extraction، یک تکنیک تحلیل متن است که بخشهای خاصی از دادهها را از یک متن استخراج میکند، مانند کلمات کلیدی، نام اشخاص یا شرکتها، آدرسها، ایمیلها و غیره. با استفاده از استخراج متن، شرکتها میتوانند از دستهبندی دستی دادههای خود برای استخراج اطلاعات کلیدی جلوگیری کنند.
بیشتر اوقات، مفید است استخراج متن را با دستهبندی متن در یک تحلیل یکسان ترکیب کرد. در ادامه، به برخی از وظایف اصلی استخراج متن اشاره خواهیم کرد.
- استخراج کلمات کلیدی Keyword Extraction
کلمات کلیدی، مهمترین اصطلاحات داخل یک متن هستند که میتوانند برای خلاصه کردن محتوای آن استفاده شوند. استفاده از یک استخراج کننده کلمات کلیدی به شما اجازه میدهد تا دادهها را به منظور جستجوی آنها فهرست کنید، محتوای یک متن را خلاصه کنید یا ابرکلمات (tag clouds) ایجاد کنید، به عنوان مثال.
- تشخیص نام شناختی Named Entity Recognition
به شما اجازه میدهد تا نام شرکتها، سازمانها یا افراد را از یک متن شناسایی و استخراج کنید.
- استخراج ویژگی Feature Extraction
به شما کمک میکند تا ویژگیهای خاصی از یک محصول یا خدمات در مجموعهای از دادهها شناسایی کنید. به عنوان مثال، اگر شما در حال تجزیه و تحلیل توضیحات محصول هستید، به راحتی میتوانید ویژگیهایی مانند رنگ، برند، مدل و غیره را استخراج کنید.
چرا استخراج اطلاعات متنی (Text Mining) اهمیت دارد؟
افراد و سازمانها روزانه مقدار زیادی داده تولید میکنند. آمارها نشان میدهند که تقریباً ۸۰% از دادههای متنی موجود به صورت بدون ساختار است، به این معنی که به صورت پیشفرض سازماندهی نشدهاند، قابل جستجو نیستند و تقریباً غیرمدیریتی هستند. به عبارت دیگر، مفید نیستند.
قابلیت سازماندهی، طبقهبندی و به دست آوردن اطلاعات مرتبط از دادههای خام، یکی از مسائل و چالشهای اصلی برای سازمانها است. استخراج اطلاعات متنی برای انجام این ماموریت حیاتی است.
در زمینه کسب و کار، دادههای متنی بدون ساختار میتواند شامل ایمیلها، پستهای رسانههای اجتماعی، گفتگوها، تیکتهای پشتیبانی، نظرسنجیها و غیره باشد. مرتب کردن این انواع اطلاعات به صورت دستی معمولاً امکان پذیر نیست. نه به دلیل اینکه زمانبر و هزینه بربودن، بلکه به این دلیل که این نوع مرتب سازی ها اصولاً دقیق نیست و امکان مقیاسپذیری ندارد.
استخراج اطلاعات متنی به عنوان یک راهکار قابل اعتماد و کارآمد برای دستیابی به دقت، قابلیت مقیاسپذیری و زمان پاسخ دهی سریع استفاده می شود. در ادامه برخی از مزایای اصلی آن را به تفصیل بررسی میکنیم:
- مقیاس پذیری
با استخراج اطلاعات متنی، امکان تجزیه و تحلیل حجم زیادی از دادهها در چند ثانیه وجود دارد. با اتوماسیون وظایف خاص، شرکتها میتوانند زمان زیادی را که میتواند برای تمرکز بر روی وظایف دیگر استفاده شود، صرفهجویی کنند. این کار منجر به افزایش بهرهوری کسب و کارها میشود.
- تحلیل در زمان واقعی
به لطف استخراج اطلاعات متنی، شرکتها میتوانند موضوعات مهم یا خاص را بهموقع اولویت بندی کنند از جمله تشخیص یک بحران احتمالی و کشف نقاط ضعف محصول یا نقدهای منفی به صورت لحظهای. چرا این امر به این اندازه مهم است؟ زیرا این اجازه را به شرکتها میدهد که اقدامات سریع را انجام دهند.
- معیارهای مداوم
هنگام انجام وظایف تکراری و دستی، افراد احتمالاً متوجه اشتباهات میشوند. آنها همچنین به دشواری با انطباق و تجزیه و تحلیل دادهها به صورت زیرکانه میپردازند. برای مثال، برچسبگذاری. برای اکثر تیمها، اضافه کردن دستهها به ایمیلها یا تیکت های پشتیبانی وظیفهای زمانبر است که اغلب منجر به اشتباهات و ناهمخوانیها میشود. اتوماسیون این وظیفه، نه تنها زمان ارزشمندی را صرفهجویی میکند، بلکه نتایج دقیقتری را فراهم میکند و تضمین میکند که معیار یکنوا در هر تیکت اعمال شود.
چگونگی کارکرد روش استخراج اطلاعات متنی
استخراج اطلاعات متنی یا Text Mining به تحلیل حجم بزرگی از دادههای خام کمک میکند و به دنبال یافتن بینشهای مربوط میگردد. با ترکیب این روش با یادگیری ماشین، میتوان مدلهای تجزیه و تحلیل متنی ایجاد کرد که براساس آموزشهای قبلی، به طبقهبندی یا استخراج اطلاعات خاص میپردازند.
گام اول برای شروع کار با استخراج اطلاعات متنی، جمعآوری دادههایتان است. بگذارید فرض کنیم میخواهید تعاملات با کاربران سازمان یا شرکت خود را تحلیل کنید. اولین چیزی که باید انجام دهید، ایجاد یک سند حاوی این دادهها است.
دادهها میتوانند داخلی (تعاملات از طریق گفتگوها، ایمیلها، نظرسنجیها، صفحههای گسترده، پایگاههای داده و غیره) یا خارجی (اطلاعات از رسانههای اجتماعی، سایتهای بررسی، خبرگزاریها و هر سایت دیگری) باشند.
گام دوم آمادهسازی داده ها است. سیستمهای استخراج اطلاعات متنی از چندین تکنیک پردازش زبان طبیعی (NLP) مانند توکنگذاری (tokenization)، تجزیه و تحلیل (parsing)، لماتیزاسیون (lemmatization)، کاهش اشتقاق (stemming) و حذف کلمات توقف (Stop word) استفاده میکنند تا ورودیهای مدل یادگیری ماشین را ایجاد کنند.
سپس، وقت تجزیه و تحلیل متنی است. در این بخش، توضیح میدهیم که دو روش رایج برای استخراج اطلاعات متنی یعنی طبقهبندی متن و استخراج متن، در واقع چگونه کار میکنند.
طبقهبندی یا کلاس بندی متن Text Classification
طبقهبندی متنی فرآیندی است که بر اساس محتوای آن، برچسبها یا دستهها را به متنها اختصاص میدهد. با تشکیل خودکار طبقهبندی متن، امکان برچسبگذاری یک مجموعه بزرگ از دادههای متنی و به دست آوردن نتایج قابل قبولی در مدت زمان بسیار کوتاه وجود دارد، بدون این که نیاز به انجام آن به صورت دستی و دستکاریهای مربوطه باشد. این کاربردها در حوزههای مختلف، کاربردی و جذاب هستند.
سیستمهای مبتنی بر قوانین Rule-based Systems
این نوع سیستمهای طبقهبندی متنی بر پایه قوانین زبانی استوار هستند. در این سیستمها، توسط قوانین، ارتباطاتی که انسانها بین یک الگوی زبانی خاص و یک برچسب ایجاد کردهاند، مشخص میشوند. پس از اینکه الگوریتم با این قوانین برنامهریزی شود، میتواند به طور خودکار ساختارهای زبانی مختلف را شناسایی کرده و برچسبهای متناظر را اختصاص دهد.
قوانین به طور کلی شامل ارجاعات به الگوهای نحوی، مورفولوژیکی و لغوی هستند. همچنین ممکن است با جنبههای معنایی یا فونولوژیکی مرتبط باشند.
به عنوان مثال، (سیاه | خاکستری | سفید | آبی) → رنگ میتواند یک قانون برای طبقهبندی توصیفات محصولات بر اساس رنگ محصول باشد.
در این مورد، سیستم هرگاه کلمات مذکور را شناسایی کند، برچسب رنگ را اختصاص میدهد.
سیستمهای مبتنی بر یادگیری ماشین Machine Learning-based Systems
سیستمهای طبقهبندی متنی مبتنی بر یادگیری ماشین از دادههای پیشین (نمونهها) یاد میگیرند. برای انجام این کار، آنها باید با مثالهای مربوط به متن (دادههای آموزش) که به درستی برچسبگذاری شدهاند، آموزش داده شوند.
نمونههای آموزش باید سازگار و نماینده باشند تا مدل بتواند پیشبینیهای دقیقی انجام دهد. اما چگونه یک طبقهبند متنی کار میکند؟
ماشینها باید دادههای آموزشی (training data) را به چیزی تبدیل کنند که بتوانند آن را درک کنند؛ در این مورد، بردارها (مجموعههایی از اعداد با دادههای کد شده) استفاده میشود. بردارها ویژگیهای مختلف دادههای موجود را نشان میدهند. یکی از روشهای رایج برای بردارسازی (vectorization)، موسوم به مدل کیسه کلمات (bag of words) است و شامل شمارش اینکه چند بار یک کلمه – از یک مجموعه مشخص از کلمات – در متنی که میخواهید تجزیه و تحلیل کنید، ظاهر شده است.
دادههای متنی تبدیل شده به بردارها، همراه با پیشبینیهای مورد انتظار (برچسبها)، به یک الگوریتم یادگیری ماشین داده می شود و یک مدل طبقهبندی ایجاد میکنند:
سپس، مدل آموزش دیده میتواند ویژگیهای مربوطه یک متن جدید نامشخص را استخراج کرده و پیشبینیهای خود را بر روی اطلاعات جدید انجام دهد:
الگوریتم های یادگیری ماشین
- الگوریتم های خانواده ساده بیز (NB): آنها از قضیه بیز و نظریه احتمال برای پیش بینی برچسب یک متن سود می برند. در این حالت، بردارها اطلاعات را بر اساس احتمال کلمات موجود در یک متن که متعلق به هر یک از تگ های مدل هستند، رمزگذاری می کنند. این روش احتمالی می تواند نتایج دقیقی را در زمانی که داده های آموزشی زیادی وجود ندارد ارائه دهد.
- ماشینهای بردار پشتیبانی (SVM): این الگوریتم بردارهای دادههای برچسبگذاری شده را به دو گروه مختلف طبقهبندی میکند. یکی که شامل بیشتر بردارهایی است که به یک تگ معین تعلق دارند و دیگری با بردارهایی که به آن تگ تعلق ندارند. نتایج این الگوریتم معمولا بهتر از نتایجی است که با Naive Bayes به دست می آورید. با این حال، برای آموزش مدل به قدرت کدگذاری بیشتری نیاز دارد.
- الگوریتم های یادگیری عمیق (Deep learning): شبیه به طرز فکر مغز انسان است. با استفاده از میلیونها مثال آموزشی، آنها نمایشهای بسیار دقیقی از دادهها تولید میکنند و میتوانند سیستمهای مبتنی بر یادگیری ماشینی بسیار دقیق ایجاد کنند.
ارزیابی عملکرد کلاس بندی در متن کاوی
عملکرد یک طبقهبندیکننده متن از طریق پارامترهای مختلفی اندازهگیری میشود: دقت (Accuracy)، صحت (Precision)، فراخوانی (Recall) و امتیاز F1. درک این معیارها به شما این امکان را می دهد که ببینید مدل طبقه بندی کننده شما در تجزیه و تحلیل متون چقدر خوب است.
شما می توانید طبقه بندی کننده خود را بر روی یک مجموعه آزمایشی ثابت – یعنی مجموعه ای از داده هایی که قبلاً برچسب های مورد انتظار را می شناسید – یا با استفاده از اعتبارسنجی متقابل ارزیابی کنید. این فرآیندی است که داده های آموزشی شما را به دو زیر مجموعه تقسیم می کند: بخشی از داده ها برای آموزش و بخشی دیگر برای اهداف آزمایشی استفاده می شود.
این بخش معیارهای مختلف را برای تجزیه و تحلیل عملکرد طبقهبندیکننده متن شما بررسی میکند و نحوه عملکرد اعتبارسنجی را توضیح میدهد:
- دقت یا Accuracy: تعداد پیشبینیهای صحیحی را که طبقهبندیکننده انجام داده است، بر تعداد کل پیشبینیها نشان میدهد. با این حال، دقت به تنهایی همیشه بهترین معیار برای ارزیابی عملکرد یک طبقهبندیکننده نیست. گاهی اوقات، وقتی دستهها نامتعادل هستند (به این معنی که مثالهای بسیار بیشتری برای یک دسته نسبت به سایر دستهها وجود دارد)، ممکن است یک پارادوکس دقت را تجربه کنید: احتمال اینکه مدل پیشبینی خوبی انجام دهد، بیشتر است، زیرا بیشتر دادهها فقط به یک دسته تعلق دارند. از دسته ها هنگامی که این اتفاق می افتد، بهتر است معیارهای دیگری مانند دقت و یادآوری را در نظر بگیرید.
- صحت یا Precision: تعداد پیشبینیهای صحیح انجامشده توسط طبقهبندیکننده را بر روی تعداد کل پیشبینیهای یک برچسب معین (شامل پیشبینیهای درست یا نادرست) ارزیابی میکند. یک متریک با دقت بالا نشان می دهد که موارد مثبت کاذب کمتری وجود داشته است. در نظر گرفتن این نکته مهم است که دقت فقط مواردی را اندازه گیری می کند که طبقه بندی کننده پیش بینی می کند که یک متن به یک برچسب خاص تعلق دارد. برخی از کارها، مانند پاسخهای ایمیل خودکار، به مدلهایی با دقت بالایی نیاز دارند تا فقط زمانی که احتمال درستی پیشبینی وجود دارد، به کاربر پاسخ دهند.
- فراخوانی یا Recall: تعداد متن هایی را نشان می دهد که به درستی پیش بینی شده اند، بیش از تعداد کل که باید با یک برچسب مشخص طبقه بندی می شدند. یک متریک فراخوان بالا به این معنی است که منفی های کاذب کمتری وجود دارد. این معیار به ویژه زمانی مفید است که شما نیاز دارید بلیط های پشتیبانی را به تیم های مناسب هدایت کنید. شما میخواهید تا جایی که ممکن است بلیطها را بهطور خودکار برای یک برچسب خاص (مثلاً مسائل صورتحساب) به قیمت پیشبینی نادرست در طول مسیر هدایت کنید.
- امتیاز F1: پارامترهای دقت و فراخوانی را با هم ترکیب می کند تا به شما ایده دهد که طبقه بندی کننده شما چقدر خوب کار می کند. این معیار شاخص بهتری نسبت به دقت برای درک اینکه چقدر پیشبینیها برای همه دستههای مدل شما خوب است، می دهد.
اعتبار سنجی متقابل Cross-validation
اعتبار سنجی متقابل اغلب برای اندازه گیری عملکرد یک طبقه بندی کننده متن استفاده می شود. این شامل تقسیم داده های آموزشی به زیر مجموعه های مختلف، به روش تصادفی است. به عنوان مثال، شما می توانید ۴ زیر مجموعه از داده های آموزشی داشته باشید که هر کدام شامل ۲۵٪ از داده های اصلی است.
سپس، همه زیر مجموعه ها به جز یکی برای آموزش یک طبقه بندی کننده متن استفاده می شوند. این طبقهبندیکننده متن برای پیشبینی زیرمجموعه باقیمانده دادهها (تست) استفاده میشود. پس از این، تمام معیارهای عملکرد محاسبه میشوند – با مقایسه پیشبینی با تگ از پیش تعریفشده واقعی – و فرآیند دوباره شروع میشود، تا زمانی که همه زیرمجموعههای داده برای آزمایش استفاده شوند.
آخرین مرحله جمعآوری نتایج همه زیرمجموعههای داده برای به دست آوردن میانگین عملکرد هر متریک است.
سخن آخر
متن کاوی یکی از مهمترین فرآیندهای مورد استفاده در علوم داده و هوش مصنوعی است که هدف آن از دادههای متنی استخراج اطلاعات مفید و الگوهای قابل توجهی است. با توجه به حجم بزرگ دادههای متنی که امروزه در دسترس است، متن کاوی به عنوان ابزاری قدرتمند برای تحلیل و استخراج اطلاعات ارزشمند به ویژه در زمینههایی مانند تجارت الکترونیک، شبکههای اجتماعی، پزشکی و سایر حوزههای علمی و صنعتی مورد استفاده قرار میگیرد.
یکی از نیجهگیریهای مهم در مورد متن کاوی، توانایی این روش در شناسایی الگوهای پنهان و رخدادهای غیرمعمول است. با استفاده از الگوریتمها و تکنیکهای متن کاوی، میتوان الگوهایی که به طور معمول ناپدید و یا دشوار به آنها دسترسی داشته باشیم، شناسایی کرده و از آنها استفاده کرد. به عنوان مثال، در حوزه امنیت سایبری، متن کاوی میتواند به تشخیص الگوهای حملات سایبری جدید کمک کند و امکان پیشبینی حملات آتی را فراهم کند. همچنین در زمینه زبانشناسی، متن کاوی میتواند الگوهای نوآورانه در زبانها و فرهنگها را شناسایی کرده و تحلیل کند، که این امر میتواند در فهم بهتر دینامیکهای اجتماعی و فرهنگی به ما کمک کند.