GSO ISO 24614-1:2015

مواصفة قياسية خليجية   فعالة

إدارة الموارد اللغوية -- تجزئة النصوص المكتوبة إلى كلمات -- الجزء1: المفاهيم الأساسية والمبادئ العامة

تبني بالمصادقة

يعتمد آخر إصدار للمواصفة القياسية الدولية/الوطنية ويبقى الإصدار الدولي ما قبل الأخير (إذا كان معتمداً) سارياً لمدة سنتين من تاريخ آخر تحديث دولي له

المجال
يقدم هذا الجزء من المواصفة ISO 24614 المفاهيم الأساسية والمبادئ العامة لتجزئة الكلمات، كما يقدم إرشادات مستقلة عن اللغة لتمكين تجزئة النصوص المكتوبة إلى كلمات (WSU) بطريقة موثوق فيها وقابلة للنسخ. ملاحظة1: في الأبحاث والصناعات المرتبطة باللغة، تعد الكلمة مفهومًا أساسيًا وضروريًا؛ ومن ثم، يجب أن يكون هناك تعريفًا شاملاً ليشمل الكلمة، وذلك لغرض تجزئة النص إلى كلمات. فلا يمكن للمرء استخدام القواعد المبنية على المسافات الفاصلة وعلامات الترقيم فقط بسهولة لتحديد الكلمات؛ فهذه القواعد لا تراعي بعض المواقف، مثل الأسماء المركبة والاختصارات والمصطلحات التي تحتوي على رموز أو أعداد. فتجزئة الكلمات تعد أمرًا أكثر صعوبة بالنسبة للغات التي لا تستخدم المسافات الفاصلة، مثل اللغتين الصينية واليابانية، وكذلك الأمر بالنسبة للغات الاشتقاقية، حيث تُدرك بعض فئات الكلمات الوظيفية على أنها مقاطع، مثل اللغة الكورية. تشمل التطبيقات والمجالات المتعددة التي بحاجة إلى تجزئة النصوص إلى كلمات – والتي يمكن أن يطبق عليها هذا الجزء من المواصفة ISO 24514 – ما يلي: الترجمة: عدد الكلمات هو الطريقة الأساسية لحساب تكلفة الترجمة، لذا تأتي تجزئة الكلمات باعتبارها الوظيفة المعيارية في أنظمة ذاكرة الترجمة وأدوات الترجمة بمساعدة الحاسوب (CAT)؛ حيث يتم تجزئة الكلمات من خلال أدوات استخلاص المصطلحات التي أحيانًا ما يتم تقديمها في أنظمة إدارة المصطلحات وأدوات الترجمة بمساعدة الحاسوب. إدارة المحتوى: تُتيح أغلبية أنظمة إدارة وقواعد بيانات المحتوى البحث من خلال الكلمات الفردية، حيث يتم تجزئة المحتوى الذي يتم بحثه لكي يُتيح المقارنة بكلمات البحث؛ علاوة على ذلك تطلب وظائف البحث معرفة حدود الكلمات. تقنيات النطق تعمل أنظمة تحويل النصوص إلى كلام منطوق (text-to-speech) على إصدار النطق بناءً على الكلمات؛ ومن ثم، تتطلب هذه الأنظمة تجزئة الكلمات للبحث عنها في المعجم وتعيين المقاطع المشددة وتعيين النموذج العروضي، إلخ. اللغويات الحسابية يجب أن تقوم أنظمة معالجة اللغة الطبيعية (NLP) بتجزئة النص إلى كلمات تنفيذًا لوظائفها؛ حيث تشمل أنظمة NLP ما يلي: - المعالجات النحوية الشكل. - المعرب النحوي. - برنامج الكشف عن الأخطاء الإملائية. - أنظمة تصنيف النص. - مفسر لسانيات المدونات اللغوية. صناعة المعاجم غالبًا يتم تقييم الموارد المعجمية بناءً على الحجم، وعادة يكون بالإشارة إلى عدد الكلمات. ملاحظة 2: يعد حجم الموارد اللغوية معيارًا أساسيًا على إدارة هذه الموارد، حيث يتم تعيين حجم الموارد اللغوية من خلال عدد الكلمات؛ إلا أنه بسبب استخدام تطبيقات NLP لطرق مختلفة التجزئة، فكل طريقة تعمل على حساب عدد الكلمات بشكلٍ مختلف، ومن ثم تصل إلى عدد مختلف من الكلمات لنفس النص. لذا، فوجود مقياس معياري موثوق به يسمح بالتوصل إلى نتائج قابلة للمقارنة، وهذا لا يعني ألا يستخدم كل تطبيق الطريقة الخاصة به لتجزئة الكلمات؛ على سبيل المثال، قد تقوم التطبيقات الخاص بالنطق الاصطناعي على تجزئة النص إلى وحدت أصغر أو وحدات أكبر حجمًا مقارنة بتطبيق آخر.
تبني بالمصادقة
ISO 24614-1:2010
21 ديسمبر 2015
الكتابة والترجمة
*مجموعة المحارف المشفرة المستخدمة في تبادل البيانات أنظر 35.040

الملفات

الإنجليزية
15 صفحات
 
 

الأكثر مبيعاً في قطاع المعلومات

GSO ISO 16175-2:2013
ISO 16175-2:2011 
مواصفة قياسية خليجية
المعلومات والتوثيق- المبادئ والمتطلبات الوظيفية للسجلات في بيئات المكاتب الإلكترونية- الجزء 2: المبادئ التوجيهية والمتطلبات الوظيفية للأنظمة الرقمية لإدارة السجلات
GSO ISO 18513:2016
ISO 18513:2003 
مواصفة قياسية خليجية
الخدمات السياحية -- الفنادق وغيرها من أنواع الإقامة السياحية -- المصطلحات

اعتمدت مؤخراً في قطاع المعلومات

GSO IEC 62656-1:2017
IEC 62656-1:2014 
مواصفة قياسية خليجية
تسجيل ونقل التوصيف المعياري للمنتج باستخدام جداول البيانات - الجزء 1: البنية المنطقية لحزم البيانات
GSO ISO/IEC 10536-3:2017
ISO/IEC 10536-3:1996 
مواصفة قياسية خليجية
بطاقات الهوية -- بطاقات الدارات المتكاملة بدون تلامس -- الجزء 3: الإشارات الإلكترونية وإعادة الإجراءات
GSO ISO/IEC 10641:2017
ISO/IEC 10641:1993 
مواصفة قياسية خليجية
تكنولوجيا المعلومات -- الرسوميات الحاسوبية ومعالجة الصور -- اختبار توافق تطبيقات مواصفات الرسوميات
GSO ISO/IEC 10732:2017
ISO/IEC 10732:1993 
مواصفة قياسية خليجية
تكنولوجيا المعلومات -- استخدام بروتوكول طبقة حزمة X.25 لتوفير اتصال وضع خدمة شبكة ترابط الأنظمة المفتوحة عبر الشبكة الهاتفية