استخراج اطلاعات مکانی-زمانی از متن سایت باستان شناسی چینی

متن محوطه باستان شناسی حامل اصلی داده های باستان شناسی در حال حاضر است که حاوی اطلاعات غنی است. چگونگی استخراج کارآمد دانش مفید از متون عظیم سایت باستان شناسی بدون ساختار، برای استخراج و استفاده مجدد از اطلاعات باستان شناسی اهمیت زیادی دارد. با توجه به اطلاعات سایت (مانند نام، مکان، نوع فرهنگی، سلسله، و غیره) ثبت شده در متن سایت باستان شناسی چینی، این مقاله تکنیک های یادگیری عمیق و پردازش زبان طبیعی را برای مطالعه روش استخراج اطلاعات برای به دست آوردن خودکار فضایی ترکیب می کند. اطلاعات زمانی سایت ها ساخت اولیه مجموعه متن سایت باستان شناسی چینی برای اولین بار تکمیل شد، و پیکره به مدل شناسایی موجودیت حافظه کوتاه مدت دو جهته با میدان های تصادفی شرطی (BiLSTM-CRF) و مدل استخراج رابطه واحدهای بازگشتی دردار دو طرفه با توجه دوگانه (BiGRU-توجه دوگانه) برای آموزش وارد می شود. مقادیر F1 مدل BiLSTM-CRF و مدل BiGRU-Dual Attention در مجموعه آزمایشی به ترتیب به ۸۷٫۸۷% و ۸۸٫۰۵% می رسد. این مطالعه نشان می‌دهد که روش استخراج اطلاعات ارائه‌شده در این مقاله برای متون سایت باستان‌شناسی چینی امکان‌پذیر است، که باعث ایجاد نمودارهای دانش در باستان‌شناسی می‌شود و روش‌ها و ایده‌های جدیدی را برای توسعه فناوری اطلاعات کاوی در باستان‌شناسی ارائه می‌دهد.

کلید واژه ها:

سایت باستان شناسی ; متن باستان شناسی چینی ; استخراج اطلاعات ؛ یادگیری عمیق

۱٫ مقدمه

محوطه‌های باستان‌شناسی بقایای فعالیت‌های انسان باستانی هستند که حاوی اطلاعات انسانی و اجتماعی غنی و قانون پیشرفت تمدن هستند. متون محوطه باستانی به متون توصیف کننده اطلاعات محوطه های باستانی اشاره دارد که حامل مهمی از اطلاعات ویژگی سایت است. به طور رسمی، اغلب به صورت مجزا در قالب‌های مختلف ثبت می‌شود، برای مثال، گزارش‌های کاوش‌های باستان‌شناسی، جلسات توجیهی کاوش‌های باستان‌شناسی و فرهنگ‌های باستان‌شناسی و مدخل‌های دایره‌المعارفی به شیوه‌ای بدون ساختار. از نظر کمیت، با پیشرفت مداوم در کار باستان شناسی، داده های متنی در باستان شناسی در حال افزایش است و اطلاعات بیشتر و بیشتری در مورد سایت های باستان شناسی در حال انباشته شدن است. از نظر محتوا، درجه جزئیات در انواع مختلف متون سایت باستان شناسی متفاوت است، اما همه آنها اطلاعات اولیه سایت را توصیف می کنند (از جمله نام، مکان، سلسله، نوع فرهنگی و سایر عناصر کلیدی)، که یک کانون داده مهم برای تحقیق و تجزیه و تحلیل باستان شناسی است. . به عنوان یک قاعده، محتوای متون سایت باستان شناسی در درجه اول شامل دو دیدگاه است: زمان و مکان. همانطور که باستان شناس اسکاولدینگ در کتاب منتشر شده خود در سال ۱۹۶۰ گفت: “به طور خلاصه، باستان شناسی علمی است که بر شکل، زمان و توزیع مکانی بقایای باستانی تمرکز می کند.” محتوای متون محوطه باستان شناسی در درجه اول شامل دو دیدگاه است: زمان و مکان. همانطور که باستان شناس اسکاولدینگ در کتاب منتشر شده خود در سال ۱۹۶۰ گفت: “به طور خلاصه، باستان شناسی علمی است که بر شکل، زمان و توزیع مکانی بقایای باستانی تمرکز می کند.” محتوای متون محوطه باستان شناسی در درجه اول شامل دو دیدگاه است: زمان و مکان. همانطور که باستان شناس اسکاولدینگ در کتاب منتشر شده خود در سال ۱۹۶۰ گفت: “به طور خلاصه، باستان شناسی علمی است که بر شکل، زمان و توزیع مکانی بقایای باستانی تمرکز می کند.”۱ ]. برای باستان شناسی، زمان و مکان از ویژگی های اساسی همزیستی با فرم بقایای بقایا هستند [ ۲]. مطالب متقابل موجود در متون مختلف محوطه باستان شناسی که در بالا ذکر شد، شرح اطلاعات ضروری مکانی-زمانی در مورد سایت است. در متون باستان شناسی، اطلاعات زمانی، تصویری از دوره تاریخی محوطه است که ممکن است به عنوان یک یا چند سلسله یا برخی از انواع فرهنگی که محوطه به آن تعلق دارد، توصیف شود. چنین توصیف‌هایی از زمان یکسان نیستند و ممکن است دقیق یا مبهم باشند، بنابراین تعیین دوره بقایای از متن محوطه باستان‌شناسی یک وظیفه حیاتی و اساسی است. اطلاعات مکانی موقعیت جغرافیایی سایت ممکن است به صراحت به عنوان یک مختصات شناسایی شده، نام منطقه اداری یا حتی یک مکان نسبی مبهم توصیف شود. بنابراین انتظار می رود که در استخراج اطلاعات به طور یکسان شناسایی، تفسیر و بیان شود.
متون محوطه باستانی مبنای تحقیقات محوطه باستانی است که حاوی اطلاعات و ارزش تحقیقاتی غنی است. بنابراین، به منظور تحقق بهره‌برداری مؤثر از متون محوطه باستان‌شناسی، ادغام و استفاده از اطلاعات سایت‌های باستان‌شناسی و استخراج دانش کلیدی و ارزشمند باستان‌شناسی بسیار حیاتی است. روش سنتی شناسایی دستی برای به دست آوردن اطلاعات سایت از اسناد حجیم وقت گیر و ناکارآمد است و نتایج ساختاری داده ها ممکن است به دلیل سطوح ناهماهنگ کارکنان مختلف متفاوت باشد که برای استخراج اطلاعات از متون انبوه سایت غیر قابل اجرا است. تا به امروز، این مشکل در ادبیات تحقیقاتی توجه کمی داشته است، بنابراین مطالعات کمی وجود دارد که متون محوطه باستانی را مورد تحقیق قرار داده باشد. از این رو، چگونگی استخراج اطلاعات یکپارچه سایت از تعداد زیادی متون پراکنده، مفصل یا مختصر بدون ساختار سایت باستان شناسی، نکته اصلی تحقق دیجیتالی شدن و استفاده جامع از متون سایت باستان شناسی است. در سال های اخیر، با پیشرفت روزافزون فناوری هوش مصنوعی، روش های استخراج اطلاعات و کاربردهای زبان طبیعی پیشرفت زیادی داشته است. به گفته کاوی، استخراج اطلاعات را می‌توان به صورت زیر تعریف کرد: «استخراج اطلاعات (IE) نامی است که به هر فرآیندی داده می‌شود که به طور انتخابی داده‌هایی را که در یک یا چند متن یافت می‌شوند، صریحاً بیان یا ضمنی می‌سازد و ترکیب می‌کند». متون دقیق یا مختصر بدون ساختار محوطه باستان شناسی محور تحقق دیجیتالی شدن و استفاده همه جانبه از متون محوطه باستان شناسی است. در سال های اخیر، با پیشرفت روزافزون فناوری هوش مصنوعی، روش های استخراج اطلاعات و کاربردهای زبان طبیعی پیشرفت زیادی داشته است. به گفته کاوی، استخراج اطلاعات را می‌توان به صورت زیر تعریف کرد: «استخراج اطلاعات (IE) نامی است که به هر فرآیندی داده می‌شود که به طور انتخابی داده‌هایی را که در یک یا چند متن یافت می‌شوند، صریحاً بیان یا ضمنی می‌سازد و ترکیب می‌کند». متون دقیق یا مختصر بدون ساختار محوطه باستان شناسی محور تحقق دیجیتالی شدن و استفاده همه جانبه از متون محوطه باستان شناسی است. در سال های اخیر، با پیشرفت روزافزون فناوری هوش مصنوعی، روش های استخراج اطلاعات و کاربردهای زبان طبیعی پیشرفت زیادی داشته است. به گفته کاوی، استخراج اطلاعات را می‌توان به صورت زیر تعریف کرد: «استخراج اطلاعات (IE) نامی است که به هر فرآیندی داده می‌شود که به طور انتخابی داده‌هایی را که در یک یا چند متن یافت می‌شوند، صریحاً بیان یا ضمنی می‌سازد و ترکیب می‌کند».۳ ]. مجموعه تحقیقات موجود در مورد استخراج اطلاعات نشان می دهد که این فناوری معنادار و امیدوارکننده است. با تجزیه و تحلیل تحقیقات موجود در زمینه استخراج اطلاعات متن باستان‌شناسی، مشاهده می‌شود که این مطالعات اساساً بر پیکره انگلیسی متمرکز شده‌اند، در حالی که مطالعات چینی عموماً مبتنی بر قوانین است که قابلیت حمل و نقل ضعیف و هزینه اجرای بالایی دارد. تحقیق در مورد استخراج اطلاعات چینی در متون سایت باستان شناسی، که با مشکلاتی مانند حاشیه نویسی پیکره و تقسیم بندی کلمات چینی محدود شده است. در عین حال، کمبودهایی در این مطالعات وجود دارد، مانند منابع داده های منحصر به فرد، فرآیندهای ساخت و ساز پراکنده و غیره.
تحت این مبنا، این مقاله بر استخراج اطلاعات مکانی-زمانی از متون سایت باستان شناسی تمرکز دارد. آزمایش استخراج اطلاعات عمدتاً به دو بخش تقسیم می‌شود: شناسایی موجودیت و استخراج رابطه. هدف اصلی آنها شناسایی موجودیت ها از متون و استخراج روابط معنایی بین موجودیت ها است. برای یک جمله ورودی معین، شناسایی موجودیت شامل تقسیم بندی موجودیت و نوع موجودیت می شود. هدف استخراج رابطه شناسایی روابط معنایی بین جفت موجودیت متقارن از متون سایت باستان شناسی بدون ساختار و بیان آنها بر اساس شکل ساختار یافته یک سه گانه (e1, r, e2) است که در آن e1 و e2 نمایانگر نهاد اول و موجودیت دوم هستند. به ترتیب، و r نشان دهنده نوع رابطه بین آنها است. سرانجام، اطلاعات زمانی و مکانی سایت نیز در این فرم ارائه خواهد شد. در پردازش زبان طبیعی سنتی، شناسایی موجودیت و استخراج رابطه دو وظیفه مستقل هستند. مدل تشخیص موجودیت در این مقاله، با نام حافظه کوتاه مدت دو جهته با زمینه های تصادفی شرطی (BiLSTM-CRF)، محتوای برنامه را در پردازش زبان طبیعی ترکیب می کند.۴ ] و برخی تحقیقات را در مورد پیش پردازش داده ها و تجزیه و تحلیل داده ها انجام می دهد. از طریق استفاده از مدل BiLSTM-CRF، می تواند به طور موثر اطلاعات زمینه را به خاطر بسپارد و رابطه وابستگی بین برچسب های مجاور را به دست آورد تا نتایج بهینه برچسب گذاری یک موجود باستان شناسی را به دست آورد. در تکلیف استخراج رابطه، مدل واحدهای بازگشتی دردار دوطرفه با توجه دوگانه (BiGRU-Dual Attention) که در این مطالعه اتخاذ شده است، یک روش ترکیبی بر اساس مطالعات قبلی است [ ۵ ، ۶ ]]. برای وظیفه استخراج روابط چینی، کلمات چینی، به عنوان اساسی ترین واحد در زبان چینی، حاوی مقدار زیادی اطلاعات معنایی مهم است. بنابراین، اطلاعات سطح کلمه در نمونه های آموزشی چینی برای استخراج روابط چینی بسیار مهم است. با اثر بهینه سازی خوب، معرفی مکانیزم توجه می تواند به طور کامل اطلاعات زمینه متون باستان شناسی را استخراج کند تا اثر استخراج را تقویت کند. مکانیسم توجه سطح کلمه و مکانیسم توجه سطح جمله در مدل می تواند وزن را بهتر تخصیص دهد، نویز را حذف کند و دقت تشخیص استخراج رابطه موجودیت را بهبود بخشد. با بهره‌گیری از یک شبکه عصبی، مدل توجه دوگانه BiGRU می‌تواند مشکلات دقت پایین و پایداری ضعیف مدل‌های استخراج رابطه سنتی را حل کند.
به طور خلاصه، هدف خاص این مطالعه شناسایی سریع و خودکار و به دست آوردن اطلاعات هدف از حجم زیادی از متون سایت باستان شناسی بدون ساختار با استفاده از فناوری جدید بود، در نتیجه زمان پیش پردازش استخراج اطلاعات باستان شناسی را تا حد زیادی کاهش داد. علاوه بر این، داده‌های این مطالعه از چندین حامل تا حد امکان جامع جمع‌آوری شد که ایده‌ها و روش‌های جدیدی را برای مطالعه اطلاعات مکانی-زمانی سایت‌های باستان‌شناسی ارائه می‌دهد. استخراج اطلاعات از متن سایت باستان شناسی کمک مهمی به ذخیره، مدیریت، استفاده و به اشتراک گذاری دانش باستان شناسی می کند و ارزش متن سایت باستان شناسی را به حداکثر می رساند.

۲٫ کارهای مرتبط

همانطور که در بالا اشاره شد، استخراج اطلاعات فناوری کلیدی استخراج خودکار اطلاعات از متون سایت باستان شناسی است. در اوایل دهه ۱۹۶۰، تحقیق در مورد فناوری استخراج اطلاعات مطرح شد، و این تکنیک به دستیابی سریع اطلاعات هدف از متون بی‌ساختار فراوان قدرت می‌دهد و استفاده بیشتر از اطلاعات را به همراه می‌آورد. روش‌های استخراج اطلاعات عموماً شامل روش‌های مبتنی بر قانون، مبتنی بر آمار و مبتنی بر یادگیری عمیق است [ ۷ ]. سیستم نمونه LaSIE-II (استخراج اطلاعات در مقیاس بزرگ) به قوانین معنایی برای تحقق استخراج اطلاعات وابسته است [ ۸ ]]. با این حال، این روش مبتنی بر قانون محدودیت‌های خاص خود را دارد، مانند فرآیند ساخت قوانین به صورت دستی پیچیده و جهانی بودن ضعیف. در نتیجه تحقیقات بعدی به تدریج به روشی مبتنی بر آمار روی آورد. در مطالعه ای که توسط چمبرز انجام شد، نشان داده شد که الگوریتم یادگیری آماری می تواند قوانین را از متون ساده بیاموزد و کار استخراج اطلاعات را بدون اطلاع از ساختار الگو انجام دهد [ ۹ ]]. در مطالعات بعدی، محققان دریافتند که یک روش مبتنی بر آمار نسبت به روش قبلی قابل اجراتر است، اما هزینه کار و زمان بسیار بالا است زیرا علاوه بر این به حاشیه نویسی دستی با دانش حرفه ای نیاز دارد. اخیراً، مدل‌های شبکه عصبی مبتنی بر یادگیری عمیق می‌توانند به طور خودکار اطلاعات ویژگی را از تعداد زیادی متون بدست آورند که پشتیبانی مستقیم از تکنیک‌های استخراج اطلاعات را فراهم می‌کند. مدل مبتنی بر یادگیری عمیق بسیار بهتر از روش‌های مرسوم در کارایی و دقت عمل می‌کند و متعاقباً به طور گسترده به کار گرفته شد و به تدریج جریان اصلی در وظایف استخراج اطلاعات را اشغال کرد. چندین مطالعه در مورد استخراج اطلاعات مبتنی بر یادگیری عمیق، نتایج مثمر ثمری را به همراه داشته است. کیو و همکاران۱۰ ]. ژانگ و همکاران دوره ساختار یافته اطلاعات موجودات زمین شناسی را با استفاده از یک شبکه عصبی عمیق اجرا کرد [ ۱۱ ]. ژائو مکانیسم توجه را با لایه برچسب‌گذاری و فیلتر در مدل واحدهای بازگشتی دردار دوطرفه (Bi-GRU) ترکیب کرد، که به طور قابل‌توجهی بر استخراج رابطه متن نیاز در صنعت نرم‌افزار تأثیر می‌گذارد [ ۱۲ ]. از وضعیت فعلی تحقیقات، شبکه‌های عصبی و روش‌های CRF به استانداردی تبدیل شده‌اند که برخی از بهترین گزینه‌ها را برای روش‌های استخراج اطلاعات نشان می‌دهد.
حوزه کاربرد استخراج اطلاعات با توسعه فناوری آن به تدریج گسترش یافته است. تحقیقات اولیه عمدتاً بر مطالعه وظایف استخراج اطلاعات متنی در حوزه‌های همه منظوره، مانند تشخیص نام افراد و نام سازمان‌ها [ ۱۳ ، ۱۴ ] متمرکز بود. بر اساس بهینه‌سازی ثابت در حوزه عمومی در طول سال‌ها، توسعه استخراج اطلاعات از متون را به سمت زمینه‌های بیشتری از جمله پزشکی، ارتش، کشاورزی و غیره ارتقا داده است [ ۱۵ ، ۱۶ ، ۱۷ ].]. به طور همزمان، استخراج اطلاعات نیز به سمت مرحله بالاتری مانند استخراج رابطه، استخراج رویداد و سایر وظایف پیچیده تر توسعه یافته است.۱۸ ، ۱۹ ]. امروزه مشاهده می شود که فناوری استخراج اطلاعات در تاریخ و علوم انسانی نیز مورد کاوش و کاربرد قرار گرفته است. به عنوان مثال، Sprugnoli یک روش عصبی با حاشیه نویسی دستی را پیشنهاد کرد که در تشخیص نام مکان متون گردشگری تاریخی انگلیسی استفاده شد [ ۲۰ ]. علاوه بر این، پترسون و همکاران. ابزار آنلاینی به نام HistSearch را ارائه کرد که می تواند به طور مؤثر اطلاعات مفیدی را از متون تاریخی در مدت کوتاهی استخراج کند [ ۲۱ ]]. بر اساس مطالعه بر روی گزارش های باستان شناسی انگلیسی در مرحله قبل، Vlachidis و همکاران. سیستم شناسایی موجودیت نامگذاری شده از اسناد خاکستری باستان شناسی هلندی را توسعه داد که توانست به حاشیه نویسی معنایی گزارش های باستان شناسی دست یابد و به طور خودکار ابرداده تولید کند [۲۲ ]. با استناد به ادبیات و کدهای موجود، بیشتر برای مجموعه انگلیسی هستند و معمولاً از وکتورهای کلمه برای آموزش استفاده می کنند.
مطالعه استخراج اطلاعات متن چینی عمدتاً به شناسایی موجودیت نام‌گذاری شده در مرحله اولیه توجه داشت. پس از آن، به تدریج به وظایف مربوط به رابطه و استخراج رویداد گسترش یافت. در این میان، حوزه استخراج اطلاعات به تدریج به دامنه وسیع تری گسترش یافت. از نظر داده کاوی متون باستان شناسی چینی، نسبتاً دیر شروع شده است، در حالی که نتایج تحقیقاتی نیز به دست آمده است. به عنوان مثال، ژانگ از دانش دامنه برای استخراج داده ها از متون باستان شناسی استفاده کرد [ ۲۳]. با این حال، یادگیری الگوهای متنی کافی برای این روش مبتنی بر الگو دشوار است و با تعداد زیادی توالی کلمات بی معنی مخلوط می شود. برای کاری که این روش را اتخاذ می کند، معمولاً باید با تأیید و فیلتر پیچیده ترکیب شود. لو پیشنهاد یک پلت فرم طراحی خلاقانه برای آثار فرهنگی کوره چانگشا را ارائه کرد و ویژگی های متنی عناصر بقایای فرهنگی کوره چانگشا را با استفاده از مدل BiLSTM-CRF استخراج کرد [ ۲۴ ].]. در نتیجه، به ساخت پایگاه دانش فرهنگی کوره چانگشا دست یافت. این پلتفرم بر اساس فناوری یادگیری عمیق، طراحی مجدد عناصر بقایای فرهنگی را محقق کرد که توسعه یکپارچه فرهنگ و فناوری را ارتقا داد. ژانگ با ترکیب تقسیم‌بندی کلمات چینی با شناسایی موجودیت، به طور موثر استخراج اطلاعات از داده‌های متن باستان‌شناسی را درک کرد [ ۲۵ ]. با این حال، او فقط آزمایش هایی را روی داده های سایت Liangzhu انجام داد که فاقد محبوبیت و جهانی بود. از طریق استفاده از فناوری استخراج اطلاعات، لیو مدل BiLSTM-CRF را برای شناسایی موجودیت هایی مانند نام شخص، نام مکان و زمان در بیست و چهار تاریخ اتخاذ کرد [ ۲۶ ]]. پس از آن، او گراف دانش را ساخت و دانش استخراج شده را از طریق پایگاه داده گراف neo4j ذخیره کرد، که تابع بازیابی معنایی را محقق کرد. با این حال، در هنگام آموزش مدل‌های تحلیل نحوی وابسته، هنوز به کار دستی زیادی نیاز دارد که در طبقه‌بندی جملات منفرد و پیچیده وجود دارد، که باعث می‌شود ساخت مدل فاقد اتوماسیون کافی باشد. در مجموع، این مطالعات نشان می‌دهد که فناوری استخراج اطلاعات مبتنی بر یادگیری عمیق در زمینه متون سایت باستان‌شناسی چینی مورد مطالعه قرار گرفته است، اما مطالعات کمی توانسته‌اند از تحقیقات سیستماتیک در کل فرآیند استفاده کنند. در همین حال، چنین مطالعاتی در کانون توجه محدود باقی می مانند و تنها به یک موضوع خاص بدون کلیت می پردازند. علاوه بر این، یادگیری عمیق در حال حاضر روش اصلی است و دستاوردهای آن قابل توجه بوده است.
به طور خلاصه، مطالعه استخراج اطلاعات چندین دهه از تشخیص الگو تا یادگیری ماشینی تا یادگیری عمیق، از حوزه عمومی تا حوزه حرفه ای، از متن استاندارد معمولی تا متن معمولی را طی کرده است و دستاوردهای آن قابل توجه است. بر اساس تجزیه و تحلیل فوق، تحقیق در مورد استخراج اطلاعات در باستان شناسی چینی که توسط شناسایی موجودیت نامگذاری شده و استخراج روابط ارائه شده است، پیشرفت زیادی داشته است، اما هنوز هم فضای گسترده ای برای بهبود در فناوری و روش ها دارد. اولاً، در مقایسه با زمینه عمومی، متون باستان شناسی از نظر منابع غنی هستند، اما اطلاعات موجود پیچیده است. تعداد زیادی نهاد اختصاصی در زمینه باستان شناسی وجود دارد و شناسایی آنها دشوار است. بنابراین تحقیق استخراج اطلاعات بر اثربخشی و اتوماسیون آن متمرکز است. علاوه بر این، متون باستان‌شناسی به دلیل نحو پیچیده و توزیع متراکم جفت‌های موجود با روابط همپوشانی فراوان، الزامات بالاتری را برای دقت استخراج رابطه مطرح می‌کنند. بنابراین، با توجه به پیچیدگی و ویژگی دامنه بالای متون باستان‌شناسی چینی، این مقاله از روش‌های پردازش زبان طبیعی و یادگیری عمیق برای مطالعه شناخت موجودیت و استخراج رابطه در متون سایت باستان‌شناسی چینی استفاده می‌کند. علاوه بر این، امید است که این روش بتواند پردازش داده‌های متنی چند منبعی را محقق کند، استقرار از مجموعه به نمودار دانش را تکمیل کند و تبدیل از داده‌های غیرساخت‌یافته به ساختاریافته را واقعاً کامل کند. با توجه به نیازهای عملی باستان شناسی، شناسایی موجودیت نام‌گذاری شده توسط مدل BiLSTM-CRF انجام می‌شود و استخراج رابطه موجودیت توسط مدل BiGRU-Dual Attention تکمیل می‌شود. در نهایت، روش‌ها و تکنیک‌های قابل استفاده برای متون محوطه باستان‌شناسی به صورت تجربی مورد آزمایش قرار گرفتند و مدل استخراج اطلاعات برای متن سایت باستان‌شناسی ساخته شد. مطالعه فوق روش جدیدی را برای کسب اطلاعات در باستان شناسی ارائه می دهد که دارای ارزش تحقیقاتی مهم و اهمیت کاربردی برای ارتقاء اطلاعات باستان شناسی است. و مدل استخراج اطلاعات برای متن سایت باستان شناسی ساخته شد. مطالعه فوق روش جدیدی را برای کسب اطلاعات در باستان شناسی ارائه می دهد که دارای ارزش تحقیقاتی مهم و اهمیت کاربردی برای ارتقاء اطلاعات باستان شناسی است. و مدل استخراج اطلاعات برای متن سایت باستان شناسی ساخته شد. مطالعه فوق روش جدیدی را برای کسب اطلاعات در باستان شناسی ارائه می دهد که دارای ارزش تحقیقاتی مهم و اهمیت کاربردی برای ارتقاء اطلاعات باستان شناسی است.

۳٫ مواد و روشها

۳٫۱٫ داده ها

باستان شناسی چینی دارای مجموعه بی نظیری از مواد ارزشمند است. متون سایت باستان شناسی وسیله اولیه برای ارائه نتایج و تبادلات آکادمیک در باستان شناسی هستند و کمیت آن با توسعه حرفه باستان شناسی چینی به سرعت افزایش یافته است. با این حال، هیچ مجموعه ای در دسترس عموم در زمینه باستان شناسی چینی وجود ندارد. متعاقباً، با در نظر گرفتن متون سایت باستان‌شناسی چینی به عنوان منبع داده‌های تحقیق، این مقاله ۶۲۵ مدخل بایدو بایک از سایت‌ها [ ۲۷ ]، ۳۰۰ گزارش کاوش‌های باستان‌شناسی از CNKI [ ۲۸ ]، و ۲۳۲۵ مدخل از فرهنگ لغت باستان‌شناسی چینی اصلی را جمع‌آوری و سازمان‌دهی می‌کند. داده [ ۲۹]. در پی تنظیم و جمع‌بندی این داده‌ها، مجموعه متنی از سایت‌های باستان‌شناسی چینی ساختیم. در طول زمان صرف شده برای تحقیق، مشاهده کردیم که داده های متنی در باستان شناسی در مقایسه با داده های متنی در سایر زمینه ها ویژگی های خاص خود را دارند. از نظر شکل متنی، اولاً، نام‌های مناسبی وجود دارد که کمتر در سایر متون چینی دیده می‌شوند، مانند «鬶» (پارچ با سه پایه)، «盉» (رگ گرد با دهانه بسته)، «甗’ (ظروف سفالی) و غیره ثانیاً به دلیل روشهای مختلف کاوش در مؤسسات باستان شناسی منطقه ای، حجم کار و شرایط کار متفاوت است. به طور همزمان، ضبط کننده های مختلف باستان شناسی سبک های ضبط متفاوتی دارند. با توجه به این ویژگی ها، ما باید بر روی روش های استخراج اطلاعات مناسب برای پردازش آنها تمرکز کنیم.
اطلاعات زمانی و مکانی برای تحقیقات باستان شناسی ارزش زیادی دارد. تا آنجا که به ویژگی‌های زمانی مربوط می‌شود، هر محوطه باستان‌شناسی دوره خاص خود را دارد، اما خود محوطه‌ها (به‌ویژه مکان‌های ماقبل تاریخ) اغلب فاقد شناسایی زمانی مشخص هستند، بنابراین سال اکثر محوطه‌ها را نمی‌توان دقیقاً تعیین کرد. در چارچوب گاهشماری باستان شناسی کنونی، عبارات گاهشماری باستان شناسی عموماً شامل سن مطلق و سن نسبی است. با توجه به تجزیه و تحلیل به موقع در متن سایت‌های باستان‌شناسی چینی، مشاهده می‌شود که ترجیح داده می‌شود اطلاعات زمانی به روش سن نسبی ثبت شود (مانند عصر پارینه سنگی، عصر نوسنگی و سلسله ژو غربی و غیره). علاوه بر این، متن سایت نیز از فرهنگ باستان شناسی (مانند فرهنگ یانگ شائو، فرهنگ هنگشان و غیره) به عنوان مهر زمانی برای ثبت قدمت سایت. فرهنگ باستان‌شناسی به مکان‌های فرهنگی متعلق به یک دوره اطلاق می‌شود که در یک منطقه پراکنده شده و دارای مجموعه‌ای از آثار و بقایای فرهنگی مشخص هستند. در پرتو این، چارچوب فضا-زمان اساسی و روشی برای ساختن روایت های تاریخی از باستان شناسی ایجاد کرده است. در نتیجه، این پژوهش به استخراج نوع فرهنگی در متون به عنوان اطلاعات زمانی سایت ها می پردازد. از نظر ویژگی مکانی، شناسایی موقعیت جغرافیایی در متون سایت است. از ترسیم اطلاعات مکانی می توان آن را به دو دسته توصیف دقیق و توصیف فازی تقسیم کرد. در توضیحات دقیق، مختصات جغرافیایی سایت در متن ثبت شده است. که به صورت مستقیم به عنوان اطلاعات مکانی سایت قابل استخراج است. در توصیف فازی، از زبان طبیعی برای توصیف موقعیت مکانی استفاده می‌کند که عمدتاً شامل نام مناطق اداری است. این نوع اطلاعات فضایی دارای یک سلسله مراتب اداری و روابط فرعی است و معمولاً برای روستا دقیق است. با توجه به تحلیل فوق از متون باستان شناسی چینی، این مطالعه با ادغام سن نسبی و نوع فرهنگی در متون، اطلاعات زمانی محوطه را تعیین می کند. در این میان نام مکان اداری به عنوان اطلاعات مکانی محوطه باستانی استخراج می شود. روش خاص به شرح زیر است. عمدتاً شامل نام مناطق اداری است. این نوع اطلاعات فضایی دارای یک سلسله مراتب اداری و روابط فرعی است و معمولاً برای روستا دقیق است. با توجه به تحلیل فوق از متون باستان شناسی چینی، این مطالعه با ادغام سن نسبی و نوع فرهنگی در متون، اطلاعات زمانی محوطه را تعیین می کند. در این میان نام مکان اداری به عنوان اطلاعات مکانی محوطه باستانی استخراج می شود. روش خاص به شرح زیر است. عمدتاً شامل نام مناطق اداری است. این نوع اطلاعات فضایی دارای یک سلسله مراتب اداری و روابط فرعی است و معمولاً برای روستا دقیق است. با توجه به تحلیل فوق از متون باستان شناسی چینی، این مطالعه با ادغام سن نسبی و نوع فرهنگی در متون، اطلاعات زمانی محوطه را تعیین می کند. در این میان نام مکان اداری به عنوان اطلاعات مکانی محوطه باستانی استخراج می شود. روش خاص به شرح زیر است. این مطالعه با ادغام سن نسبی و نوع فرهنگی در متون، اطلاعات زمانی سایت را تعیین می کند. در این میان نام مکان اداری به عنوان اطلاعات مکانی محوطه باستانی استخراج می شود. روش خاص به شرح زیر است. این مطالعه با ادغام سن نسبی و نوع فرهنگی در متون، اطلاعات زمانی سایت را تعیین می کند. در این میان نام مکان اداری به عنوان اطلاعات مکانی محوطه باستانی استخراج می شود. روش خاص به شرح زیر است.

۳٫۲٫ روش شناسی

از نظر روش‌شناسی، فناوری استخراج اطلاعات برای استخراج اطلاعات خاص از داده‌های متنی عظیم باستان‌شناسی اتخاذ می‌شود. متون بدون ساختار پردازش شده و به اطلاعات ساختاریافته تبدیل می شوند. با توجه به مدل استخراج اطلاعات برای متن سایت باستان‌شناسی در این مطالعه، عمدتاً BiLSTM-CRF، به نام مدل شناسایی موجودیت، و مدل استخراج رابطه توجه دوگانه BiGRU را پوشش می‌دهد. آموزش مدل شناسایی موجودیت نامگذاری شده به مقدار زیادی از داده های حاشیه نویسی نیاز دارد. از آنجایی که داده های تجربی نمی توانند از پایگاه داده حاشیه نویسی عمومی در اینترنت استفاده کنند، حاشیه نویسی متن سایت باستان شناسی با YEDDA تکمیل می شود [ ۳۰]. پس از انجام تکالیف پاکسازی داده ها مانند حذف نمادهای استثنایی و URL های بیهوده و حفظ علائم نگارشی مهم، داده های متنی به صورت دستی حاشیه نویسی می شوند. با توجه به تحلیل فوق از متون باستان شناسی، ابتدا به تعریف نهاد باستان شناسی پرداختیم. ما کلمات یا عبارات با اهمیت توصیفی در مورد سایت مانند نام سایت، نوع فرهنگی، موقعیت جغرافیایی و سلسله تاریخی را در متن به عنوان موجودیت باستان شناسی انتخاب می کنیم، زیرا همه آنها مطالبی با معنای خاص در زمینه باستان شناسی هستند. استراتژی BIO برای حاشیه نویسی داده ها استفاده می شود. در فرآیند برچسب‌گذاری، کاراکتر حداقل واحد برچسب‌گذاری است. BIO نشان دهنده رده و موقعیت موجودیت باستان شناسی است، B به رئیس نهاد، I نشان دهنده موقعیت میانی موجودیت به جز رئیس است، O نشان می دهد که این کاراکتر به هیچ دسته موجودیتی تعلق ندارد و X به دسته موجودیت اشاره دارد. با توجه به این استراتژی، هر کاراکتر می تواند به عنوان “BX”، “IX” یا “O” علامت گذاری شود. برچسب های مربوط به چهار دسته از موجودیت ها در متن سایت باستان شناسی در نشان داده شده استجدول ۱ .
با توجه به ارتباط بین چهار موجود باستان شناسی فوق، ما چهار رابطه باستان شناسی را تعریف کرده ایم که عبارتند از: فرهنگ محوطه، موقعیت مکانی، سلسله محوطه و هیچ. در فرآیند انجام آزمایش های استخراج اطلاعات، در درجه اول به دو بخش تقسیم می شود. در ابتدا، متن باستان شناسی جمله به جمله در مدل شناسایی موجودیت نامگذاری شده وارد می شود. مدل آموزش‌دیده می‌تواند موجودیت‌های باستان‌شناختی مقوله‌های از پیش تعیین‌شده را شناسایی کند و جملات حاوی موجودیت‌ها را خروجی دهد. سپس، نتیجه فوق به مدل استخراج رابطه وارد می شود، که در نهایت سه گانه رابطه موجودیت (e1, r, e2) را به دست می آورد که به عنوان «سه گانه SPO (موضوع، محمول، مفعول)» نیز شناخته می شود. به عنوان مثال، نمایش استخراج اطلاعات در متن سایت باستان شناسی در نشان داده شده استشکل ۱ .
شناسایی موجودیت نامگذاری شده یک وظیفه ضروری برای استخراج اطلاعات است. این به شناسایی موجودیت های هدف در متن و طبقه بندی آنها به عنوان معیارهای از پیش تعریف شده اشاره دارد. در این آزمایش، مدل BiLSTM-CRF برای شناسایی موجودیت نام‌گذاری شده در متون سایت باستان‌شناسی چینی استفاده می‌شود که یک تفکر و روش جدید برای شناسایی موجودیت در زمینه باستان‌شناسی چینی ارائه می‌دهد. استخراج رابطه موجودیت به این معنی است که پس از شناخت موجودیت های حیاتی در یک جمله، روابط معنایی موجود بین موجودیت ها مشخص می شود. در نتیجه، در پرتو شناخت موجودیت، این مقاله یک مدل توجه دوگانه BiGRU برای متون سایت باستان‌شناسی می‌سازد. این مدل از BiGRU برای یادگیری اطلاعات متنی کلمات استفاده می‌کند تا ویژگی‌های دقیق‌تری را به دست آورد. از طریق مکانیسم توجه در سطح کلمه می توان وزن کلماتی را که برای طبقه بندی رابطه قطعی هستند افزایش داد. به طور همزمان، با استفاده از مکانیسم توجه در سطح جمله، می‌توانیم ویژگی‌های بیشتر جملات را بیاموزیم و وزن جملات پر سر و صدا را کاهش دهیم، در نتیجه به طور موثر مشکل برچسب‌گذاری نادرست را حل کرده و اثر طبقه‌بندی کننده را بهبود می‌بخشیم. روند کلی روش این مقاله در نشان داده شده استشکل ۲ .

۳٫۲٫۱٫ مدل شناسایی موجودیت با نام BiLSTM-CRF

LSTM نوعی شبکه عصبی بازگشتی (RNN) برای مدل‌سازی داده‌های سری زمانی متنی است. BiLSTM یک LSTM دو طرفه است که از یک LSTM رو به جلو و یک LSTM عقب تشکیل شده است. با این حال، BiLSTM فقط می تواند رابطه بین دنباله متن و تگ را پیش بینی کند و نمی تواند رابطه بین برچسب ها را پیش بینی کند، بنابراین به ماتریس انتقال در CRF نیاز دارد. در تقابل با LSTM، CRF می‌تواند حالت‌های پنهان را مدل‌سازی کند و ویژگی‌های دنباله‌های حالت را بیاموزد، اما نیاز به استخراج دستی ویژگی‌های دنباله دارد. بنابراین، مدل BiLSTM-CRF برای به دست آوردن نقاط مثبت هر دو مرجع قبلی ساخته شده است.
مدل BiLSTM-CRF ساخته شده برای شناسایی موجودیت های باستان شناسی نامگذاری شده شامل چهار لایه است: لایه ورودی، لایه جاسازی، لایه BiLSTM و لایه CRF. ساختار خاص مدل شناسایی موجودیت در شکل ۳ نشان داده شده است .
لایه اول لایه ورودی است که متن سایت باستان شناسی چینی را به صورت کلمات به عنوان ورودی اولیه می گیرد و جمله ای حاوی n کلمه به صورت یادداشت می شود. ، شامل یک فرهنگ لغت، که در آن شناسه i -امین کلمه جمله در فرهنگ لغت است و بعد اندازه فرهنگ لغت است که تعداد کلمات است.
لایه دوم لایه embedding است که از طریق ابزار word2vec تبدیل داده های متنی به ماتریس های برداری قابل پردازش توسط کامپیوتر را انجام می دهد. هر کلمه با استفاده از یک ماتریس تصادفی اولیه در این لایه به یک بردار کلمه نگاشت می شود. برای یک دنباله متن معین از سایت‌های باستان‌شناسی بدون ساختار، کلمه بردار به دست آمده است.
در لایه BiLSTM که از دو لایه LSTM تشکیل شده است، ویژگی‌های معنایی جلو و عقب با توجه به ورودی کلمه برداری در هر مرحله زمانی استخراج می‌شوند. به دلیل تفاوت در ترتیب ترتیب پردازش برداری، دو لایه LSTM به ترتیب مثبت به لایه جلو و به ترتیب معکوس به لایه عقب تقسیم می شوند. لایه پنهان جلو وظیفه استخراج خصوصیات هر کلمه در متن و به دست آوردن حالت مخفی خروجی را بر عهده دارد. از هر کلمه لایه پنهان عقب مسئول استخراج ویژگی معکوس و حالت پنهان خروجی است به دست آمده است. شکل ۳ روند انتشار به جلو و عقب و مسیر را از طریق جهت فلش نشان می دهد. در همان زمان، شبکه BiLSTM امتیازهای پیش‌بینی برچسب‌ها را به لایه CRF خروجی می‌دهد، یعنی: . هر بعد از را می توان به عنوان امتیاز طبقه بندی کلمه در نظر گرفت به برچسب j- ام.

لایه چهارم لایه CRF است که رابطه بین کلمات جلو و عقب را برای کنترل ترتیب خروجی حاشیه نویسی در نظر می گیرد. با فرض اینکه جمله ورودی W یک دنباله تگ پیش بینی به دست می آورد ، امتیاز پیش بینی به صورت زیر تعریف می شود:

جایی که احتمال این است که خروجی BiLSTM موقعیت i -ام باشد ، و احتمال انتقال از است به . امتیاز کل دنباله مجموع امتیازات هر موقعیت است. امتیاز هر موقعیت به طور مشترک توسط و ماتریس انتقال A از CRF. نمره از تمام توالی های حاشیه نویسی ممکن y از W توسط الگوریتم Viterbi به دست می آید و پس از آن، تمام امتیازات توسط تابع softmax نرمال می شوند. در نهایت احتمال دنباله y به صورت زیر بدست می آید:

در حین آموزش مدل، برای دنباله ورودی جمله X ، تابع ضرر تنظیم شده است تا لگاریتم احتمال دنباله نشانه گذاری واقعی هدف Y را بگیرد. برای به حداکثر رساندن احتمال مربوط به دنباله نشانگر واقعی، استراتژی گرفتن یک مقدار منفی و سپس به حداقل رساندن آن اتخاذ می‌شود و الگوریتم نزول گرادیان برای حل پارامترها معرفی می‌شود. تابع حداکثر کردن log درستنمایی به شرح زیر است:

در فرآیند پیش‌بینی، امتیازهای S مربوط به تمام توالی‌های y ممکن توسط پارامترهای آموزش‌دیده شده محاسبه می‌شوند و از الگوریتم Viterbi برای حل مسیر بهینه استفاده می‌شود. نتیجه پیش بینی شده به صورت ثبت می شود :

۳٫۲٫۲٫ مدل استخراج رابطه توجه دوگانه BiGRU
GRU گونه ای از LSTM است که بر اساس LSTM ساده شده است. از آنجایی که GRU یک جهته ارتباط بین متون را نادیده می گیرد، BIGRU برای انجام این ارتباط در این مطالعه استفاده می شود. علاوه بر این، این مقاله مکانیسم توجه دوگانه در سطح کلمه و جمله را معرفی می‌کند که می‌تواند تداخل نویز را بهتر از بین ببرد و دقت را در مقایسه با مکانیسم توجه تک لایه بهبود بخشد. مدل BiGRU-Dual Attention به شش قسمت تقسیم می شود. ساختار مدل در شکل ۴ نشان داده شده است .

برای شروع، نمونه آموزش ورودی به دنباله برداری کلمه تبدیل می شود از طریق لایه جاسازی سپس، GRU برای ادغام اطلاعات زمینه استفاده می شود. در مقایسه با شبکه یک طرفه GRU، BiGRU یک لایه مخفی دیگر اضافه می کند که دنباله متن را در جهت جلو و عقب به مدل وارد می کند و حالت های لایه پنهان را در هر دو جهت به لایه خروجی متصل می کند. در این زمان، خروجی شبکه مربوط به نویسه چینی i- امین است:

جایی که خروجی لایه فوروارد شبکه GRU با کلمه برداری است به عنوان ورودی، خروجی لایه معکوس است و ⊕ نشان دهنده اضافه شدن عنصر به عنصر است. برای کلمه ماتریس برداری خروجی توسط شبکه BiGRU، که در آن T تعداد کاراکترهای چینی موجود در نمونه رابطه است.

وکتور هر کلمه با معرفی وزن توجه در سطح کلمه وزن می شود :

که در آن V بردار نتیجه محاسبه شده است و می توان با تابع softmax محاسبه کرد:

جایی که پارامتر مورد استفاده برای آموزش در مدل است که در فرآیند آموزش به دست می آید.

مکانیسم توجه در سطح جمله خروجی لایه مکانیسم توجه کلمه را به عنوان ورودی می گیرد. با محاسبه درجه تطابق بین هر جمله حاوی جفت موجودیت و رابطه پیش بینی شده، ماتریس وزن سطح جمله ساخته می شود و در نهایت بردار بیانگر جمله به دست می آید. جریان الگوریتم خاص به شرح زیر است:

که در آن S بردار خروجی لایه مکانیسم توجه در سطح جمله است و وزن هر بردار جمله است . کارکرد نشان دهنده درجه تطابق بین هر جمله است و رابطه پیش بینی r ، و A ماتریس قطری وزن است.

سپس، احتمال شرطی رابطه پیش بینی از طریق تابع softmax محاسبه می شود:

که در آن R ماتریسی است که از همه بردارهای رابطه تشکیل شده است و b بردار افست است. در نهایت، از تابع argmax برای به دست آوردن رابطه پیش بینی نهایی استفاده می شود:

بر اساس تنسورفلو، این مقاله مدل استخراج رابطه را در پرتو مکانیسم توجه دوگانه درک می‌کند، از آنتروپی متقاطع به عنوان تابع از دست دادن در طول تمرین استفاده می‌کند و منظم‌سازی L2 را برای محدود کردن اندازه پارامترها برای کاهش مشکل اضافه برازش در فرآیند تمرین ترکیب می‌کند. محاسبه تابع ضرر به صورت زیر است:

جایی که تمام پارامترهای مدل را نشان می دهد، m تعداد مجموعه های نمونه را نشان می دهد. برچسب رابطه واقعی است و ضریب تنظیم L2 است. سپس تابع ضرر توسط الگوریتم آدام به حداقل می رسد تا آموزش و به روز رسانی پایدار پارامترها در مدل محقق شود. علاوه بر این، برای جلوگیری از برازش بیش از حد، حذف به لایه BiGRU اضافه می شود.

۴٫ نتایج تجربی

۴٫۱٫ راه اندازی آزمایشی

همانطور که در بخش ۳٫۲ اشاره شد ، این مطالعه چهار موجودیت باستان شناسی شامل نام سایت، نوع فرهنگی، موقعیت جغرافیایی و سلسله های تاریخی را شناسایی کرده است. سپس، آزمایش شناسایی موجودیت نام‌گذاری شده با پیکره برچسب‌گذاری شده دستی بالا انجام می‌شود. در مجموع ۲۱۸۰۰ پیکره از متون ۸۰۰ سایت به عنوان مجموعه آزمایشی آزمایش شناسایی موجودیت نامگذاری شده انتخاب شد. از این میان ۸۰ درصد برای پیکره آموزشی، ۱۰ درصد برای پیکره تأیید و ۱۰ درصد برای پیکره آزمون استفاده می شود. آمار موجودیت ها در مجموعه داده ها در جدول ۲ نشان داده شده است.
تا آنجا که وظیفه شناسایی موجودیت نام‌گذاری شده متن سایت باستان‌شناسی، آزمایش‌ها بر اساس چارچوب یادگیری عمیق Pytorch انجام شد و تنظیمات پارامتر مدل در آموزش در جدول ۳ نشان داده شده است.
بر اساس شناخت موجودیت، استخراج رابطه موجودیت های باستان شناسی انجام می شود. برای استخراج رابطه موجودیت در زمینه متون باستان شناسی، ۸۱۲۰ پیکره از نتایج شناسایی موجودیت انتخاب شده است که ۸۰ درصد به عنوان پیکره های آموزشی، ۱۰ درصد به عنوان پیکره های تأیید و ۱۰ درصد به عنوان پیکره های آزمایشی انتخاب شده اند. روابط موجود درگیر به چهار دسته تقسیم می شود که شامل فرهنگ سایت، موقعیت مکانی سایت، سلسله سایت و هیچ کدام است. آمار روابط موجود در مجموعه داده ها در جدول ۴ نشان داده شده است.
در این مقاله، مدل توجه دوگانه BiGRU برای متون باستان شناسی بر اساس چارچوب یادگیری عمیق تنسورفلو ساخته شده است و تنظیمات پارامترهای مدل در آموزش در جدول ۵ نشان داده شده است.

ارزیابی یک کار ضروری در زمینه‌های یادگیری ماشین، پردازش زبان طبیعی، بازیابی اطلاعات و غیره است و معیارهای ارزیابی معمولاً به شرح زیر است: دقت، یادآوری و مقدار F1. بنابراین، مدل استخراج اطلاعات برای متون محوطه باستان‌شناسی در این مطالعه از مقادیر دقیق P، Recall R و F1 به عنوان شاخص ارزیابی استفاده می‌کند. می توان آن را به صورت زیر محاسبه کرد:

در جایی که مثبت های واقعی نشان دهنده داده هایی هستند که واقعاً پیش بینی شده اند، مثبت های کاذب نشان دهنده داده هایی هستند که به اشتباه پیش بینی شده اند و منفی های کاذب نشان دهنده داده هایی هستند که باید به درستی پیش بینی شوند اما پیش بینی نشده اند.

۴٫۲٫ نتایج شناسایی موجودیت

مدل شناسایی موجودیت BiLSTM-CRF با استفاده از متن سایت باستان‌شناسی برچسب‌گذاری شده آموزش داده شد. به منظور ارزیابی اثربخشی مدل شناسایی موجودیت BiLSTM-CRF در متون سایت باستان‌شناسی، آزمایش‌های مقایسه‌ای بر روی یک مدل مارکوف پنهان (HMM، یک مدل آماری کلاسیک اولیه)، یک مدل BiLSTM با داده‌های تجربی مشابه انجام شد. نتایج تجربی در جدول ۶ نشان داده شده است.
از تجزیه و تحلیل آزمایش مقایسه ای، تأثیر مدل BiLSTM-CRF ساخته شده در این مقاله، با نرخ دقت ۹۴٫۵۱ درصد، نرخ فراخوان ۸۲٫۱۰ درصد و مقدار F1 87.87 درصد، نسبت به روش های دیگر برتر است. این نشان می‌دهد که سازگاری خوبی در وظیفه شناسایی موجودیت متن سایت باستان‌شناسی دارد و می‌تواند به طور موثر مدل‌سازی انتزاعی متون باستان‌شناسی را انجام دهد. از نظر سه معیار، مدل در این مقاله با بهبود در دقت، در یادآوری و در مقدار F1 از مدل HMM بهتر عمل می‌کند. این نشان می دهد که عملکرد مدل متکی به یک شبکه عصبی بدیهی است بهتر از مدل آماری اولیه، با بهبود قابل توجهی. مدل در این مقاله دقت، فراخوانی و مقدار F1 را در مقایسه با BiLSTM بهبود می بخشد.
در ادامه، تجزیه و تحلیل بیشتر در مورد نتیجه شناسایی مدل BiLSTM-CRF برای انواع مختلف موجودیت ها در جدول ۷ نشان داده شده است .
مشاهده می شود که این مدل می تواند به طور نسبی چهار نوع موجودیت را در متن سایت باستان شناسی تشخیص دهد که مقادیر F1 موقعیت جغرافیایی و نوع فرهنگی بالای ۹۰ درصد است. از تجزیه و تحلیل نتایج تجربی، می توان مشاهده کرد که دقت موجودیت های نوع فرهنگی بالاترین است. این ممکن است به شناسایی واضح «فرهنگ» و «نوع» در متون سایت باستان‌شناسی چینی مرتبط باشد، که برای بهبود ظرفیت تشخیص مدل مفید است. برعکس، توصیف سلسله تاریخی در زبان چینی پیچیده‌تر است، بنابراین این مدل در یافتن یک بیان قاعده کلی مشکل دارد و نتیجه شناخت نسبتاً ضعیفی را به همراه دارد.

۴٫۳٫ نتایج استخراج رابطه

در آزمایش استخراج رابطه موجودیت، از دقت P، مقدار فراخوان R و F1 نیز برای ارزیابی عملکرد مدل استفاده می‌شود. به منظور تأیید عملکرد مدل توجه دوگانه BiGRU در دقت و یادآوری، نتیجه تجربی استخراج رابطه از موجودیت‌های متن باستان‌شناسی تحلیل و با مدل BiLSTM-توجه مقایسه می‌شود. نتایج در جدول ۸ نشان داده شده است.
نتایج تجربی نشان می‌دهد که مدل توجه دوگانه BiGRU عملکرد بهتری نسبت به مدل BiLSTM-توجه بدون افزایش پیچیدگی مدل به دست می‌آورد. مدل BiGRU-Dual Attention مقداری بهبود در عملکرد، با پیشرفت در دقت، در یادآوری و در مقدار F1 را نشان می‌دهد. در این میان، مشاهده می‌شود که استفاده از مکانیسم توجه دوگانه تأثیر مثبتی بر بهبود عملکرد مدل و دستیابی به دقت بالاتر در استخراج رابطه دارد. به منظور تجزیه و تحلیل بیشتر تفاوت در اثر استخراج روابط مختلف موجودیت، نتایج ارزیابی روابط مختلف، همانطور که در جدول ۹ نشان داده شده است، تجزیه و تحلیل می شود .
همراه با توزیع موجودیت مجموعه داده نمونه برچسب‌گذاری شده، از جدول ۴ قابل مشاهده استکه رابطه مکان سایت بیشترین نسبت را در مجموعه آزمایشی به خود اختصاص می دهد، در حالی که رابطه هیچکدام کمترین نسبت را به خود اختصاص می دهد. به طور نسبی، مقوله‌های رابطه با حجم زیادی از داده‌ها، نرخ فراخوانی بالاتری در طول آزمون دارند. از تجزیه و تحلیل فوق، می توان دریافت که در کار استخراج رابطه متن، در مقایسه با بهبود الگوریتم مدل، کیفیت مجموعه نیز حیاتی است. هر چه کیفیت مجموعه های آموزشی و یادگیری مدل یادگیری عمیق بالاتر باشد، اثر تشخیص مدل دقیق تر خواهد بود. از نظر اثربخشی و امکان‌سنجی، نتایج تجربی جامع نشان می‌دهد که مدل توجه دوگانه BiGRU تأثیر مثبتی بر استخراج رابطه در متون سایت باستان‌شناسی چینی دارد.
هدف از آزمایش فوق، امکان سنجی کاربرد استخراج اطلاعات در زمینه متون محوطه باستان شناسی و یافتن روشی مناسب است. از طریق تأمل در نتایج آزمون، می‌تواند به افزایش مجموعه داده‌ها و مدل‌ها در تحقیقات بعدی کمک کند. به طور کلی، مدل BiLSTM-CRF می تواند به طور موثر چهار نوع موجودیت را که به اطلاعات مکانی-زمانی سایت ها مربوط می شوند، شناسایی کند. با این حال، یادآوری کمی دارد که ناشی از تغییرپذیری الگوهای جملات در متون سایت باستان‌شناسی چینی است. بعداً، پیکره با برچسب نهاد را برای بهبود توانایی تشخیص مدل اضافه می کنیم. بر اساس آزمایش شناسایی موجودیت، مشخص شده است که مدل توجه دوگانه BiGRU در وظیفه استخراج رابطه سایت باستان شناسی به خوبی عمل می کند، که کارایی آموزشی آزمایش را بیشتر افزایش می دهد. علاوه بر این، دلیل تشخیص نادرست رابطه موجودیت عمدتاً به فقدان پیکره حاشیه‌نویسی مربوط می‌شود و در نتیجه توانایی استخراج رابطه مدل وجود ندارد. در تحقیقات آینده، مجموعه متون حاشیه نویسی رابطه ای گسترش خواهد یافت. ما امیدواریم که بتوانیم توانایی استخراج مدل را بهبود بخشیم تا مرجعی برای ساخت نمودار دانش محوطه های باستانی ارائه کنیم. منجر به عدم توانایی استخراج رابطه مدل می شود. در تحقیقات آینده، مجموعه متون حاشیه نویسی رابطه ای گسترش خواهد یافت. ما امیدواریم که بتوانیم توانایی استخراج مدل را بهبود بخشیم تا مرجعی برای ساخت نمودار دانش محوطه های باستانی ارائه کنیم. منجر به عدم توانایی استخراج رابطه مدل می شود. در تحقیقات آینده، مجموعه متون حاشیه نویسی رابطه ای گسترش خواهد یافت. ما امیدواریم که بتوانیم توانایی استخراج مدل را بهبود بخشیم تا مرجعی برای ساخت نمودار دانش محوطه های باستانی ارائه کنیم.

۴٫۴٫ مثال کاربردی

با پیشرفت رایانه ها و اینترنت در طول سال ها، می توان دریافت که فناوری نمودار دانش توجه گسترده ای را به خود جلب کرده است. نمودارهای دانش دارای مزایای طبیعی برای تجزیه و تحلیل، نمایش و استفاده از نتایج استخراج اطلاعات هستند. به عنوان پایگاه دانش معنایی ساختاریافته، نمودارهای دانش می توانند به طور موثر حجم عظیمی از اطلاعات را پردازش، مدیریت و ادغام کنند. استخراج اطلاعات بر اساس سه گانه ساختاریافته گام مهمی در فرآیند ساخت نمودارهای دانش است. پس از آزمایش استخراج اطلاعات فوق، سه گانه ها را از متون سایت باستان شناسی به دست می آوریم. با ذخیره سه گانه ها در پایگاه داده رابطه ای، می توانیم یک نمودار دانش پایه به دست آوریم و تبدیل از متون بدون ساختار به متون ساختاریافته را کامل کنیم. در راستای فرآیند ساخت نمودار دانش، توسعه و ذخیره نمودارهای دانش سایت باستان شناسی بر اساس Neo4j محقق می شود. این نمودار در مجموع شامل ۳۳۱۸ گره و ۸۱۲۰ یال است.شکل ۵نمودار دانش جزئی از سایت های باستانی را نشان می دهد. اساساً، این مقاله با هدف استخراج اطلاعات مکانی-زمانی ساختاریافته از داده‌های متنی مختلف باستان‌شناسی و رسمی‌سازی آنها با یک نمایش سه‌گانه یکپارچه است. آنها از دسترسی به زبان پرس و جو گرافیکی پشتیبانی می کنند، به طوری که می توان دانش عمیق را به دست آورد. معرفی نمودارهای دانش نسبتاً جدید است و مطالعات کمی کاربرد آنها را در زمینه باستان شناسی بررسی کرده است. در آینده، پیوند دانش محوطه باستان‌شناسی را از منابع مختلف در نظر می‌گیریم، و استفاده از این دانش مرتبط، کشف دانش باستان‌شناسی را بیشتر تقویت می‌کند. با ساخت نمودار دانش محوطه باستان شناسی، نه تنها دانش محوطه باستان شناسی را غنی می کند، بلکه باستان شناسی را برای عموم رایج می کند. در همین حال،

۵٫ بحث و نتیجه گیری

متن محوطه باستانی به عنوان هدف تحقیق در این پژوهش انتخاب شده است. با توجه به موضوع اطلاعات غنی با دانش پراکنده در زمینه متون محوطه باستان شناسی چینی، ویژگی ها و الزامات کاربردی آن به عنوان نقطه شروع در نظر گرفته شده است. ما از روش استخراج اطلاعات برای استخراج اطلاعات مکانی-زمانی از متن سایت باستان شناسی استفاده می کنیم. نتایج نشان می دهد که برای کارهای مربوطه مناسب است. در مقایسه با سایر مطالعات موجود، ما متن منابع داده بیشتری را بررسی می‌کنیم و طبیعتاً آنها را با هم ادغام می‌کنیم. این مطالعه داده های چند منبعی مانند کتاب های باستان شناسی، گزارش های کاوش ها و متون آنلاین را به دست آورده است. این مزیت به دست آوردن اطلاعات با کیفیت بالاتر و پوشش خوب زمینه های محوطه باستان شناسی است. که برای کشف و کسب دانش حیاتی است. ما ثابت می‌کنیم که فناوری استخراج اطلاعات برای حوزه باستان‌شناسی چینی مناسب است، نه اینکه فقط یک شی متن واحد را مورد بحث قرار دهد. در مقایسه با ژانگ [۲۵ ]، تحت معیارهای ارزیابی یکسان، P، R و F1 آزمایش استخراج اطلاعات ما به طور جزئی کمتر هستند، اساساً با توجه به این واقعیت که داده‌های ورودی در مطالعه او نیمه‌ساختارمند هستند، در حالی که داده‌های ورودی ما ساختاریافته هستند و می‌آیند. از منابع مختلف عملکرد مدل شناسایی موجودیت نامگذاری شده مشابه لیو است [ ۲۶] اما با دقت بالاتر و یادآوری کم. با ظهور مداوم موجودیت‌های جدید، برای تضمین کیفیت شناسایی موجودیت نام‌گذاری شده، نیاز به حفظ فرهنگ لغت داریم. زمانی که دیکشنری ها مفصل نیستند یا قوانین دامنه کامل نیستند، اغلب ویژگی های دقت بالا و یادآوری کم وجود دارد. به طور همزمان، همچنین مشاهده می شود که توزیع نامتعادل روابط موجود در متن محوطه های باستانی وجود دارد. در یک متن، اغلب توصیف های بیشتری از مکان و کمتر توصیفی از فرهنگ یا سلسله وجود دارد. بنابراین، در مورد انطباق الگوریتم مدل، افزایش موثر داده‌ها انتظار می‌رود که توزیع روابط موجودیت را متعادل کند تا اثر کلی استخراج اطلاعات بهبود یابد. امروزه رسانه های مختلف به اشتراک گذاری اطلاعات دانش مفیدی را ارائه می دهند. بنابراین ایجاد یک پایگاه دانش نهایی و کامل دشوار است. با این حال، منابع مختلف دانش می توانند مکمل یکدیگر باشند. در مقایسه با روش جریان توصیف استفاده شده توسط ژانگ [۲۳ ]، سه قلوها می توانند دانش را از منابع مختلف به هم متصل کرده و آنها را به صورت یکپارچه منتشر کنند. در همان زمان، ما نمودارهای دانش را معرفی کردیم و یک کاوش اولیه را انجام دادیم. این به کاربران اجازه می دهد تا پرس و جوهای پیچیده ای را در نمودار دانش ایجاد کنند تا ارتباط و اشتراک دانش را ارتقا دهند. بر این اساس، می‌تواند برای محققین مربوطه پشتیبانی داده و ایده‌های جدیدی برای بازیابی اطلاعات سنتی ارائه دهد.
مطالعه روش استخراج اطلاعات مکانی-زمانی و تأیید اثربخشی آن در متون سایت باستان‌شناسی چینی در این مقاله انجام شده است. این مطالعه با استفاده کامل از داده‌های متنی سایت باستان‌شناسی چند منبعی و ناهمگون در اینترنت، حاشیه‌نویسی داده‌ها را انجام می‌دهد که در ابتدا ساخت مجموعه سایت باستان‌شناسی چینی را تکمیل می‌کند. از آنجایی که هیچ مجموعه یا مجموعه داده حاشیه نویسی عمومی در زمینه باستان شناسی چینی وجود ندارد، از طریق تجزیه و تحلیل متون سایت باستان شناسی چینی، این مطالعه تعریف مناسبی از سلسله مراتب رابطه موجودیت در مورد اطلاعات مکانی-زمانی سایت ارائه می دهد. بر این اساس، پایه داده ای را برای استخراج دانش از محوطه های باستانی ایجاد می کند. با تکیه بر روش یادگیری عمیق که نیازی به استخراج دستی ویژگی ندارد، BiLSTM-CRF، به نام مدل شناسایی موجودیت، و مدل استخراج رابطه توجه دوگانه BiGRU برای استخراج اطلاعات مکانی-زمانی در سایت ساخته شده‌اند. پس از آن، این مطالعه آزمایش‌های مقایسه‌ای انجام داد که نتایج تجربی نسبتاً خوبی به دست آورد. این نتایج امکان بکارگیری این روش استخراج اطلاعات را در متون محوطه باستان شناسی نشان می دهد. برای تأیید بیشتر نتایج استخراج از رابطه موجودیت سه گانه از سایت های باستان شناسی، نمونه ای از یک نمودار دانش تکمیل شد. بنابراین روش جدیدی برای ذخیره و نمایش دانش محوطه باستان شناسی سنتی ارائه شده است. با توجه به نتایج مطالعه، می تواند تحقیقات مربوطه در زمینه کاوش اطلاعات مکانی-زمانی را در سایت ها ترویج کند و زمینه را برای ساخت نمودارهای دانش در باستان شناسی فراهم کند. علاوه بر این، برای ارتقای نوآوری روش‌های تحقیق باستان‌شناسی و کاوش مشکلات باستان‌شناسی در عصر اطلاعات، ارزش مرجع زیادی دارد. در کار بعدی، در نظر گرفته شده است که نهادهای باستان شناسی بیشتری (از جمله مصنوعات حفاری شده، محوطه سایت و غیره) حاشیه نویسی شود تا مجموعه را گسترش دهد، که تلاش می کند ساخت نمودارهای دانش را در زمینه باستان شناسی چینی کامل کند و مفهوم را غنی کند. از دانش در عین حال، ما به توسعه و تحقیق جستجوی معنایی، پرسش و پاسخ هوشمند و سایر برنامه‌های کاربردی سطح بالا بر اساس نمودار دانش سایت باستان‌شناسی چینی ادامه خواهیم داد. برای ارتقای نوآوری روش های تحقیق باستان شناسی و کاوش در مشکلات باستان شناسی در عصر اطلاعات، ارزش مرجع زیادی دارد. در کار بعدی، در نظر گرفته شده است که نهادهای باستان شناسی بیشتری (از جمله مصنوعات حفاری شده، محوطه سایت و غیره) حاشیه نویسی شود تا مجموعه را گسترش دهد، که تلاش می کند ساخت نمودارهای دانش را در زمینه باستان شناسی چینی کامل کند و مفهوم را غنی کند. از دانش در عین حال، ما به توسعه و تحقیق جستجوی معنایی، پرسش و پاسخ هوشمند و سایر برنامه‌های کاربردی سطح بالا بر اساس نمودار دانش سایت باستان‌شناسی چینی ادامه خواهیم داد. برای ارتقای نوآوری روش های تحقیق باستان شناسی و کاوش در مشکلات باستان شناسی در عصر اطلاعات، ارزش مرجع زیادی دارد. در کار بعدی، در نظر گرفته شده است که نهادهای باستان شناسی بیشتری (از جمله مصنوعات حفاری شده، محوطه سایت و غیره) حاشیه نویسی شود تا مجموعه را گسترش دهد، که تلاش می کند ساخت نمودارهای دانش را در زمینه باستان شناسی چینی کامل کند و مفهوم را غنی کند. از دانش در عین حال، ما به توسعه و تحقیق جستجوی معنایی، پرسش و پاسخ هوشمند و سایر برنامه‌های کاربردی سطح بالا بر اساس نمودار دانش سایت باستان‌شناسی چینی ادامه خواهیم داد. در نظر گرفته شده است که نهادهای باستان شناسی بیشتری (از جمله مصنوعات حفاری شده، محوطه سایت و غیره) را برای گسترش مجموعه، که تلاش می کند ساخت نمودارهای دانش در زمینه باستان شناسی چینی را کامل کند و مفهوم دانش را غنی کند، حاشیه نویسی کند. در عین حال، ما به توسعه و تحقیق جستجوی معنایی، پرسش و پاسخ هوشمند و سایر برنامه‌های کاربردی سطح بالا بر اساس نمودار دانش سایت باستان‌شناسی چینی ادامه خواهیم داد. در نظر گرفته شده است که نهادهای باستان شناسی بیشتری (از جمله مصنوعات حفاری شده، محوطه سایت و غیره) را برای گسترش مجموعه، که تلاش می کند ساخت نمودارهای دانش در زمینه باستان شناسی چینی را کامل کند و مفهوم دانش را غنی کند، حاشیه نویسی کند. در عین حال، ما به توسعه و تحقیق جستجوی معنایی، پرسش و پاسخ هوشمند و سایر برنامه‌های کاربردی سطح بالا بر اساس نمودار دانش سایت باستان‌شناسی چینی ادامه خواهیم داد.

منابع

  1. Spaulding, ACJS Anthropological Papers ; اعداد ۵۷-۶۲٫ بولتن ۱۷۳; دفتر قوم شناسی آمریکایی، موسسه اسمیتسونیان: واشنگتن، دی سی، ایالات متحده آمریکا، ۱۹۶۰; جلد ۱۳۲، ص. ۸۸۸٫ [ Google Scholar ]
  2. Zhang, G. Kaoguxue Zhuanti Liujiang [شش سخنرانی تخصصی باستان شناسی] ; Wenwu Chubanshe: پکن، چین، ۱۹۸۶٫ [ Google Scholar ]
  3. کاوی، جی. Lehnert, W. استخراج اطلاعات. اشتراک. ACM ۱۹۹۶ ، ۳۹ ، ۸۰-۹۱٫ [ Google Scholar ] [ CrossRef ]
  4. هوانگ، ز. خو، دبلیو. Yu, K. مدل های دو جهته LSTM-CRF برای برچسب گذاری توالی. arXiv preprint ۲۰۱۵ , arXiv:1508.01991. [ Google Scholar ]
  5. ژو، پی. شی، دبلیو. تیان، جی. چی، ز. لی، بی. هائو، اچ. Xu، B. شبکه های حافظه کوتاه مدت دو جهته مبتنی بر توجه برای طبقه بندی رابطه. در مجموعه مقالات پنجاه و چهارمین نشست سالانه انجمن زبانشناسی محاسباتی، برلین، آلمان، ۷ تا ۱۲ اوت ۲۰۱۶؛ ص ۲۰۷-۲۱۲٫ [ Google Scholar ]
  6. لین، ی. شن، اس. لیو، ز. لوان، اچ. Sun، M. استخراج رابطه عصبی با توجه انتخابی بر روی نمونه ها. در مجموعه مقالات پنجاه و چهارمین نشست سالانه انجمن زبانشناسی محاسباتی (مقالات طولانی)، برلین، آلمان، ۷ تا ۱۲ اوت ۲۰۱۶؛ جلد ۱، ص ۲۱۲۴–۲۱۳۳٫ [ Google Scholar ]
  7. گوا، ایکس. او، تی. نظرسنجی در مورد تحقیق در مورد استخراج اطلاعات. محاسبه کنید. علمی ۲۰۱۵ ، ۴۲ ، ۱۴-۱۷٫ [ Google Scholar ]
  8. هامفریس، ک. گایزاوسکاس، آر. عزام، س. هایک، سی. میچل، بی. کانینگهام، اچ. Wilks, Y. شرح سیستم LaSIE-II همانطور که برای MUC-7 استفاده می شود. در مجموعه مقالات هفتمین کنفرانس درک پیام (MUC-7)، فیرفکس، ویرجینیا، ۲۹ آوریل تا ۱ مه ۱۹۹۸٫ [ Google Scholar ]
  9. چمبرز، ن. Jurafsky, D. استخراج اطلاعات مبتنی بر الگو بدون الگوها. در مجموعه مقالات چهل و نهمین نشست سالانه انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی، پورتلند، OR، ایالات متحده آمریکا، ۱۹ تا ۲۴ ژوئن ۲۰۱۱٫ ص ۹۷۶-۹۸۶٫ [ Google Scholar ]
  10. کیو، کیو. زی، ز. وو، ال. تائو، ال. Li، W. BiLSTM-CRF برای شناسایی موجودیت با نام زمین شناسی از ادبیات علم زمین. علوم زمین به اطلاع رساندن. ۲۰۱۹ ، ۱۲ ، ۵۶۵-۵۷۹٫ [ Google Scholar ] [ CrossRef ]
  11. ژانگ، ایکس. بله، پی. وانگ، اس. Du, M. روش شناسایی موجودیت های زمین شناسی بر اساس شبکه های اعتقاد عمیق. اکتا بنزین. گناه ۲۰۱۸ ، ۳۴ ، ۳۴۳-۳۵۱٫ [ Google Scholar ]
  12. Zhao, J. تحقیق در مورد کاربرد روش استخراج رابطه واژگانی موجودیت تقاضا بر اساس Bi-GRU. J. Phys. Conf. سر. ۲۰۲۱ , ۱۷۴۸ , ۰۳۲۰۳۲٫ [ Google Scholar ] [ CrossRef ]
  13. ژائو، جی. وانگ، ایکس. Guan، Y. مقایسه ترکیب ویژگی با ترکیب ویژگی ها در تشخیص موجودیت با نام چینی. جی. کامپیوتر. Appl. ۲۰۰۵ ، ۲۵ ، ۲۶۴۷-۲۶۴۹٫ [ Google Scholar ]
  14. لینگ، ی. یانگ، جی. او، L. تشخیص نام سازمان چینی بر اساس ویژگی های متعدد. در مجموعه مقالات کارگاه آموزشی اقیانوس آرام-آسیا در زمینه اطلاعات و اطلاعات امنیتی، کوالالامپور، مالزی، ۲۹ مه ۲۰۱۲; صص ۱۳۶-۱۴۴٫ [ Google Scholar ]
  15. یانگ، ز. هوانگ، ی. جیانگ، ی. سان، ی. ژانگ، YJ; Luo, P. تشخیص دستیار بالینی برای پرونده الکترونیکی پزشکی بر اساس شبکه عصبی کانولوشن. علمی Rep. ۲۰۱۸ , ۸ , ۶۳۲۹٫ [ Google Scholar ] [ CrossRef ] [ PubMed ] [ نسخه سبز ]
  16. زینگ، ام. یانگ، سی.-اچ. جین، L.-Y. بی، J.-Q. تحقیق در مورد ساخت و کاربرد نمودار دانش در حوزه نظامی. در مجموعه مقالات مجموعه کنفرانس IOP: علم و مهندسی مواد، گوانگژو، چین، ۲۰ تا ۲۱ سپتامبر ۲۰۲۰؛ پ. ۰۱۲۰۵۳٫ [ Google Scholar ]
  17. چن، ی. کوانگ، جی. چنگ، دی. ژنگ، جی. گائو، ام. Zhou، A. AgriKG: نمودار دانش کشاورزی و کاربردهای آن. در مجموعه مقالات کنفرانس بین المللی سیستم های پایگاه داده برای کاربردهای پیشرفته، چیانگ مای، تایلند، ۲۲ تا ۲۵ آوریل ۲۰۱۹؛ صص ۵۳۳-۵۳۷٫ [ Google Scholar ]
  18. لنگ، جی. جیانگ، پی. رویکرد یادگیری عمیق برای استخراج رابطه از زمینه تعامل در پارادایم ساخت اجتماعی. سیستم مبتنی بر دانش ۲۰۱۶ ، ۱۰۰ ، ۱۸۸-۱۹۹٫ [ Google Scholar ] [ CrossRef ]
  19. ریتر، آ. اتزیونی، او. کلارک، اس. استخراج رویداد دامنه را از توییتر باز کنید. در مجموعه مقالات هجدهمین کنفرانس بین المللی ACM SIGKDD در مورد کشف دانش و داده کاوی، پکن، چین، ۱۲ تا ۱۶ اوت ۲۰۱۲٫ صص ۱۱۰۴–۱۱۱۲٫ [ Google Scholar ]
  20. Sprugnoli، R. Arretium یا Arezzo؟ رویکرد عصبی به شناسایی نام مکان ها در متون تاریخی. در مجموعه مقالات پنجمین کنفرانس ایتالیایی زبانشناسی محاسباتی CLiC-It 2018، تورینو، ایتالیا، ۱۰ تا ۱۲ دسامبر ۲۰۱۸؛ صص ۳۶۰-۳۶۵٫ [ Google Scholar ]
  21. پترسون، ای. لیندستروم، جی. جاکوبسون، بی. Fiebranz, R. HistSearch – پیاده سازی و ارزیابی ابزار مبتنی بر وب برای استخراج خودکار اطلاعات از متن تاریخی. در مجموعه مقالات HistoInformatics@ DH، کراکوف، لهستان، ۱۱ ژوئیه ۲۰۱۶٫ صص ۲۵-۳۶٫ [ Google Scholar ]
  22. Vlachidis، A. تودهوپ، دی. Wansleeben، M. شناخت نهاد نامگذاری شده مبتنی بر دانش مفاهیم باستان شناسی در هلندی. در مجموعه مقالات کنفرانس تحقیقاتی در مورد تحقیقات فراداده و معناشناسی، مادرید، اسپانیا، ۲ تا ۴ دسامبر ۲۰۲۰؛ صص ۵۳-۶۴٫ [ Google Scholar ]
  23. ژانگ، سی. تحقیقی در مورد روشهای کسب دانش از متون خاص دامنه و کاربرد آنها در کسب دانش از متون باستان شناسی. پایان نامه کارشناسی ارشد، موسسه فناوری محاسبات، آکادمی علوم چین، پکن، چین، ۲۰۰۵٫ [ Google Scholar ]
  24. Lu, W. کاربرد یادگیری عمیق در بازآفرینی خلاقانه آثار فرهنگی کوره چانگشا. در مجموعه مقالات کنفرانس بین المللی تعامل انسان و رایانه، کپنهاگ، دانمارک، ۱۹ تا ۲۴ ژوئیه ۲۰۲۰؛ صص ۵۵۸-۵۶۸٫ [ Google Scholar ]
  25. Zhang, Y. تحقیق و کاربرد استخراج اطلاعات و تجزیه و تحلیل کاوش های باستان شناسی. پایان نامه کارشناسی ارشد، دانشگاه ژجیانگ، هانگژو، چین، ۲۰۱۸٫ [ Google Scholar ]
  26. لیو، آر. نمودار ساخت و بازیابی دانش برای کتاب های تاریخ بیوگرافی. پایان نامه کارشناسی ارشد، دانشگاه شمالی چین، تایوان، چین، ۲۰۲۰٫ [ Google Scholar ]
  27. بایدو بایک. در دسترس آنلاین: https://baike.baidu.com (در ۳۰ نوامبر ۲۰۲۱ قابل دسترسی است).
  28. CNKI. در دسترس آنلاین: https://www.cnki.net (در ۳۰ نوامبر ۲۰۲۱ قابل دسترسی است).
  29. وانگ، دبلیو دیکشنری باستان شناسی چینی . Shanghai Ci Shu Chu Ban She: شانگهای، چین، ۲۰۱۴٫ [ Google Scholar ]
  30. یانگ، جی. ژانگ، ی. لی، ال. Li, X. YEDDA: یک ابزار حاشیه نویسی در طول متن مشترک. arXiv ۲۰۱۷ , arXiv:1711.03759. [ Google Scholar ]
شکل ۱٫ نمایش استخراج اطلاعات در متن سایت باستان شناسی.
شکل ۲٫ نمودار جریان استخراج اطلاعات.
شکل ۳٫ مدل حافظه کوتاه مدت دو طرفه با میدان های تصادفی شرطی (BiLSTM-CRF).
شکل ۴٫ واحدهای بازگشتی دردار دو طرفه با توجه دوگانه (BiGRU-Dual Attention) مدل.
شکل ۵٫ نمونه نمودار دانش محوطه باستانی (بخش).

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خانهدربارهتماسارتباط با ما